次世代iPhoneは「それ」とか「あそこ」をAIが読み解く、一言で世界が変わるNew iPhone Moment: Apple論文を推敲

2024年4月5日 18:44

次世代iPhoneは「それ」とか「あそこ」をAIが読み解く、一言で世界が変わる
New iPhone Moment
論文ReALM: Reference Resolution As Language Modeling
を読み取り、意図を理解しました。

１）画面上の参照解決
問題点: ユーザーが「設定でWi-Fiをオンにして」と言ったとき、従来のシステムは「設定」という言葉と「Wi-Fi」の概念を理解しても、それがスマートフォンの画面上のどこに位置するかを正確に識別できない場合があります。

目指すべき動作: システムはユーザーの指示を受けて、スマートフォンの画面上で「設定」アプリを見つけ、「Wi-Fi設定」オプションを特定し、Wi-Fiをオンにするアクションを自動で実行します。

２）アクション指向の問い合わせへの対応
問題点: ユーザーが「明日の天気をチェックして」と言うとき、多くのシステムは単に天気情報を表示することに留まりますが、ユーザーの真の意図は翌日の予定に合わせて服装を決めることかもしれません。

目指すべき動作: システムは天気情報を提供するだけでなく、「明日は雨が降るため、傘を持っていくことをお勧めします」といったアクション指向の提案を行うことです。

３）新しいエンティティタイプやユースケースへの拡張性
問題点: 新しいアプリや機能が登場しても、システムがそれらを認識できず、ユーザーの問い合わせに適切に対応できない場合があります。

目指すべき動作: 新しいアプリがインストールされたとき、システムは自動的にそのアプリの機能や操作方法を学習し、ユーザーの問い合わせに対して適切に対応できるようになります。例えば、新しい写真編集アプリがインストールされた場合、ユーザーが「写真を明るくして」と言ったとき、システムはその新しいアプリを使用して写真を自動的に編集します。

４）意味的類似性と常識的な推論の考慮
問題点: ユーザーが「最近撮ったビーチの写真を見せて」と言ったとき、従来のシステムは「ビーチ」という単語を画像のメタデータやファイル名で直接検索し、それに完全に一致するものしか見つけられない可能性があります。

目指すべき動作: システムは画像の内容を解析し、海や砂浜が写っている写真を識別できる能力を持っています。そのため、「最近撮ったビーチの写真」という問い合わせに対し、ユーザーがラベル付けしていなくても、ビーチの写真を正確に提示できます。

５）画面全体との関連性の考慮
問題点: ユーザーがウェブサイト上で「この記事を保存して」と言ったとき、従来のシステムはどの記事を指しているのか、またどのように保存するのか（ブックマークする、テキストとして保存する等）を理解できないことがあります。

目指すべき動作: システムはユーザーの現在見ているページを把握し、記事のタイトルや内容を認識して、ユーザーが意図する形式で保存するアクションを実行します。たとえば、記事をPDF形式でダウンロードする、またはオンラインのノートにクリップするなどです。

６）視覚変換器モデルの適用と計算コスト
問題点: ユーザーがスマートフォンやコンピュータの画面上で操作を行う際、従来のシステムでは高度な視覚認識機能を持つが、そのための計算コストが非常に高く、リアルタイムでの応答が難しいことがあります。

目指すべき動作: 新しい技術を使って、画面の内容を高速に解析し、ユーザーの指示に基づいて即座に行動できるシステムを構築します。たとえば、ユーザーが「このウィンドウを閉じて」と言った場合、システムは現在アクティブなウィンドウを識別し、迅速に閉じることができます。

研究の目指す方向が、より人間の自然な行動や意図を理解し、それに応じた適切なアクションを実行する能力を持つシステムの開発であることがわかります。このような進歩により、ユーザーエクスペリエンスは大きく向上し、多くの場面での利便性が高まります。

下記は
ReALM: Reference Resolution As Language Modeling
という論文の今までの経緯と動機を和訳したものです。

2 関連研究と動機
従来の参照解決システムは、会話や視覚的／決定的な参照を深く探求してきた（Kottur et al., 2018; Schwartz et al., 2019; Kang et al., 2019）が、画面上の参照を解決することは、比較的未開拓の領域である。しかし、上に示したように、モバイルデバイス上の操作エージェントは、画面への参照を理解し、そのような経験をサポートすることが、真に自然であるために必要である。さらに、画面上の要素に関するユーザーからの問い合わせは、多くの場合、QAベースというよりもアクション指向になる傾向があります。最後に、自然な実世界の画像ではなく、合成画面を使用するため、解析ははるかに簡単ですが、その分布は、（CLIP（Radford et al、 2021))のような大規模な画像ベースのシステムとは全く異なる。さらに、会話と画面上での共同作業は、まだあまり研究されていない。
視覚変換器（Dosovitskiy et al, 2020; Touvron et al, 2021; Liu et al. しかし、これらは、画面上のレイアウトのスクリーンショットではなく、自然で実世界の画像で学習される傾向があり、分布が大きく異なる。さらに、これらの（事前）学習には非常にコストがかかり、非常に多くの画像と数百GPU時間（またはそれ以上）を必要とする。さらに、テキストが多量に埋め込まれた画像では、これらのモデルはあまりうまく機能しない傾向があり、専用のテキスト理解アプローチ（Xuら、2020、2021；Hwangら、2021a,b；Hongら、2022）は、バウンディングボックス検出やOCRなどの複数のモジュールに大きく依存する傾向がある一方、良好な画像品質にも依存している。視覚＋テキストジョイントモデルは、パラメータと計算コストに関してもかなり高価である。最後に、これらのモデルは、機能を実行できるようにテキストを解析する必要があります（例："ビジネス番号に電話する "は、生の画像からビジネス固定電話に関連する番号を抽出する必要があります）。このプロセスは、横たわるテキストと画面上のその位置がシステムによって参照されていることを念頭に置くと、複雑で計算集約的である可能性があり、結果として、大規模で複雑なモデルなしで比較的容易に抽出することができます。
我々が認識している最も密接に関連する研究は、Bhargavaら(2023)を拡張したAtesら(2023)のもので、純粋に画面上の参照を扱う。第一に、このアプローチは、型ベースの参照を扱う専用の「カテゴリー・モジュール」に依存している。このモジュールは、多くの場合、新しいタイプが作成されるたびに、手動でオンボード・エンティティを必要とします（音声アシスタントでは、アシスタントのサポート機能が時間とともに拡張されるため、よくあることです）。さらに、このようなモジュールは、異なるタイプの類似性を無視して、各タイプを異なるものとして扱うことが多い。このため、意味的に関連するクラス（例えば、「電話番号」と「連絡先」）の間で、データが追加されたときに起こりうる、潜在的なポジティブトランスファーがテーブル上に残されます。したがって、このアプローチは、新しいエンティティタイプやユースケースに拡張することが困難である。第二に、これらのシステムは、手作業で作成されたルールベースのテキスト重複特徴の使用に依存しています。さらに、これらのヒューリスティックは意味的な類似性を考慮しないことが多く、実世界の理解や常識的な推論を符号化することができない。最後に、これらの方法は、各エンティティが問題のクエリにどの程度関連しているかを、他のすべてのエンティティに依存して効果的に分類しており、画面全体や他のエンティティを考慮していない。

この記事が気に入ったらサポートをしてみませんか？