Apple「やっぱVision Proクソだわ」

2024年4月18日 08:24

先日AppleがReALM: Reference Resolution As Language Modelingという論文をarXivに投稿しました。

この論文は参照解決というタスクに対して大きな成果を強調しています。

参照解決とは、文章の中で「誰や何のことを指しているか」を特定するタスクです。これには、過去の会話やユーザーの画面上に表示されているものなど、様々な種類の状況が含まれます。
例えば「さっきのラーメン屋に星３つけといて」とAIに指示をしても、現在のAIは「さっきのラーメン屋」が何を指しているのかがわからないし「星３つけといて」が何を（どこを）意味するのかを理解できません。

昨今の大規模言語モデル（LLM）は様々なタスクで非常に強力ですが、特に画面上のものなど、会話に含まれない対象の特定での活用はまだ十分ではありません。ReALMは、特定の対象を言語モデリングの問題に変換する方法を示し、既存研究を大きく改善しています。

日本でも一部記事として取り上げられていますが、あまり話題になっていないのが個人的に不思議です。

この論文はXRにおいて非常に大きなインパクトをもたらしたと考えており、それをAppleが発表したということはやっぱAppleさんもVision Proクソだと思ってたんスねっていう印象です。

本記事では簡単に論文の中身をつまみつつ、それがどうインパクトをもたらしたのかというところを書いていこうと思います。

Siri x ReALM

Appleは長らくSiriという音声アシスタントをiPhoneやMac等の製品に搭載してきました。
ReALMはこのSiriをこれまでにない非常に強力なAIすることが可能であること示しました。
また同時に、今後の操作は音声が主流になるであろうことも示しました。

私達の会話には、しばしばあいまいな表現（「彼ら」や「それ」など）が用いられます。私達はそれらを抽象的な文脈に基づいて理解していますが、機械には非常に難しいタスクです。
Siriのような音声アシスタントがユーザーの要望を自然に理解し対応するためには、このような参照を含む文脈を把握する能力が不可欠です。また、ユーザーが画面上の内容について問い合わせられることも、音声アシスタントにとって重要なステップです。ReALMは、画面上の要素をテキストとしてエンコードする新しい手法を提案し、参照解決のための言語モデルの利用を提唱しています。

例えば、もしSiriにキノコを使わない健康的なレシピを尋ねたとすると、Siriはあなたの好みを認識し、冷蔵庫にある食材を考慮に入れた上で、適切なレシピを提案することができるようになります。
同時に論文では、iPhone等の端末側で動作することも示唆しており、ユーザーのパーソナル部分を深くそして安全に理解しようとしています。

新のハンズフリー

ReALMの重要な特徴は、画面上に表示される情報への参照を解決できる点にあります。この技術により、デバイスの画面に表示された情報をテキスト形式に変換し、Siriが視覚的に理解できるようにすることが可能です。
例えば、ユーザーがSiriに特定のレストランへの道順を尋ねた場合、ReALMは画面上に表示されているレストランリストから正確な情報を抽出し、応答することができます。

この技術の進化により、アプリやウェブサイトだけでなく、将来の拡張現実インターフェースやリアルタイムの環境認識にも活用される可能性があります。ReALMは、これらの情報を基にしてユーザーとのより自然でシームレスな対話を支援し、日常のデジタルインタラクションを大きく進化させることを目指しています。

ReALMの革新的な参照解決機能

ReALMは、単なる画面上の情報や会話内容だけでなく、周囲の環境や起きている事象への理解も深めます。
たとえば、ユーザーが街なかで耳にした曲をSiriに再生してほしいと依頼した場合、Siriはその要求を理解し、環境音声を解析して特定の曲を識別、再生できるようになります。この技術により、Siriは言葉を理解するだけでなく、ユーザーの日常生活とそのコンテキストをより豊かに捉えることができるようになります。

これにより、Siriはより実用的で、アイアンマンに登場するジャービスやフライデーのようなユーザーの生活に密接に結びついたAIアシスタントとしての役割を果たすように進化していくと予想できます。。

プライバシー保護とパーソナライゼーション

ReALMの特筆すべき機能の一つは、デバイス上で完全に動作することによるプライバシーの保護です。これはAppleが長年にわたって重視してきたユーザープライバシーの保護という点にもつながります。
ReALMはクラウドではなく、iPhoneやその他のAppleデバイス上で直接動作し、ユーザーデータを外部に送信することなく処理します。これにより、データのプライバシーを保ちながら、デバイスがユーザーの会話内容、アプリの使用状況、周囲の感覚データを学習することが可能です。
このようにして、ReALMは各ユーザーの独自のニーズや好みに合わせた、非常に個人化されたAIアシスタントを実現できるようになります。このアプローチは、現在のAIアシスタントが一般的に取り入れている一方向的な対応から、より個別対応が可能なパラダイムシフトを示しています。

Appleの見ている将来のXR

よりパーソナライズされたユーザ体験

ReALMによるSiriの強化は、XRにおいて最も大きな課題であるユーザ体験を改善すると予想されます。

Apple Vision Proをはじめ多くのXRデバイスは手を使った操作が主となっています（一部視線などもあります）。
これは非常に無駄が多くそして大きくユーザ体験を損ないます。

デバイスはセンサーにより手の動きを常にトラッキングする必要があり、センサーの認識は範囲外ではトラッキングは機能しません。
常にトラッキングするということはそれだけ機械には常に負荷がかかるためバッテリーがみるみる減ることでしょう。

他にも他人の手を誤認識したり、公共の場でアホみたいなジェスチャーをする羽目になったり、そもそもダサくてクソッタレなHMDを浸かる羽目になったりと課題だらけです。

しかしながらSiriが全ての操作を行ってくれるのであればそれらは解決されます。
それこそセンサーやバッテリー等を排除できれば、XRデバイスはメガネ型やさらに小型なデバイスにといった普段の生活への影響が小さい形になるでしょう。

これらのような可能性を考慮し、今回の論文がAppleから出たことはApple自身がVision Proを出していながらもそのデバイスにおけるユーザ体験を良しとしていないと考えられます。

認知の拡張

Appleが目指しているのはXRにおけるユーザ体験だけではありません。Apple Watchが代表格のヘルス分野にもAppleは力を入れています。

Siriがユーザの様々なデータからパーソナライズされる時は、きっと視覚や音声情報もふんだんに使われるはずです。
それらを基にSiriは色々と忖度してくれるようになるかもしれません。
例えば、メンタルが弱っている場合はマップナビゲーションのルートを自然あふれるルートに変更したり、女性や子供には治安の良いルートを提案したりしてくれます。
さらには視覚情報を（人間が違和感を感じない程度に）変換してXRデバイス経由で治療を行えるようになるかもしれません。

もちろんヘルスケアだけに限った話ではなく、言語の異なる人同士での会話でも、発言者の方を見ているだけでその人の言語を音声翻訳してくれたり、会話の内容から相手の感情を推測して相手が喜ぶ話を提案してくれたりと第二の脳のような役割を果たしてくれるはずです。

これは人間の本来持っている認知領域を更に拡張してくれる新のXRであると考えられます。
（視覚だけのXRは100億万年遅れてるっていう話はまたいつか）

最後に

XR分野においては非常に大きなインパクトがある論文だったと思っていたのですが、その理由をもっと書くには文章じゃ面倒くさいし手首が痛くなってきたのでこれくらいで。

とはいえAIの進化がデバイスの制限をどんどん緩和してくれるのは肌感覚で感じており、XRにおけるゴツいデバイスと高いコスト、そしてダサさはわりとすぐに解決されそうな気がしてきました。

この記事が気に入ったらサポートをしてみませんか？