スマホのタッチスクリーンは、音声とジェスチャーに代替されていく　佐々木俊尚の未来地図レポート　Vol.791

2024年1月29日 17:00

特集　スマホのタッチスクリーンは、音声とジェスチャーに代替されていく
〜〜〜生成AIがもたらす三つの方向性を解説する（２）

パソコンからスマホへと長く続いてきた「アイコンをポインタで指示する」というGUI（グラフィカルユーザインタフェイス）。GUIの時代は40年近くとあまりにも長く続いてきましたが、そろそろ変化の潮時が訪れているようです。

次世代のインタフェイスとして期待されているのは、音声とジェスチャー。いままさにChatGPTのような生成AIがテキストのタイプによるコミュニケーションだけでなく、音声でのやりとりへと進みつつありますし、別方向からはアップルがVision Proという新しいヘッドマウントディスプレイでジェスチャーのUIの地平を切りひらこうとしています。この二つの方向が合流してくれば、音声とジェスチャーがミックスしたUIの可能性がより明確に見えてくることになるでしょう。

その世界では、デバイスはどうなるのでしょうか。音声でやりとりするのにスマホは最適ですが、スマホに向き合ってジェスチャーでやりとりするのはけっこう面倒くさそう。Vision Proのようなヘッドマウントディスプレイはジェスチャーに向いていますが、現時点ではデカくて重すぎ、日常生活の用途には向いていません。ただ今後、バッテリーの問題も含めて軽量化が進み、メガネぐらいの大きさと軽さになれば、新しい可能性も見えてきそうです。ただそこにいたるまでにはかなりたくさんの技術的なハードルを乗り越える必要があり、一朝一夕には進まないでしょう。

「ロボホン」などで有名なロボットクリエイターの高橋智隆さんと対談した際に、高橋さんが「ヒューマノイドロボットがすべてのコントロールタワーになるUI」という概念を呈示されていたのが非常に印象的でした。たしかに、音声とジェスチャーが主なUIになるのだとすれば、それは人間と人間がコミュニケーションする構図にきわめて近く、だとすれば機械相手のUIも人間に似た形のヒューマノイドが良いのではという考えは、納得感が高いと思います。

現在のスマホのUIは、タッチスクリーンの中にあらゆるアプリや機能のアイコンが用意されていて、わたしたちはそれらのアイコンをタップしてアプリを動かしたりスマホに指示を出したりしています。しかし音声とジェスチャーのUIでは、アイコンは存在しません。Aというアイコンをタップする代わりに、「Aを起動して」と音声で命令を出せばいいのです。動作をストップする際にも、アイコンをタップして「ストップ」ボタンなどを押さなくても、ジェスチャーでイヤイヤ動作をすれば止められるようにすればいい。

その世界では、ひょっとしたらデバイスは存在しなくてもいいのかもしれません。たとえば皆さんの家にあるアマゾン・エコーなどのスマートスピーカー。「アレクサ、今日の天気は？」と聞くと「明日の渋谷区は晴れです」と答えてくれます。アマゾンはアレクサを現行のシンプルな古いAIではなく、生成AIを組み込むことを発表しており、日本でも年内にはリリースされるかもしれません。そうすれば天気やニュースを聞くだけでなく、アレクサと延々と哲学的問答をしたり、長い小説を紡いでもらって読み聞かせてもらったり、といった楽しみ方もできるようになるでしょう。

現在のスマートスピーカーは、円筒形などの形をしたブツとして部屋に鎮座しています。しかしこれは必ずしも目に見えるブツである必要はない。学校の教室のスピーカーのように、マイクともども壁に埋め込まれていても良いわけです。そうするとわれわれは、部屋の中で宙に向かって「アレクサ、何か面白い話をしてくれる？」と話しかけるということになる。

天気を聞いたりニュースを読んでもらうぐらいの質問ならそれでも大丈夫ですが、AIと長々とコミュニケーションをとり続けるときに、宙に向かってしゃべるというのが果たして良いUX（ユーザー体験）になり得るのかどうかは、もっと検討する必要があります。

個人ごとで恐縮ですが、コロナ禍の3年間、企業向けの講演などをオンラインで求められることが多くありました。収録会場にうかがってみると、そこは講演会場どころではなく単なるスタジオで、マイクとカメラが設置されていてその前にひとり座らされ、「さあ佐々木さん、ここから90分講演をお願いします」と求められる。当時流行った「無観客」のライブです。はっきり言って、これはかなりつらい体験でした。なにしろ会場からの反応がまったく無いのです。

何も拍手してほしい、合いの手を入れてほしい、といった過剰なことを聴衆に求めているわけではありません。わたしの方を見てくれていて、ときどき相づちをうったり、話が面白かったら微笑んだりくれたりする。そういうささやかな反応だけでも、講演者はとてもしゃべりやすくなるのです。オンラインの無観客には、こういう要素が皆無でした。

これはスマートスピーカーとの長いやりとりをするようになった場合にも、当てはまるのではないでしょうか。天気を聞くだけなら宙に向かって聞くのでも大丈夫ですが、長いコミュニケーションをとるのであれば、相手の顔が見えて反応がわかるほうが嬉しい。そう考えれば、UIとしてのヒューマノイドロボットという可能性は案外求められる可能性が高いように感じます。

近未来のわたしたちは、ヒューマノイドロボットに音声とジェスチャーで語りかけ、ロボットも音声とジェスチャーでこたえる。単に天気を聞いたりニュースを聞いたり、哲学的問答を楽しんだりするだけでなく、2024年のわれわれがスマホのアプリのアイコンをタップして指示を出すように、ロボットに向かって音声とジェスチャーでアプリを起動し操作し終了させる。

この記事では、米国の有名なQ&Aサイト「クオラ（Quora）」が7500万ドルの資金調達をし、その資金を「Poe」というAIチャットボットの開発に投じると解説されています。

興味深いのは、クオラというQ&AサイトとAIチャットボットの関係をどう捉えているのかということ。このふたつは別のサービスとして存在するのではなく、Q&Aサイトの玄関口としてAIチャットボットの可能性があると考えられているのです。

ここから先は

12,965字

¥ 300

期間限定 PayPay支払いすると抽選でお得に！

ログイン

この記事が気に入ったらサポートをしてみませんか？

スマホのタッチスクリーンは、音声とジェスチャーに代替されていく 佐々木俊尚の未来地図レポート Vol.791

特集 スマホのタッチスクリーンは、音声とジェスチャーに代替されていく〜〜〜生成AIがもたらす三つの方向性を解説する（２）

ここから先は

スマホのタッチスクリーンは、音声とジェスチャーに代替されていく　佐々木俊尚の未来地図レポート　Vol.791

特集　スマホのタッチスクリーンは、音声とジェスチャーに代替されていく
〜〜〜生成AIがもたらす三つの方向性を解説する（２）