見出し画像

生成AIを「4象限」で理解する

3月は年度末ということもあり、いつも以上に慌ただしくしていましたが、その分、多くの方々と対話することができ、ディスカッションを通して気づいたことがいくつかあります。

その1つは、「生成AI」について。昨年末にChatGPTがローンチされて以来、以前の「メタバース」に関する盛り上がりとは比べものにならないくらい、「生成AI」に関する見解が、賛否両論含めて数多く発表されています。

生成AIについて、さまざまな議論を目にしたり耳にしたりするなかで、自分なりに2つのことを考えました。

「手と目」の時代から「耳と口」の時代へ

一つは、「やはり、生成AIは検索を代替しないのではないか」ということ。これは以前に書いたとおりです。

もう一つは、生成AIがメインで活躍するのは、現在使われているパソコンやスマートフォンといった「手と目」を使用するデバイスではなく、「音声」すなわち「耳と口」をメインに使用する新しいデバイスになるのではないかということです。

その仮説をご説明するために、「メタバースの地政学」note(↓)のときにも試みた「4象限マトリクス」でまとめてみたいと思います。

今回の4象限マトリクスでは、横軸の左右は「停止」「移動」、縦軸の上下を「耳+口」「手+目」としました。

生成AIの4象限

まず、現状のインターネット環境を考えると、通信環境は以前に比べて格段に整備されているとはいえ、移動しながらWEB会議をすると、声がとぎれとぎれになってしまったり、地下に入ると通信そのものが遮断されてしまうことは、それなりの頻度で発生しています。

また、そもそも、液晶画面を「目」で眺めて、キーボードやタッチパネルなどを「指」(手)でを使って操作するデバイスが主流であるため、しっかりと操作するためには、机に座って作業するか、移動中であっても、一度立ち止まって画面を凝視しながら作業する必要があります。

そうやって考えると、仕事というシーンを想定した場合、4象限のうちで一番多いのは、第3象限(左下)の「停止」と「手と目」の組み合わせではないでしょうか。同僚と机を並べて仕事をするオフィススペース、あるいは集中するためにこもる個室ブースでは、「音声」を使って入力作業するよりも、キーボードを使って作業するほうが圧倒的に効率的です。

コロナ禍で劇的に増加したZoomなどを使ったオンライン会議は、「声」(耳と口)を使うとはいえ、相手の表情を「画面」を通して確認しながらになるため、今回は第3象限に分類したいと思います。


第2象限(左上)の「停止」と「耳と口」の組み合わせは、家事をしていたり、カフェで友人と過ごしている状況を想定しています。

移動のインターネット=生成AIが活躍する

生成AIの活用を考えた場合、ポイントとなるのは、赤枠で囲った第1象限(右上)。想定している動作は、車の運転や徒歩での移動です。

生成AIの4象限(再掲)

みなさんもご経験があると思いますが、移動している際に、「指」(手)を使って、スマートフォンなどのデバイスに何かを打ち込むのは簡単ではありませんし、なによりも危険です。

地下鉄の駅に「歩きスマホ禁止」のポスターが貼ってあったり、車の運転中にスマホを操作することが禁止されているのは、重大な事故につながる可能性があるためです。


ちなみに、警察庁のサイトによると、時速60キロのスピードで走っている車は、2秒間に30メートル以上進むそうです。ちょっと、目を逸らすことがいかに危険かわかる数字ですね。

やめよう!運転中のスマートフォン・携帯電話等使用|警視庁

つまり、移動しながらインターネット環境を活用(以下、「移動のインターネット」)するには、手や目を使うのではなく、「音声」すなわち、「耳」と「口」を使用するデバイス、あるいはソフトウェアのほうが適しているのです。

いま現在、生成AIは、キーボードを使って入力するケースが主流ですが、やがては音声による「対話」も一般的になると思います。アップルのワイヤレスイヤホンAirPodsは2020年9月〜2021年9月に383億ドル(約4兆3,637億円)を売り上げたといいますから、常時ワイヤレスイヤホンを付けているのも当たり前になっていくでしょう。

裏を返せば、パソコンやスマートフォンといった「液晶画面」を目で見たり、指で操作するデバイスは、「移動のインターネット」には向いていないということになります。

もちろん、第4象限(右下)のように、移動はしているけれど、タクシーや電車など、「乗っているだけ」でいい乗り物の場合は別です。他の利用者が同じ空間にいる公共交通機関では、「声」を出す必要のあるインターフェイスよりも、液晶画面を操作するデバイスのほうが適しているでしょう。

短期的には、人間の「編集」価値が上昇する

ここからは、「生成AIの4象限マトリクス」を参考に、未来のサービスについて、あれこれ考えていきます。まず、生成AIの特徴の1つに、それっぽく話してはくれるけれど、「嘘」をつくことが挙げられます。その嘘を見抜くためのエンジンが開発されるくらい、本当のことも嘘のことも、それっぽく教えてくれます。

この事実をベースに考えるなら、「なめらかな対話」をはじめとして、オープンインターネットの世界から学ぶべきことはたくさんある一方で、人が「編集」をした事実や論文といった、一定程度以上の「ファクト」が担保された情報を教え込む必要があるのではないでしょうか。

たとえば、先日、「越後湯沢の魅力」をGPT-4に尋ねたら、次から次へと真偽不明の情報をそれっぽく教えてくれました。

では、GPT-4を「越後湯沢の観光に特化した生成AI」に育て上げるには、どのようなアクションが必要になってくるでしょうか。

1、まずは人間が対象分野の「ファクト」をデジタルデータ化する
(AIが学べる「正しい」デジタルデータがなければ、生成AIは「嘘」をついてしまうため)

2、生成AIをトレーニングする
(「こういう前提のために情報を使ってね」「こういう解釈をしてね」と伝える)

「1」をさらに深掘りすると、人間の手による「編集物」の価値は、少なくとも短期的には上昇すると言えそうですし、生成AIを頼りになる相棒にするために、オープンインターネット的なものによりも、ある程度クローズドな業界特化型のサービスのほうが相性がよいかもしれません。

また、「2」については、人間の側が、「質問力」(生成AIに求めていることを明確に表現して、指示を与える力)、「プロンプト力」(呪文を唱える力)に磨きをかけ、生成AIに役割を認識させていく必要がありそうです。

パナソニックホールディングスやベネッセホールディングスが、国内全社員を対象に「AIアシスタント」の導入を決定したように、「ある特定の仕事に特化した生成AI」が各業界に生まれてくるような気もします。

その文脈では、アマゾンがクラウドサービス利用顧客向けに生成AIを利用できる“Amazon Bedrock”を発表したことで、4象限マトリクスでいえば、右下の第3象限に分類される、デスクワーク業務の手助けをするツールとしての普及が先行するのかもしれません。

もう1つ、興味深い使い方を実践されている例としてご紹介したいのが、元MITメディアラボ所長の伊藤穣一さんの動画です。ソクラテスメソッドをベースに、ユーザー側と連続的なやりとりをしている様子を見ていると、コーチング分野、あるいは学校教育分野への活用も今後広がっていく可能性があるのではないでしょうか。

ただ、学校教育含め、「情報の信頼性」が相当なレベルで担保される必要があるサービスの普及スピードは、ビジネスシーンへの活用に比べると、ゆるやかになるかもしれません。そういったサービスが普及する際のポイントは、個人的には、いまは「嘘をつく」と言われているChatGPTが、たとえば「ウィキペディアレベルまで信頼を勝ち取るのがいつなのか」にあるような気がします。

もちろん、すべての情報が真実とはいえませんが、「とりあえずウィキペディアを参照しよう」と思う人が現在相当数いることを考えると、「信頼」が醸成されたタイミングが1つの分岐点になりそうです。

一人ひとりのコンシェルジュとしての「生成AI」

話が少し脱線してしまいましたが、もし、「1」と「2」をしっかり実行して、生成AIが順調に進化したなら、次のようなことが可能になるのではないでしょうか。

たとえば、私が午後2時からスタートする、丸の内での打ち合わせに虎ノ門から向かうとしましょう。

そのとき、私が装着しているのは、生成AIと対話できる「イヤフォン型のデバイス」(360度視野角のあるカメラ付)です。そのデバイスに話しかければ「東京駅への行き方」「電車のほうがアクセスがよいか、タクシーのほうが時短になるか」などを瞬時に「音声」で教えてくれます。

少し早めに到着しそうな場合には「このまま信号につかまらずにタクシーが目的地にたどりつくと、20分ほど余裕が生まれます。近くの書店に立ち寄りますか」といった提案もしてくれそうです。

また、タクシーを降りたあと、考え事をしながら歩いている私に、デバイスについているカメラが捉えた画像を参考に「信号が点滅していますよ! 立ち止まってください!」とか、「後方から自転車が接近しているので気をつけてください」と教えてくれたりもするでしょう(こうしたコミュニケーションは、すでに、ドライブレコーダーをはじめとして、カメラやセンサーを多数搭載している車との相性は抜群ですので、たとえば「カーナビ」を起点にいくつかのサービスが生まれていきそうです)。

生成AIが信号に気づいてくれるかもしれない未来

さらに、私に関する情報を日々インプットしているので、「今からお会いする◯◯さんは、3カ月前にお会いしたと思うんだけど、部署名を教えてください」といえば、「◯◯さんにお会いしたのは、2カ月前ですね。◯◯開発部門に所属されています」と、勘違いを指摘しながら正しい情報を教えてくれるとありがたいですね。

イヤフォン型デバイスが活躍するのは、第1象限(右上)だけではありません。アレクサやグーグルホームが担当している第2象限(右下)でも力を発揮するでしょう。

たとえば、「仕事がひと段落したら、シャワーを浴びたい」と言えば、「30分後にお風呂が沸くようにセットしておきます」とか「冷蔵庫にビールが入っていないので、今から冷やしておいたほうがいいですよ」とか、「休憩する」という文脈を理解したうえで、さまざまな提案をしてくれるようになると便利です。

すでにアメリカのマップボックスでは、エンジニア向けのディスコードチャンネルで、ユーザーからの質問に対して、生成AIを使って返答するトライアルを開始しています。

また、私たちマップボックス・ジャパンもアメリカと連携して、「ChatGPTとナビゲーション、地図技術を組み合わせた場合に何ができるのか」については、プロトタイプを作成したりと、研究を進めているところです。

専門分野でも日常生活でも、人間の可能性を拡張する

さらに想像を膨らませると、経営者のディスカッション相手になるような、KPIを把握して必要な打ち手を提案するAI、士業の方々の調べ物を瞬時に探し出すAIなども登場しそうです。

別の観点から考えると、お年寄り、身体に障がいのある方々、子どもたちの移動を助ける生成AIは、社会的意義が相当あるのではないでしょうか。

たとえば、足が不自由な方のために、階段のないルートを教えてくれたり、駅の係員の方に駅に到着する時間と合わせて「手伝ってほしい」というメッセージを送ったりできるのかもしれません。

あるいは、視覚に障がいのある方に対しては、さきほどのウェアラブル端末のカメラから得た情報をもとに「これから大通りを渡りますが、信号が点滅しているので、青に変わるまで待ちましょう」「あと10歩ほどでエレベーターに到着します」と教えてくれると安心です。

また、子どもの登下校や塾の行き帰りに、過去に事故が起きたことのある場所で注意喚起したり、別のルートを提案してくれるサービスも生まれそうです。

「移動のインターネット」に欠かせないのが、「位置情報」の活用や「地図技術」の応用であり、生成AIが人を助ける時代には、私たちマップボックス・ジャパンの出番がいま以上に増えるのではないかと考えています。

マップボックス・ジャパンHP

Twitterでも最新情報を発信中