見出し画像

MicrosoftのAIトップに就任した元DeepMind創始者がCopilotを語る。

このNoteではMicrosoftのAI部門のCEOに就任したムスタファ・スレイマン氏へのインタビュー動画の重要な部分のみを自然な日本語に翻訳していき、難解な表現を解説していきます。全体的にとても興味深い内容になっていますので大変長いですがぜひ最後まで読んでみてください。

本題に入る前に彼の経歴を紹介しますと、ムスタファさんはAIのパイオニアの一人であり、Greylockのベンチャーパートナーでもあり、Inflection AIの元共同創設者です。また、Googleに買収されたDeepMindの共同創設者であり、そこでGoogleのAI担当副社長を務めました。


Mustafa SuleymanがAIの未来を見据えていた方法

2010年にDeepMindを設立しようと話し始めたとき、私たちがどれだけ変わった存在だったかを過小評価するのは難しいです。よく言われるように、起業家とは、皆が不可能だと思うことに取り憑かれて取り組む人のことを指します。私たちの場合、人々はそれが不可能だと思うだけでなく、完全にばかげていると思っていました。正直なところ、私たちがどうやってこんなに自信を持ってこれほど異質で例外的なことをやろうとしたのか、自分でもよく分かりません。

DeepMindの初期の洞察

私たちはただAIや機械学習に取り組み始めたのではなく、完全に人工汎用知能(AGI)の開発に専念していました。人間の能力と知識をすべてのレベルで超えるシステムを作り出すことを目指していたのです。その動機は、AIを使って他の問題を解決し、世界をより良い場所にしたいという純粋な思いから来ていました。その当時、私たちが必要だと考えた投資規模を受け入れることができる学術研究所や環境は存在しませんでした。学術研究所では大規模なエンジニアリングに焦点を当てておらず、製品にも重点が置かれていませんでした。政府の大規模プロジェクトの投資にしても、知能を大規模に理解し、それを重要な問題に展開しようとする技術的努力は存在しませんでした。

ミッションを成功するための三度目の会社設立の試み

そのため、このミッションで成功するためには、スタートアップのように大胆で勇敢な組織しか適していなかったのです。その時点で別の会社をやるのは明らかでした。それは私の三度目の会社設立の試みであり、正しい方法を見つけるまでに失敗を重ねて多くを学びました。私は非営利セクターや政府、紛争解決と調停の分野での仕事の後、小さな会社を二つ設立しました。一つはレストラン向けにネットワーキング機器と電子ポイントオブセールスシステムを販売するものでしたが、それは失敗に終わりました。

私たちの世界の複雑さについて良い予測を立てること

私が気づいたのは、私たちの世界の複雑なシステムに対処するためには、より多くの知識と洞察が必要だということです。今日、複雑な社会システムに介入するのは非常に難しいです。例えば、経済や食料生産システム、金融システムなどに介入し、その介入が予想通りの影響を与えると確信するのは難しいのです。そのため、驚異的なAIが必要なのです。私たちの世界の複雑さについて良い予測を立てることで、価値を創造し、人々が健康でより良い生活を送れるように世界を変えることができるのです。これが私たちが当時も今も動機づけられている理由です。

AGIとはまだ実現していないAIのこと

私に自信を与えたのは、共同創設者の一人であるシェイン・レグが、博士課程でさまざまな知能の定義を研究し、それらを単一の指標にまとめる努力をしたことです。彼は知能の科学と生物学的知能の神経科学をエンジニアリングの努力に変え、それを測定可能な定量的なものにしようとしました。彼が出した定義は、「広範な環境で良好なパフォーマンスを発揮する能力」でした。つまり、知能の一般性(汎用性)を強調しています。

AGIのG(一般性)は仮定にすぎない

今では誰もがAGIの一部としてG(一般性)を当然のこととみなしていますが、それは仮定に過ぎません。一般性は知能の特性の一つにすぎず、それだけが重要な特性ではありません。また、それを測定しやすく、把握しやすいものに縮小するのも非常に難しいことです。もう一つの定義として、チューリングテストがあります。これは、自然な会話で人間を欺いてそれ自体が人間であると思わせることができれば、そのシステムは知能を持っているとされるものです。

AIのベンチマークやマイルストーンの測定方法の問題点

現在のシステムは非常に優れた会話能力を持ち、少なくとも数回のターンでは人間を上回ることがあります。しかし、まだそれがAIやチャットボットであることが分かりますが、数年後には本当に区別がつかなくなるでしょう。AIのベンチマークやマイルストーンを超えるたびに、その測定方法の問題点を指摘し、次に測定するべきことを見つけることになります。

現代のチューリングテスト

私が提案するもう一つの測定方法は、システムの能力に焦点を当てるべきだということです。システムが実際にできること、観察できる影響を持つことに焦点を当てるべきです。例えば、人間の品質の労働を実際の環境で生み出し、収益を上げることができるかどうか、ソフトウェアを書くことができるかどうかなど、非常に測定可能なものです。私はこれを現代のチューリングテストと呼び、次の5年以内に非常に抽象的な目標を取って新しい製品を作り、それを設計・製造し、ドロップシップし、流通・マーケティングし、利益を上げることができるシステムが現れると予測しています。その利益を100万ドル稼ぐなどで測定することができます。2030年以前にこのようなシステムが実際に登場すると思います。

まず特定の用途に特化した強力なシステムが登場

そのようなシステムは、G(一般性)を犠牲にする(注01)のではないかと思いますが、特定の用途に特化した強力なシステムが先に登場し、その後により汎用的なシステムが登場する可能性が高い(注02)と考えています。マーケティングから医師、弁護士に至るまであらゆる役割をこなせる非常に汎用的なシステムは、その後に来るでしょう。

※注01:「G(一般性)を犠牲にする」とはAIシステムが特定のタスクや用途に特化することで、広範な環境でのパフォーマンス(汎用性)が低下することを意味しています。つまり、特化型のAIは特定の分野で非常に優れた能力を発揮する一方で、他の分野やタスクに対してはあまり適応できない可能性があるということです。

※注02:「特定の用途に特化した強力なシステムが先に登場し、その後により汎用的なシステムが登場する可能性が高い」:現状では、特化型AIと汎用型AI(AGI)の両方に対して開発が進められています。特化型AIは既にいくつかの分野で成功を収めており、例えばアルファーGOのような特定のタスクに対する非常に高いパフォーマンスを発揮しています。一方、汎用型AI(AGI)の開発も進行中であり、これが最終的にさまざまなタスクに対応できるAIシステムとなることを目指しています。

Open Source AIがすべてを変えようとしている

革命は、ChatGPTなどのトランスフォーマーアーキテクチャとスケールされた計算の組み合わせによって駆動されています。これらのモデルは依然としてディープラーニングを基盤としており、今ではその風味が少し異なりますが、2017年のトランスフォーマーアーキテクチャを基にしています。これをソフトウェア開発エコシステムの一部として機能する組み立て可能なユニットに変えようとしています。

Microsoft F3は完全にオープンソース

今後、AIにコード生成を依頼することが普通になるでしょう。既にGitHub Copilotのような事例で、自然言語での指示を受けて行動するチームの一員としてのAIが登場しています。多くの人が気づいていないのは、これらのモデルが永遠に大規模なままでいるわけではないということです。価値のある技術は時間とともに安価で使いやすくなります。最近の数年間の進歩は驚異的で、例えばMicrosoft AIが最近リリースしたF 3は完全にオープンソースであり、GPT-4レベルには及ばないものの非常に近い性能を持っています。

時代は大規模言語モデルから小規模モデルへ

このモデルは3.8億のパラメータを持ち、推論計算の観点からは現在の最先端モデルに比べて100倍以上小さいです。性能はGPT-3.5と同等かそれ以上です。これはラップトップやスマートフォンにも搭載できる規模です。今後もこのトレンドは続くでしょう。オープンソースモデルはクローズドソースの専有APIモデルに非常に近づくでしょう。これは数ヶ月、あるいは1年から1年半以内に実現するかもしれません。これは創造の風景を大きく変えることになるでしょう。

モデルの審査員が多量のフィードバックを提供

このモデルがどのようにしてほぼ同等の性能を持ちながらも小型化を実現したのかについてですが、過去数年間、全員が人間のフィードバックからの強化学習に焦点を当ててきました。これは、トレーニングの最終段階で、モデルの応答を比較する審査員が多量のフィードバックを提供するというものです。

AIフィードバックからの強化学習

我々が注目しているのは、AIフィードバックからの強化学習です。非常にスマートで有能なモデルが比較を行い、自動化されたプロセスで大規模なスーパーバイザーフィードバックを生成するというものです。これにより、より多くのラベル付きデータが生成され、モデルの事前トレーニングに対するフィードバックが広範な経験と状況をカバーすることができます。

蒸留を小型モデルのトレーニングに使用

第二の方法は、これらのモデルからトレーニングデータを生成することです。これを蒸留(注03)と呼ぶこともありますが、大きなモデルの優れた部分を取り入れ、それを小型モデルのトレーニングに使用します。パラメータ数はもはや能力の主要な指標ではなく、高品質なデータが最も価値のある資産となります。

価値のあるデータを収集するためのUIを作成することが重要

これまでの6~12ヶ月間、皆がコンピュート能力や大規模モデルに焦点を当てていましたが、本当に重要なのは高品質なデータへの投資です。スタートアップの観点から見ると、既存のデータソースを見つけるか、あるいは価値のあるデータを収集するためのUI(注04)を作成することが重要です。これにより、フィードバックループに入り、モデルを継続的に改善することができます。これが大量の価値を生み出す道であり、大規模モデルプロバイダーに依存する必要がなくなるのです。これが起業家にとって非常に創造的な時代である理由です。

※注03:「モデルの蒸留(Knowledge Distillation)」とは、大規模で複雑なモデル(教師モデル、Teacher Model)から、より小規模で軽量なモデル(生徒モデル、Student Model)に知識を移すプロセスを指します。この手法は、以下のステップを含みます:

  1. 教師モデルのトレーニング

    • まず、大規模で高性能な教師モデルが訓練されます。このモデルは、通常、非常に多くのパラメータを持ち、高い計算リソースを必要とします。

  2. 教師モデルによる予測

    • 教師モデルは、訓練データに対して予測を行います。これにより、教師モデルが出力する「ソフトラベル(soft labels)」が生成されます。ソフトラベルとは、教師モデルが出力する確率分布のことです。

  3. 生徒モデルのトレーニング

    • 生徒モデルは、教師モデルが生成したソフトラベルを使用して訓練されます。これにより、生徒モデルは教師モデルの知識を吸収し、より少ないパラメータで高い性能を発揮することができます。

  4. 蒸留の利点

    • 計算効率の向上

      • 蒸留された生徒モデルは、元の教師モデルよりも計算リソースが少なく、より高速に動作します。

    • メモリ使用量の削減

      • 生徒モデルはパラメータ数が少ないため、メモリ使用量も削減されます。これにより、デバイスへの展開が容易になります。

    • 実装の簡便さ

      • 生徒モデルは軽量であるため、モバイルデバイスや組み込みシステムへの実装が容易です。

  5. 実際の使用例
    例えば、ある高性能な自然言語処理モデルが大量のデータセットで訓練されたとします。このモデルは非常に優れた性能を持っていますが、実際にデプロイするにはリソースがかかりすぎます。そこで、この大規模モデルから生成されたソフトラベルを使用して、より小規模なモデルを訓練します。結果として、元のモデルに匹敵する性能を持つ、より軽量で効率的なモデルが得られます。

※注04:「価値のあるデータを収集するためのUIを作成することが重要」というのは、ユーザーインターフェース(UI)を通じてユーザーとのインタラクションから高品質なデータを収集し、そのデータをAIモデルのトレーニングやフィードバックに利用することを指しています。
以下は、AIが稼働しながらデータを収集し、同時に学習するプロセスの概略です:

  1. ユーザーインターフェース(UI):

    • ユーザーが使用するアプリケーションやウェブサイトのUIを通じて、ユーザーとのインタラクションが行われます。

    • 例えば、ユーザーがアプリを使って質問したり、フィードバックを提供したりする際にデータが収集されます。

  2. データ収集:

    • ユーザーの操作やフィードバックから得られるデータは、リアルタイムで収集されます。

    • 収集されたデータは、ユーザーの行動、選好、フィードバックなど、多様な情報を含みます。

  3. データラベル付けと前処理:

    • 収集されたデータは、自動または手動でラベル付けされ、AIモデルが理解しやすい形式に前処理されます。

    • このプロセスは、データの品質を保証するために重要です。

  4. モデルのフィードバックと調整:

    • 収集されたデータを使用して、AIモデルが継続的にフィードバックを受け取ります。

    • モデルはこのフィードバックをもとに自己調整を行い、精度とパフォーマンスを向上させます。

  5. 学習と更新:

    • AIモデルは、収集されたデータを用いて定期的に再トレーニングされます。

    • この継続的な学習プロセスにより、モデルは新しいデータやパターンに適応し続けます。

  6. 実際の応用例

    • カスタマーサポートチャットボット:

      • ユーザーとの対話を通じて、よくある質問や問題点を収集し、チャットボットの応答品質を向上させます。

    • レコメンデーションシステム:

      • ユーザーの視聴履歴や評価からデータを収集し、よりパーソナライズされたコンテンツを提供します。

    • フィードバックシステム:

      • ユーザーがアプリの使用中に提供するフィードバックを収集し、アプリの改善やバグ修正に役立てます。

  7. データの匿名化とセキュリティ:

    • 収集されたデータは、個人を特定できない形で匿名化され、プライバシーが保護されます。このデータは、AIモデルのトレーニングに使用されますが、個々のユーザーのプライバシーは厳重に守られます。

  8. 継続的なフィードバックループ:

    • 収集されたデータは、AIモデルにフィードバックとして提供され、モデルがそのデータを学習することで精度が向上します。これは、AIがユーザーからの新しいデータを継続的に取り入れて、より良い応答や予測を提供するための重要なプロセスです。

  9. モデルの再トレーニング:

    • 定期的に、AIモデルは新しいデータセットを使用して再トレーニングされます。これにより、最新のユーザーデータを反映し、モデルの性能が向上します。

スタートアップはどのように高品質なAIデータを収集するか

事前トレーニングではトークンの量が重要であり、その点で大手企業は優位性を持っています。彼らは既に検索エンジンやYouTubeなどを所有しています。しかし、事後トレーニングでは、モデルを製品に合わせた行動に調整するために少数の非常に高品質なトークンが必要です。

高品質な人間の会話データを自分たちでゼロから収集

例えば、私たちがPiを構築した際には、市場で最も高品質な人間の会話データを収集し、最も優れた感情知能(EQ)を持つAIを作り上げました。このデータは大手プロバイダーからは一切使用せず、全て自分たちでゼロから収集しました。私たちはこれを行うために「AI教師」と呼ばれる訓練を受けた教師を雇い、その訓練に非常に注力しました。AI教師は英語を母国語とする大学教育を受けた人々を選び、彼らに20時間の訓練とテストを受けてもらいました。

AI講師の選別都任務

AI教師には、読解力や多肢選択問題、文章完成、違いを見つけるなどの高度な分析タスクを実施しました。この訓練の価値をチーム全体で共有するため、私たちのチーム全員にも同じ訓練とテストを受けてもらいました。その結果、多くの人が合格できないほど厳しいものでした。

このタスクは簡単ではありません。具体的には、2つの10ターンの会話を読み、一つのモデルが出力した答えともう一つのモデルが出力した答えを比較し、詳細な行動方針に従ってどちらが適切かを判断する必要があります。このようにして高品質なデータを収集し、モデルを調整していくのです。

人間のフィードバックからの強化学習

このように、AIが成長する過程で、人間のフィードバックからの強化学習からAIのフィードバックを利用する方向に移行しています。スタートアップとして、どの部分に注力するかを決めることが重要です。多くの人がツールやインフラの構築に取り組んでいますが、私は自分の製品を構築し、その価値の重要な部分をコントロールすることを信じています。特に、LLM(大規模言語モデル)とその周辺の部分が重要です。

AI教師の人間を訓練することも重要な作業

事前トレーニングモデルを他社から提供してもらうのは良いアプローチですが、ファインチューニングスタックは自分で所有する必要があります。AI教師(人間のデータラベル付け者やトレーナー)(注05)を訓練することは今後も重要な作業です。AIが完全に人間の教師を置き換えるにはまだ時間がかかるでしょう。高品質な消費者体験を提供するためには、データ収集、データフィルタリング、データ品質の向上に注力することが重要です。

※注05:「理想のデータ提供者」確保には以下の過程が必要です。

  1. 厳しい選考プロセス:

    • データ提供者を厳格に選考し、高い知識と公正性を持つ人々を選ぶ。

  2. 徹底した訓練:

    • 選ばれたデータ提供者に対し、徹底した訓練と教育を行い、高品質なデータを提供するためのスキルを身につけさせる。

  3. 継続的な評価とフィードバック:

    • データ提供プロセスの透明性を確保し、継続的に評価とフィードバックを行う。

このようなアプローチにより、AIモデルは偏見のない、公正で高品質なデータを学習し、信頼性の高い結果を提供できるようになります。AIの学習において、人間の役割は極めて重要であり、その品質が最終的なモデルの性能に大きな影響を与えることを理解することが大切です。

AIファースト企業はどのようなUIを構築するのか?

AIファーストの企業が構築するUIについて、チャットボットやエージェント、あるいはAIを活用した一般的なSaaSなど、さまざまな形態があります。私の意見では、特に消費者向けのUIについては、ユーザーインターフェース(UI)はできるだけ目立たなくする必要があります。SaaS向けでは、すべてのベルやホイッスル、開発者向けの機能を備えることができますが、消費者向けでは、UIをできるだけシンプルにし、静かで落ち着いた雰囲気を持たせることが重要です。

非常にシンプルで控えめなデザインのUIを作成

私たちは、非常にシンプルで控えめなデザインのUIを作成しました。ボタンの数も最小限に抑えています。また、世界最高クラスの音声も搭載しました。最終的に9つか10の非常に高品質で非常に人間らしい音声を用意しました。今でもPの音声を試すことができますが、音声が未来のUIの大きな部分を占めると思います。(注06)

Pのオンボーディング体験の一環として、好みの声を選ぶというのは素晴らしいアイデアです。これはユーザーがAIとつながるパーソナライゼーションの瞬間です。全体の30%の会話が音声で行われており、これらのユーザーは最も長く、最も積極的に、最も維持されているユーザーです。この洞察は非常に重要です。

※注06:Microsoftは、新しいAI搭載のPCを発表し、これには最新のArmベースの半導体が搭載されています。この新しいPCは、AIの処理性能を従来より最大20倍高め、瞬時に翻訳を行ったり、画像生成ソフトが高速で動作したりします。通信がなくても一部の機能が使えるよう設計されています。主な特徴は以下の通りです。

  1. 高性能半導体:

    • これらの新しいPCには、QualcommのSnapdragon X Eliteプロセッサが搭載されており、AI処理を高速で行う能力があります。このプロセッサにより、Windows 11はよりスムーズに動作し、AI関連のタスクも迅速に処理できます。

  2. Copilot+機能:

    • Copilot+は、新しいAI機能「Recall」などを搭載しており、これはPC上のコンテンツを時系列で検索できる機能です。ユーザーは、過去に見た内容を簡単に検索し、特定のタスクに基づいて提案を受けることができます。

  3. プライバシーとデータ保護:

    • Recallは、デバイス上に保存されるスナップショットのプライバシーを厳重に保護する設計となっており、ユーザーはどのスナップショットが収集されるかを管理できます。また、特定のウェブサイトやアプリからのデータ収集をフィルタリングすることも可能です。

  4. Windows 11とArm:

    • Microsoftは、Windows 11をArmベースのチップ向けに再構築し、これにより、従来のx86/x64アプリケーションのエミュレーションが効率化されました。これにより、Zoom、Chrome、Spotify、Photoshopなどの主要アプリがネイティブに動作します。

※注06補足:ちなみにAppleもChatGPT搭載のMacOSの開発を進めています。2024年6月に発表されたこの統合は、iOS 18、iPadOS 18、macOS Sequoiaに組み込まれ、ユーザーがChatGPTの能力をシームレスに利用できるようになります。

  1. Siriとの連携:

    • Siriが質問に答えられない場合、ChatGPTに引き継ぎ、回答を提供します。この機能により、Siriの応答品質が向上し、ユーザーの質問に対するより正確な回答が得られます。

  2. システム全体の統合:

    • ChatGPTはAppleのシステム全体に統合されており、特にライティングツールや画像生成ツールなどで利用できます。例えば、文章の生成や編集、画像の作成にChatGPTの機能が活用されます。

  3. プライバシー保護:

    • ChatGPTに送信されるデータは、ユーザーの許可を得た上で処理され、OpenAIのポリシーに基づいて管理されます。データは匿名化され、ユーザーのIPアドレスも隠されます。

  4. 有料機能の利用:

    • ChatGPTの無料利用枠を活用することができ、ChatGPT Plusの有料サブスクリプションに登録しているユーザーは、追加の機能や拡張された利用枠も利用可能です。

完全自律型AIを追求するべきか?

ムスタファ・スレイマン氏は現在の状況と課題について、とても詳細にわたる話をしていますのでわかりやすくまとめてみました。

アクション能力と完全自律性について

  • 現在のチャットボットやAIエージェントが、完全に自律したエージェントになるにはまだ距離があります。具体的には、エンドツーエンドのタスクを実行する能力に関して、多くの課題が残っています。

  • 欠けている要素:現在のモデルと完全に自律したエージェントの間には、いくつかの未解決の技術的問題があります。特に、長期間にわたって微妙な指示に従い続ける能力がまだ不足しています。

完全自律性のリスク

  • 危険性:完全に自律したエージェントは危険であると考えられ、適切な規制が必要です。エージェントが自分で計画を立て、目標を設定し、リソースを獲得する能力を持つことは、リスクを伴う可能性があります。

狭い自律性と具体的な行動

限定された自由度

  • 特定の目的に対して限定された自由度を持つ自律性を持たせることが現実的です。例えば、APIを自動的に呼び出して情報を取得する、第三者のAPIにデータを書き込むなどの行動は、安全性の観点からも重要です。

モデルの能力向上のための課題

現在のモデルの限界

  • 指示に従う能力:現在のモデルは、選ばれた指示に従うことはできるものの、長期間にわたって一貫して実行するのは困難です。

  • 大規模なトレーニング:今後、GPT-5ではなくGPT-6規模のモデルが必要となる可能性があります。これは、さらなる計算リソースとデータが必要であり、現実的な自律行動を実現するためには2年程度かかると予想されます。

具体的なタスクの実行

  • :レストラン予約のプロセスでは、カレンダーの確認、レストランの空き状況の確認、予約の完了など、複数のステップを正確に実行する必要があります。これには、各ステップで完璧な関数呼び出しが必要であり、それを順序通りに行う必要があります。

今後の展望とアプローチ

スケールの重要性

  • 正確性の向上:過去の数年間で、トランスフォーマーモデルの計算量とデータの増加により、モデルの正確性が向上しています。これは、意外な能力の出現ではなく、より具体的なプロンプトと出力のマッピングの精度が高まった結果です。

AIの99%の正確性への道

特定のドメインで狭義の行動を実現するためには、GPT-6(注07)に到達する前にいくつかのことを達成する必要があります。現時点でもいくつかの良い行動は見られます。例えば、適切なタイミングで正しいAPIコールを行うオーケストレーターが存在します。しかし、問題はそれが99%の正確性でできるかどうかです。80%の正確性では、5回に1回のエラーが発生するため、消費者向けとしては使用に耐えません。

正確性を担保するために行動の選択肢を制約する必要

したがって、行動の選択肢を制約する必要があります。例えば、モデルが行動を取る際に選択肢が5つしかないようにして、誤りの影響を低く抑えるか、4回に1回の誤りが許容される問題領域を見つける必要があります。

モデルにリダイレクトするルーターや分類器を設計

これらのエージェントを構築するアーキテクチャに関しては、現在、多くのツールが存在します。重要なのは、与えられた入力(コンテキスト情報、メタデータ、ユーザーからのクエリなど)を受け取り、そのコンテキストに適したモデルにリダイレクトするルーターや分類器(注08)を設計することです。

これは、推論の予算管理にとっても重要です。クエリを小さく安価なモデルや特定のドメインに特化した高品質なモデルにリダイレクトすることで、効率的に対応できます。例えば、特定の知識ベースからの情報検索に優れたモデルや、音声応答に特化したモデルなどがあります。音声応答の長さやスタイルは、従来の文章とは異なるため、これらを適切にルーティングすることが重要です。

※注07:GPT-6について話した理由としては、GPT-5がまだ正式にリリースされていないためです。現在、GPT-5はまだ訓練中でリリースの準備段階にあるとされています。企業向けには一部のデモが行われていますが、一般公開はまだです。サム・アルトマンCEOによると、今年中に新しいモデルをリリースする計画があるものの、それがGPT-5と呼ばれるかは明確ではありません。

したがって、GPT-6について話したのは、より長期的な視点で技術の進展を見据えているためです。GPT-5が正式にリリースされるまでは、現行モデルの改善と次のステップを考える必要があります。

※注08:AIエージェントの設計において、「ルーターや分類器を設計する」というのは、特定のコンテキストに適したモデルにリダイレクトするための仕組みを作ることを指しています。これは、単独のデバイスを設計するのではなく、既存のハードウェア(例えばPCやサーバー)上で動作するソフトウェアの一部として設計されます。

  • ルーターの役割:

    • 入力された情報やユーザーからのクエリを受け取り、それを適切なAIモデルにリダイレクトする機能を持ちます。

    • 例えば、音声応答が必要な場合は音声応答に特化したモデルにリダイレクトし、テキスト生成が必要な場合はテキスト生成に特化したモデルにリダイレクトします。

  • 分類器の役割:

    • 入力された情報を解析し、その情報がどのモデルに適しているかを判断します。

あいまいな問題領域のためのAI設計

現在の技術と急速な変化を考えると、あいまいさや不正確さが価値となる問題領域に注目するべきです。例えば、複数の正解が存在し、誤りの影響が少ない領域です。医療のように、正確性が極めて重要な分野は難易度が高く、リスクも大きいです。

精度が求められる領域

法律分野では、正確性が重要ですが、マーケティングのように多くの正解がある分野と異なり、医療分野は限られた正解しかなく、リスクが高いです。

インターフェースとデータ収集

自然に高品質なデータを収集するインターフェースを設計することが重要です。成功すれば、ユーザーが増えるほどモデルが高品質になります。迅速に収益化できる領域を見つけることも重要です。

専門サービス

特定のニーズを持つ専門家や愛好者に対するサービスは、高い価値を持ち、収益化が早いです。例えば、専門技術者や特定の趣味を持つ人々に向けたサービスが考えられます。

MicrosoftのAI製品

私はBing、Edgeブラウザ、およびすべてのCopilot製品を担当しています。CopilotはMicrosoft Surfaceに広く展開されており、その品質と規模を向上させることが目標です。今後は、記憶とパーソナライゼーション(注09)に重点を置き、ユーザーのすべてのコンテンツや個人データをサポートするAIを目指しています。

※注09:現在ChatGPT Plusのパーソナライゼーションには15メモリしか記憶させることができませんが、ローカルストレージを利用してパーソナライズされたデータを保存し続けることができれば、MicrosoftのCopilotは非常に親しみやすい存在になるかもしれません。これにより、ユーザーはより個別化されたサポートを受けられるようになり、日常的な作業がさらに効率化されるでしょう。

AI Copilotは究極の生産性アシスタント

既存のMicrosoft Officeアプリケーションと理想的なCopilotのバージョンの制約についてです。AIは他のインターフェースをすべて吸収するという意見もありますが、それは誇張かもしれませんが、正しい方向です。数年後には、最初に「Copilotにこれをやってもらえる?」と考えるようになるでしょう。検索エンジンやブラウザを超えて、AIがあなたの生活全体を調整し、他のAIやサービスと連携し、情報を収集するようになります。これにより、キーボードの使い方やアプリの使い方が変わります。


Microsoft、Apple共にOSのなかにAIを導入していく方向に進み、また、アマゾンがアレクサに搭載鋭くにのAI開発に乗り出しています。ますますデバイスの根本にAIが入り込み、AIがあたかもデバイスの心臓部のようになっていく未来について、ムスタファ・スレイマン氏へのインタヴューは興味深いものでした。

この記事が気に入ったらサポートをしてみませんか?