ムスタファ・スレイマン氏による知能の定義について
https://www.youtube.com/watch?v=cNzRviY4Ei8
明日にもGPT-5が登場して、突然GPT-5がすべての人間に取って代わり、究極の判断者や教師になるということはありません。80%のプロトタイプを作ることはできて、良く見えるかもしれませんが、本当の消費者体験を作るには99パーセンタイルの体験を確実にする必要があります。常に非常に高品質である必要があり、AIがキャラクターを崩したり、何かを間違えたりすると、その幻想が壊れ、信頼が失われてしまいます。そうすると消費者を失ってしまうのです。
スタートアップの観点から言えば、本当のポイントは既存のデータソースを見つけるか、もっと重要なのは、価値があると思う製品領域での対話から高品質なデータを収集できるUIを作ることです。それが非常に価値の高いデータを生み出すMOを作り出し、そのデータを使って再度モデルのポストトレーニングや微調整を行い、そのフィードバックループに入ることができます。これは膨大な価値を生み出す道筋であり、私はそれが起業家にとってとてもクリエイティブな時代だと思います。
LLMさん、参加してくれてありがとうございます。
ヘイ、セス、また会えて嬉しいです。招いてくれてありがとう。
ムスタファをここに招けてとてもワクワクしています。聴衆の多くの方々もご存じだと思いますが、ムスタファはAIの主要なパイオニアの一人です。現在はMicrosoftのAI部門のCEO、Greylockのベンチャーパートナー、以前はインフレクションAIの共同創設者、そしてもちろんディープマインドの共同創設者で、GoogleによりMicrosoftへのGoogle AI部門の副社長として買収されました。
ムスタファ、Greylockを通じてあなたと一緒に仕事ができることを非常に光栄に思います。そして、今日ここで急速に進化している現在の分野についてあなたの見解を共有していただけることをとても嬉しく思います。
では、始めにお聞きしたいのですが、AIがまだ明らかではなかった頃に、どのようにしてキャリアをAIに集中させることを決めたのか、もう少し詳しく教えていただけますか?
振り返ってみると、ちょっと奇妙な感じがしますね。最近TED Talkの原稿を書く必要があって、15年後の今、物事がどれほどクレイジーになっているかを振り返りました。2010年にディープマインドの設立について初めて話し始めた頃、私たちがどれほど変わっていたかを言い表すのは難しいですね。よく、起業家になるということは、誰もが不可能だと思っていることを執拗に追求することを選ぶことだと言われます。私たちの場合、人々はそれが不可能だと思っていただけでなく、完全に馬鹿げていると思っていました。正直なところ、私たちがどうしてそんなに分布外で例外的なことに挑戦する能力を信じられたのか、よくわかりません。
ディープマインドについての最初の洞察は何だったのですか?
私たちは単にAIや機械学習に取り組み始めただけではありません。私たちは人工汎用知能、つまりあらゆるレベルで人間の能力と知識を超えるシステムを作ることに完全にコミットしていました。その動機は、本当にAIを使って他の問題を解決し、世界をより良くしたいと思っていたからです。当時、私たちが必要だと考えていた規模の投資を受け入れられる学術研究室や環境はありませんでした。学術研究室では大規模なエンジニアリングに焦点が当てられていませんでしたし、製品に焦点が当てられていることは確実にありませんでした。政府のような大規模な国家プロジェクトの投資でさえ、知能とは何かを大規模に理解しようとする技術的な取り組みはなく、重要な問題に展開することもありませんでした。
だから、この使命を成功させるために必要な勇気と勇敢さを持っているのは、本当にスタートアップだけだったのです。だから、その時点で別の会社を始めることは明らかでした。
そうですね、その時点で3回目の会社の試みでしたし、これが唯一の手段だと感じました。途中で失敗したり、正しいやり方を見つけたりしながら、多くのことを学んできました。非営利セクターや政府、紛争解決やファシリテーションの分野で数年働いた後、2つの小さな会社を始めました。実際、1つはレストラン向けにネットワーク機器と電子POSシステムを販売することに焦点を当てていましたが、これは可能になる前の時代だったので失敗しました。
私が気づいたのは、私たちの世界には、システムの圧倒的な複雑さに対処するためにより多くの知識と洞察が必要だということです。今日の複雑な社会システム、例えば経済や食料生産システム、金融システムに介入し、その介入が思った通りの影響を与えると確信することは非常に難しいのです。これが、私たちが素晴らしいAIを必要とする理由の1つだと思います。価値を創造し、世界を変え、人々がより健康で良い生活を送れるようにするためには、世界の複雑さについて良い予測ができる必要があります。
とても陳腐に聞こえるかもしれませんが、それが当時も今も私たちの動機づけになっているのです。
興味深いですね。世界に豊富な知能を解き放つことが、実際に重要な問題を解決するという使命があったとのことですが、この文脈で知能をどのように定義しているのでしょうか?
知能を発明する方向に実際に進歩できるかもしれないという確信を与えてくれたのは、私たちの3人目の共同創設者のシェーン・レッグでした。彼は博士課程の全期間を使って、さまざまな知能の定義を研究し、それらを単一の指標にまとめようとしていました。それを使って、知能の科学と生物学的知能を理解する神経科学を工学的な取り組みに変え、本当に測定可能で定量化可能な作業にしようとしていたのです。
彼が考え出した定義は、「幅広い環境で良好なパフォーマンスを発揮する能力」というものでした。これは再び一般性を強調しています。これは今では大きな前提になっています。今では誰もが、Gが知能の中心的な部分であるかのようにAGIの部分を当然のものとして扱っています。しかし、それは一つの仮定に過ぎません。一般性は知能の特徴の一つですが、唯一の重要な特徴ではありません。
また、それを測定し、本当に把握できるものに縮小するのは非常に難しいことも分かりました。一方で、もう一つの定義としてチューリングテストがあります。これは、自然な会話の中で人間を欺いて自分が人間だと思わせることができるシステムが知的であるというものです。ある意味で、私たちはその知能の閾値を既に越えています。今では会話が本当に得意なシステムがあり、少なくとも数ターンの間は、多くの面で確実に人間より優れています。
まだAIやチャットボットであって人間ではないとわかりますが、数年後には本当に区別がつかなくなるでしょう。しかし、それはこれらのシステムが実際に知的であるかどうかについて本当には何も教えてくれません。AIにおいてベンチマークやマイルストーンの閾値を越えるたびに、振り返ってみると「OK、その測定メカニズムにはこういう問題があって、次はこういうものを測定する必要がある」というような感じです。
リードが「AGIは私たちがまだ持っていないAIだ」と言っているのを聞いたことがあります。常に未来に押し出されているようなものですね。
まさにその通りです。それは私たちが常に先を追いかけるために掲げる絶え間ないニンジンのようなものです。
私が提案している別の尺度は、システムの能力、行動、それが行えること、何らかの環境で影響を与えられることを観察できるものに、もっと焦点を当てるべきだというものです。「一般的」だとか、会話が上手だとかいう抽象的な考えではなく。
つまり、実践的な環境で人間と同じ品質の労働を生み出し、実際にそれで金銭を稼ぐことができるか、あるいはソフトウェアを書くことができるかというようなことです。これは非常に測定可能なことです。私はそれを現代版チューリングテストと呼び、今後5年以内にシステムが非常に抽象的な目標を受け取り、例えば「新製品を作成し、それを設計、製造、ドロップシップし、配布・マーケティングして利益を得る」というようなことができるようになると言いました。そしてその利益を100万ドルのような形で測定できるでしょう。2030年より前に、確実にそのようなシステムが登場すると思います。
素晴らしいですね。そのようなシステムは、汎用性(G)とトレードオフして、特定のユースケース向けに構築されると予想されますか?
はい、私は一般的な目的のシステムより、特定のユースケースに特化した本当に強力なシステムが先に登場する可能性が高いと思います。マーケターから臨床医、医者、弁護士などに切り替わるような非常に汎用的なシステムよりも、特定の領域で本当に深い専門知識を持つシステムの方が先に登場するでしょう。明らかに、一般的なケースは後から来るでしょう。
少し時間を取って、今日の大規模モデルの状態についてあなたの見解を聞かせてください。まず、聴衆のために、現在のGPT-3、GPT-4スタイルのモデル、Inflection 2.5スタイルのモデルの現状に至った転換点は何だったのか、レベル設定から始めていただけますか?
トランスフォーマーアーキテクチャとスケールされたコンピューティングの組み合わせです。この革命は深層学習によって推進されてきました。我々はまだ深層学習モデルを構築していますが、少し異なる風味になっています。2017年からのトランスフォーマーアーキテクチャを、今では私たちのソフトウェア開発エコシステムの一部のように機能する構成可能なユニットに変えています。
つまり、あなたはただAIに向かって、それが実際にあなたのためにコードを生成するのを見るだけです。私たちはすでにGitHub Copilotのようなものを見ています。自然言語の指示を受け取り、あなたと一体となって行動できるチームメンバーのようなものです。
人々があまり理解していないのは、これらのモデルが永遠に大規模なままではないということです。価値のある技術の歴史において、重要なものは時間とともに安くなり、使いやすくなります。その曲線は過去数年で二重指数関数的になっています。それは信じられないほどです。
例えば、MicrosoftのAIは最近、完全にオープンソースのF3をリリースしました。これはGPT-4のレベルには達していませんが、近いものです。完全にオープンソースで、38億パラメータです。つまり、今日の最先端モデルと比べて推論コンピュートの面で100倍以上小さいのです。まだGPT-4ほど良くはありませんが、確実にGPT-3.5と同等かそれ以上です。これは驚くべきことです。これはラップトップや電話に収まるものです。
そして、この軌跡は続くと予想すべきです。オープンソースモデルは、クローズドソースの独自APIモデルのすぐ後ろに来ると思います。数ヶ月、あるいは1年半くらいでしょう。これは創造の風景全体を変えることになるでしょう。
それは非常に興味深いですね。このモデルがほぼ同等のパフォーマンスを発揮しながら、はるかに小さくなることを可能にしたのは何でしょうか?
過去数年間、みんなが人間のフィードバックからの強化学習に焦点を当てていました。そこでは、トレーニングの最終段階、つまりファインチューニングまたはポストトレーニングと呼ばれる段階で、訓練された評価者や審判が、モデルからの2つの可能な応答や補完を比較します。その一対比較が、モデルに望む行動の種類に対する大規模なフィードバックを提供します。今ではみんなこれに慣れていますが、それが有望な兆しを見せ始めたら、すぐにそれを踏まえて、過去18〜24ヶ月の間、AIフィードバックからの強化学習に焦点を当ててきました。
つまり、その一対比較を行うために、本当にスマートで能力の高いモデルが欲しいのです。なぜなら、そのプロセスを自動化でき、さらに大規模な教師あり微調整ラベルを生成して、より広範な経験や互いに矛盾する可能性のある瞬間にわたって、事前訓練済みモデルにさらにフィードバックを与えることができるからです。高価な高度に訓練された人間から得られるサンプル数が少ない場合、それは難しいでしょう。
これが1つの方法で、AIフィードバックからの強化学習です。2つ目は、これらのモデルからトレーニングデータを生成することです。時々、人々はこれを蒸留と呼びます。大きな強力なモデルの最良の部分をできるだけ吸収しようとして、それを使ってより小さなモデルのポストトレーニングや調整を行うのです。
パラメータ数はもはや能力の主要な指標ではありません。高品質なデータが、アーキテクチャに加えて本当に価値のある資産なのです。過去6〜12ヶ月の間、みんながコンピューティング、コンピューティング、コンピューティングに焦点を当てていて、それは確かに重要です。または大規模モデル、大規模モデルと。しかし、本当に重要なのは高品質なデータへの投資です。
スタートアップの観点から見ると、本当のポイントは既存のデータソースを見つけるか、もっと重要なのは、価値があると思う製品ドメインとの対話から高品質なデータを収集できるUIを作ることです。それが非常に価値の高いデータのMOを生み出し、そのデータを使って再度モデルのポストトレーニングや微調整を行い、そのフィードバックループに入ることができます。これは膨大な価値を生み出す道筋であり、大規模モデルプロバイダーに依存する必要がありません。だからこそ、これは起業家にとってとてもクリエイティブな時代なのです。
それは非常に興味深いですね。スタートアップは大規模なデータセットにアクセスできる既存企業と競争しているわけですが、特定の種類のデータを入手する機会について、もう少し詳しく教えていただけますか?他よりも価値のあるデータについて。
では、高品質なデータをどのように収集するのかについて説明しましょう。事前トレーニングでは、明らかにトークンの量が重要です。そこでは、ハイパースケーラーが長期的な優位性を持つでしょう。彼らはすでに検索エンジンやYouTubeなどを所有しているからです。一方、ポストトレーニングでは、製品に望む行動にモデルを調整するために、非常に高品質なトークンが少数必要です。
それは最初から収集できます。私たちがPiを構築したとき、今日でも市場で最高のEQを持つ最高品質の人間との会話AIを作りました。大手プロバイダーからのデータは一切使用せず、すべて自分たちで一から収集しました。有給の教師を訓練することで、私たちはAI教師と呼んでいますが、一部の人々はそれを評価者と呼びます。
スタートアップにとって重要なのは、これらの教師の訓練に本当に注意を払うことです。彼らにたくさんのお金を払う必要があります。私たちの観点から言うと、学部教育を受けた人、それ以下は不可で、主に英語を母語とする人(例外もありますが)、価値があると思われる専門知識を持っている人、例えば歴史に非常に情熱的だったり、良い文化的知識を持っていたり、映画マニアだったりする人を選びました。
彼らは20時間の訓練とテストに合格する必要がありました。読解力テスト、多肢選択問題、文章補完、違いを見つける問題、本当に難しい分析タスクなどを与えました。このタスクがどれほど価値があるかを私のチームにも謙虚に理解してもらうために、もちろん私のチーム全員にも同じ訓練を受けさせ、同じテストを受けさせました。そして言っておきますが、多数の人がパスしたわけではありません。
実際、私もそのテストを受けたら緊張しそうです。
そうですね、実際にそれはそれほど簡単ではありません。かなり難しいタスクです。なぜなら、人間に10ターンの会話を2つ読んでもらい、1つのモデルと別のモデルによって提案された回答を見て、そして非常に詳細な行動ポリシーを吸収してもらう必要があるからです。行ごとに「AIはXをすべき、Yをすべきでない、この状況ではこうすべき」というような。そして、AI教師からの訓練で言われたすべての種類の微妙な例外やスタイルの調子、ブランドのこと、バックストーリーのこと、能力の認識などを覚えておく必要があります。
そして、それらすべての正しい交差点を見つけて、このパラグラフの方が行動ポリシーに沿っているのか、それともこちらの方が沿っているのかを決定しなければなりません。
非常に痛みを伴うタスクですね。
非常に興味深いです。これがどのように進化すると見ていますか?人間からの強化学習だけでなく、AIからも行うようになっていると言及されましたが、アプリケーション層のスタートアップが垂直統合されるのか、それともスタックのどの部分の専門家になる必要があるのか、どのようにお考えですか?
それは良い質問です。その質問に答える際には非常に原則的でなければなりません。そこがスタートアップの賭けどころです。どの部分に賭けるかを決めなければなりません。
明らかに、多くの人々がツールやインフラストラクチャを構築しており、それはそれで良いです。私たちはみなその種の戦略に慣れています。私は自分の製品を構築し、所有することを強く信じています。そして可能な限り、そこでの主要な価値の部分をコントロールすることが重要です。私の意見では、それはLLMであり、それ以外のすべては二次的です。LLMから出てくる言葉に集中する必要があります。
つまり、事前訓練済みモデルを切り離して他の人から取得するのは理にかなっていると思います。それは良いアプローチです。しかし、ファインチューニングのスタックは自分で所有する必要があると思います。他の人にファインチューニングを任せるべきではありません。教師を訓練する必要があります。なぜなら、それはしばらくの間なくならないからです。
明日にもGPT-5が登場して、突然GPT-5がすべての人間に取って代わり、究極の判断者や教師になるということはありません。GPT-4よりもはるかに優れたものになるでしょうが、GPT-4を使ってAIフィードバックからの強化学習を試みた人々でさえ、その品質はまあまあで、印象的ではありますが非常にクールですが、完全に人間に取って代わる寸前というわけではありません。
80%のプロトタイプを作ることはできて、良く見えるかもしれませんが、本当の消費者体験を作るには99パーセンタイルの体験を確実にする必要があります。常に非常に高品質である必要があり、AIがキャラクターを崩したり、何かを間違えたり、幻覚を見たりすると、その幻想が壊れ、信頼が失われてしまいます。そうすると消費者を失ってしまうのです。
だから、少なくとも来年のスタートアップにとって重要なのは、データ収集、データフィルタリング、データ品質に本当に長けることだと思います。
理解できました。AIファーストの企業が構築するさまざまなUIについて、どのようにお考えですか?チャットボット、エージェント、AIが有効になった通常のSaaSなどについて。
私の意見では、特に消費者向けのUIは邪魔にならないようにする必要があります。明らかにSaaSの場合は、ベルやホイッスル、すべての開発者向け機能を持つことができます。しかし消費者向けの目標は、UIを邪魔にならないようにすることです。
私たちは非常にシンプルで、静かで落ち着いた、かなり独特な外観のAIを作りました。ボタンも非常に少ないUIですが、同時に世界最高の音声の1つも持っています。最終的には9つか10の音声を用意しました。それらは本当に高品質で、非常に人間らしいものです。Piは今でも生きていて、試してみるべきです。音声優先は将来のUIの大きな部分だと思います。
Piで、オンボーディング体験の一部として好みの音声を選ぶ必要があるのが気に入りました。
そうですね、それはあなたのAIとつながるようなものです。それは生まれた時の個人化の瞬間です。私たちの会話の30%はすべて音声で行われました。そして、それらは圧倒的に最も長く、最も関与し、最も定着したユーザーでした。人々はこのことを心に留めておくべきです。これは非常に重要な洞察です。
非常に興味深いですね。AIにはIQ、EQ、そしてAQ(行動指数)があるとおっしゃっていました。これは現在非常に興味深いトピックだと思います。人々は特定のユースケースのための自律型エージェントについて話しています。これには推論と計画が含まれます。私たちが経験してきたチャットボットから、あなたが最初に説明した、エンドツーエンドのタスクを実行できる完全に自律的なエージェントまで、どのくらいの距離があるのでしょうか?今日の状況から、その
ビジョンまで、今後6ヶ月から3年の間にどのような点が欠けているのでしょうか?
まず、私たちは完全に自律的な方向には向かっていないと思います。実際、それはかなり望ましくないと思います。完全に自律的な能力はかなり危険で、規制されるべきだと私のTEDトークで言ったために多くの批判を受けましたが、私はそれでも構いません。それでもそう思っています。
客観的に言って、自分で計画を立て、自分で目標を設定し、自分でリソースを獲得し、人間から完全に独立して行動できるエージェントは、そうでないものよりも潜在的にリスクが高いと思います。
私はこれを、限られた自律性の狭い領域と考えています。特定の目標を与え、特定の環境で行動するための限られた自由度を与えます。例えば、何かの状態を観察するために、自動的にあるAPIを呼び出してレジストリをチェックし、情報を収集したり、あなたのものではない第三者のAPIに何かを書き込んだりするようなことです。ただし、これも特定の自由度に制限されています。ここでのセキュリティリスクは重大だと思うからです。
自律的な部分については慎重に進むべきだと思いますが、行動の部分については、これらのモデルに微妙なニュアンスを持って長期間にわたって指示に従わせるのはまだかなり難しいです。できると思いますし、Twitterなどで印象的なチェリーピックされた例がたくさんありますが、新しい環境で一貫してそれを行わせるのは非常に難しいです。
モデルのトレーニングに1桁ではなく2桁多くの計算が必要になると思います。つまり、GPT-5ではなく、むしろGPT-6スケールのモデルです。本当に行動を起こせるシステムができるまでには2年かかると思います。
理解しました。そこに到達するために解決されていない研究や技術的な問題を分解するとしたら、どのようなものがありますか?
行動は単に単語の列を予測することとは異なります。モデルに行動の列を生成するように求めると、例えば3つのことを行うとして、あなたと私が特定の日に行けるレストランを予約するような場合、最初の行動は私たち両方のカレンダーの空き状況をチェックすることです。これが正しい関数呼び出しです。次に正しいタイミングを調整する、これが2番目の行動です。そして、空きのあるレストランであることを確認する、これが別のチェックです。
そして、サインインして正しいツールを使って正しい時間に正しいレストランを予約し、クレジットカードの詳細を入力します。もちろん、私たち両方が好きなレストランであることも確認した上でです。つまり、一つの「行動」を生成するのに4〜5〜6の異なるステップがあるわけです。
これを正しく行うには、基本的にモデルが各要素に対して完璧な関数呼び出しを生成し、それを順番に行う必要があります。ただランダムではなく、順序立てて行う必要があります。これは、1つの質問に対して4ページの文書を書くようなもので、その文書は正確にその文書でなければならず、近似や類似のものではダメだということです。
私たちは現在、これらのモデルが魔法のように美しい詩や創造的なコピーやテキストを書き、良い答えを与え、時には事実に基づいていると思っています。しかし、それらの答えの各々に対して、選択できる正しい答えの範囲が広いのです。数十、数百、おそらく数千の可能性があります。つまり、出力される各トークンが正確に正しい答えである特定の完璧な答えを生成しているわけではありません。まだそこまでは達していません。
その精度のレベルに到達するには、これらを2桁スケールアップする必要があります。これまでの5桁のトランスフォーマーで、コンピューティングとデータが10倍増えるごとに、より精密になってきました。驚くべき新しい能力が出現したというのは間違いです。人々は「驚くべき新しい能力が出現した」と言いますが、それは人間的な投影です。それは驚くべきものでも新しい能力でもありません。単にプロンプトと出力の間の正しいマッピングにより精密に注意を払っているだけなのです。つまり、より具体的なものにどんどん絞り込んでいっているのです。
GPT-6が登場する前に、特定のドメインで狭い形の行動ができるようになると思いますか?
確かに、今日でもいくつかの良い行動があります。これらのオーケストレーターが適切なタイミングで良いAPI呼び出しを行っているのを見ることができます。問題は、99%の精度でそれを行えるかどうかです。80%の精度でしか行えないと、5回に1回は間違えることになり、消費者には使えません。
だから、行動の空間を制限して、モデルに行動を起こすように求めるたびに選択肢が5つしかなく、間違えた場合の結果が低いようにするか、4回に1回の精度で許容できる問題領域を見つける必要があります。
これらの種類の狭い自律的な行動エージェントの1つを構築するアーキテクチャについて考えると、ポストトレーニングに焦点を当て、UIを邪魔にならないようにするという先ほどの話と比べて、何か違いはありますか?
人々が心に留めておくべき一つのことは、今やツールボックスには多くのツールがあるということです。芸術は、与えられた入力を受け取り、それが文脈情報やメタデータ、もちろんユーザーからの入力クエリであっても、その文脈に適したモデルにリダイレクトするルーターや分類器を設計することです。
これは推論管理、推論予算管理にとって重要です。なぜなら、クエリをより小さく安価なモデルや、より高品質なモデル、あるいは特定のドメインに特化してファインチューニングされたモデル、特定の専門分野に対してファインチューニングされたモデルにリダイレクトできるからです。
あるいは、特定の能力を持つモデル、例えば検索が得意で、ある知識ベースやオープンウェブから検索できるモデル、または音声応答用にファインチューニングされたモデルをトリガーすることもできます。音声応答の長さやスタイルは、従来の段落を生成するものとはかなり異なるでしょう。
したがって、ルーターはアーキテクチャの重要な部分です。
ムスタファ、もし今日あなたが最初の会社を始めるとしたら、存在するすべてのものと、この狂ったような変化の速さを考慮して、どこに注目しますか?
私は、不正確さを美徳とする問題領域を探すでしょう。つまり、その問題を解決したときに、あいまいさ、不正確さ、複数の可能な答えが主要な貢献となるような問題です。間違えた場合の結果が本当に高く、正解が1つか2つしかないような問題領域を選ぶと、モデルは常に苦戦するでしょう。これが最初に言えることです。
そのポイントについて、法律や会計、税務など、より精度を要する領域でも多くの活動がありますが、現時点でそれは無駄な努力だと思いますか?
実際、法律は行動を起こすほどの精度を必要としません。法律でも、ほとんどのアプリケーションは類似のケースを検索したり、ケースの要約を提供したりすることです。または、5つの可能な要約があり、そのすべてが正しい可能性があるようなものです。
または、あるケースを別のケースよりも検索する場合、そこまでの精度は必要ありません。法律の分野は実際にはハイステークスな領域です。間違えた場合の結果は、マーケティングコピーを生成する場合とは異なり、本当に悪いものになります。しかし、実際にはその領域には多くの正解があります。
医療ははるかに難しいです。明らかに医療では正解が少なく、結果も非常に重大です。そのため、これはかなり困難な領域です。
ディープマインドから来た私の本当に親しい友人たちの何人かが、今はGoogleにいますが、先週素晴らしい論文を発表しました。彼らが行った信じられないほどの仕事を示しています。基本的に、臨床医のための素晴らしい推論エンジンを提供できることを示しています。そして、将来的には患者のためにもなると思います。それは間もなく来るでしょう。
他にどのような要因を考慮しますか?
インターフェースそのものによって、ファインチューニングのための価値のあるラベル付きデータを自然に収集できるようなインターフェースを設計できる場所を探すでしょう。これは本当に重要です。なぜなら、成功した場合、その成功を増幅させたいからです。ユーザーが増えれば増えるほど、より多くのデータが得られ、より高品質なモデルを作ることができ、そして美徳の循環が生まれます。これは本当に重要な部分です。
そして、当たり前のように聞こえるかもしれませんが、思っているよりも早くマネタイズできる領域を探すと思います。人々にすぐに支払ってもらう必要があります。なぜなら、みんなが知っているように、GPUは非常に高価だからです。
そのような例として思い浮かぶものはありますか?
専門的なサービスを提供している企業、必ずしも1万人のファンではありませんが、1万人の真のファンのようなものです。つまり、そのようなニッチな、高度に適応された、ポケットの中のエキスパートシステムを本当に必要としている人々のことです。
例えば、メカニックや歯科医、または特定の趣味に情熱を持っている人、あるいは知的財産の一部などです。人々が支払う用意のある、そのような専門的なユースケースに価値があると思います。
なるほど。マイクロソフトで取り組んでいるAI製品について少し聞かせていただけますか?ポートフォリオはどのようなものですか?
私はBing、Edgeブラウザ、そして基本的にすべてのMicrosoft製品に展開されているCo-pilotの責任者です。製品の品質とその規模と到達範囲は、典型的なシリコンバレーの人間として、Googleで育った人間として、デフォルトで思っているよりもはるかに大きいです。
3兆ドルの企業になるのは理由があるのです。しかし、シリコンバレーで私たちが与える評判と、実際に持っているものとの間には、再考が必要だと思います。また、巨大な規模と配布力もあります。
私の主な目標はCo-pilotの品質を向上させることです。私たちは急速に世界最高のモデルのいくつかを構築しており、OpenAIと非常に密接に提携し、OpenAIのすべてのモデルとインフラの上に構築しています。彼らのモデルをファインチューニングしています。
次の段階では、本当にメモリとパーソナライゼーションに焦点を当てていきます。あなたのAIはあなたに関するすべてのこと、あなたのすべてのコンテンツ、あなたの個人データ、あなたが言ったすべてのことを覚えていて、あなたをサポートし、あなたの人生を通じてあなたの助手やサイドキックとして存在する必要があります。それが私たちが焦点を当てていくことです。
それは魅力的ですね。既存のMicrosoft Office アプリケーションの制約と、Co-pilotの理想的なバージョンについて、どのようにお考えですか?
良い質問ですね。人々はよく、AIは他のすべてのインターフェースや表面を包含すると言います。それは少し言い過ぎかもしれませんが、正しい方向性だと思います。
数年後には、最初に思い浮かぶことは、ただ「ねえCo-pilot、これを処理してくれる?この答えは何?これはどこで見つけられる?これを予約して。これを覚えておいて。これを買って。これをして。」というようなことになるでしょう。
あなたの人生に常に存在する助手を持つことになり、キーボードを使うということがどういうことかを変えるでしょう。アプリを持つ感覚を変え、検索エンジンやブラウザをはるかに超えたものになるでしょう。
確かに、従来の方法で文書を書いたりメッセージを送ったりする必要があるとは思わなくなるでしょう。それらのものはまだ存在しますが、あなたのAIがあなたの人生全体にわたるアクティビティのキャンバスを管理し、主に他のAIやサービスと連携して、あなたのために情報を収集するでしょう。
それは魅力的ですね。では、ここで締めくくりましょう。ムスタファ、今日は時間を割いていただき、本当にありがとうございます。いつもあなたとの会話を楽しんでいます。
こちらこそセス、会えて良かったです。楽しかったです。ありがとう。チャオ。
プロダクトリーAIをご視聴いただきありがとうございました。今日のインタビューとシリーズ全体に関する詳細情報は、ウェブサイトproductleaipod.comでご覧いただけます。主要なポッドキャストプラットフォームで購読することができ、YouTubeでこのインタビューの動画版をご覧いただけます。すべてのリンクと詳細を直接受け取りたい場合は、私のLinkedInニュースレターに登録してください。私はセス・ローゼンバーグです。これはプロダクトリーAIでした。
この記事が気に入ったらサポートをしてみませんか?