サム・アルトマンがGPT-4oを語り、AIの未来を予測する話

2024年5月17日 00:30

元動画はこちらになります↑↑

本記事はこの動画の文字起こしを日本語訳したものになります。

英語が苦手な私みたいな方は英語だと全く理解できないと思いますので、この記事を作成しました。
それではどうぞ！

(00:00) 私たちは長い間、音声制御のコンピューターというアイデアを持っていましたが、自然に使えるようには感じられませんでした。でも、これは、柔軟性とか融通性、どう呼ぶかはわかりませんが、私はこれを使うのがとても気に入っています。ロガン・バートレットショーへようこそ。この回では、オープンAIの共同創設者兼CEOであるサム・アルトマンとの会話を聞くことになります。ロガン・バートレット・ショーを初めて聞く方もいると思いますが、このポッドキャストでは、主に技術分野で事業を経営または投資している指導者と、彼らが事業を営むまたは投資する上で学んだ教訓について議論しています。

(00:29) サムとの議論は少し異なり、ニュースで話題になっている人工知能や、オープンAIが人工知能の最先端を行く上でのサムの視点について、私から多くのことを問いただしています。サムとの議論はここで聞くことができます。ありがとうございます。はい、簡単な質問から始めましょう。過去4、5年で、オープンAIを運営する中で、最も変わったことは何ですか?公の場で匿名を保てないことは本当に変な感じがします。事前に考えていれば、これがこんなにも変な体験になるとは思わなかったでしょう。でも、そうは思っていませんでした。想像以上に変な体験なのです。

(01:06) とても孤立した生活になります。私はAIの力と事業の可能性を信じていたので、そうした派生的な影響を考えていたのでしょうか。いいえ、オープンAIがこれほど重要な企業になると思っていませんでした。自分の街で夕食に行けなくなるとは思わなかったのです。

(01:38) 先ほど新しいマルチモーダル・GPT-4oについてアナウンスしましたね。オメガの「O」のことですか?はい、オムニ、オールを意味する「O」です。申し訳ありません。このAIは、テキスト、音声、映像に対応しています。なぜこれが重要なのか説明してください。これは私たちがコンピューターを使う素晴らしい方法だと思います。私たちは長い間、音声制御のコンピューターというアイデアを持っていました。私たちはシリやそれ以前のものを持っていましたが、自然に使えるものではありませんでした。でも、このGPT-4oは、できることの多さ、スピード、他のモダリティを追加できること、言い回しの自然さ、「話し方を速くしてくれ」とか「違う声で話してくれ」と言えば従ってくれるなど、その柔軟性や融通性が素晴らしくて、これを使うのがとても気に入っています。スパイク・ジョーンズは誇りに思うでしょう。

(02:23) 利用シーンとして何か気に入っているものはありますか。まだ1週間ぐらいしか使っていないんですが、驚いたのは、集中して作業しているときに、電話を机の上に置いて、作業を中断したり別のウィンドウを開いたりすることなく、そのまま質問して即座に答えが返ってくることです。コンピューター画面を見ながら別のチャンネルを使えるのが意外と便利でした。

(03:06) これを可能にしたのは、アーキテクチャの変更でしょうか、それともコンピューティングパワーの向上でしょうか。過去数年間学んできたすべての要素が組み合わさった結果です。音声モデル、視覚モデル、それらを組み合わせる技術、さらに効率的なモデル学習の方法など、一つの大きな技術的ブレークスルーがあったわけではありません。ただ、いくつかの要素を組み合わせただけです。

(03:38) 遅延を減らしてユーザビリティを高めるため、オンデバイスモデルを開発する必要がありますか。ビデオの場合、ネットワーク遅延の影響を受けるかもしれませんね。ある日はARゴーグルをかけて、世界に語りかけて変化を見られるようになると素晴らしいと思っていました。ネットワーク遅延の影響がある可能性はありますが、この場合は200~300ミリ秒の遅延なら、多くの場合、人間の反応より速いので問題ありません。今回の場合、ビデオではなく画像を生成するものですね。すみません、私はビデオ生成のことを言っていました。

(04:14) あれ?今回のGPT-4oは実際のビデオを扱えるんですか?画像を1フレームずつ処理しています。分かりました。最近、次の大型リリースはGPT-5ではないかもしれないとおっしゃっていましたね。モデル開発は段階的なアプローチを取っているように感じます。今後もこの手法が続くと考えていいですか。つまり、GPT-5という大型リリースはなく、小さな改良を重ねていくということですね。はい、今後の方針は正直わかりません。

(04:59) 技術企業の伝統的な製品リリース方式は適切ではないかもしれません。今後は別の方法を取るべきでしょう。GPT-5と呼ぶかもしれませんし、別の名前にするかもしれません。しかし、これらの製品をどのようにネーミングやブランディングすべきかはまだ分かっていません。GPT1からGPT4までの命名は理にかなっていましたが、GPT4は継続して大幅に改良されています。また、1つの基本的な「仮想の脳」があり、場合によってはより深く考えられるようになるのかもしれません。または別のモデルになるかもしれませんが、ユーザーには関係ないかもしれません。製品のマーケティング方法はまだ分かっていません。

(05:37) つまり、モデルの増分的な進歩にはこれまでほど計算リソースを必要としなくなる可能性がありますね。計算リソースは常に利用可能な限り使い切ると思いますが、驚くべき効率化が進んでいます。今日発表した機能の中で最も重要なのは、音声対応ではなく、無料ユーザーにも最高のモデルを提供できるほどの効率化を実現したことです。GPT-4やGPT-4ターボから驚くべき効率化が図られています。さらに改善の余地が大きいと考えています。以前、ChatGPTそのものでは世界が変わらなかったが、人々の期待値を変えたとおっしゃっていましたね。

(06:49) 確かに、GDP などの経済指標を見ても、ChatGPT のリリースで生産性が変化したという証拠は見つかりません。一部の分野、例えばカスタマーサポートなどでは影響があったかもしれませんが、おそらく世界のGDPにはほとんど影響がなかったでしょう。しかし、数十年後にデータを見返せば、何かが変わった兆しが見えるはずです。今後12ヶ月で最も有望な分野や用途はどこだと思いますか。私の偏見かもしれませんが、私たちの事業に関係する分野、つまりコーディングが最も有望だと思います。

(07:25) 「ビターレッスン」について話した際、特定の目的や特定のデータセットに特化したモデルと、真の推論能力を持つ一般化モデルについて言及しました。一般化モデルの方が重要になると予想しています。特定の目的やデータセットに特化したモデルを作り、あらゆる統合を行うよりも、一般化された推論能力を持つモデルを作る方が重要です。モデルが一般化された推論ができれば、新しいデータを与えられればそれに対応できます。しかし、その逆はできません。特化したモデルを組み合わせても、一般化された推論はできません。つまり、コーディングでは特化したモデルより、一般化モデルの方が重要ということですね。

(07:58) そうですね。ただし、専門的なモデルには専門的なモデルなりの価値があります。人工知能の推論能力を高めることが最も重要だということです。推論能力さえあれば、あとはそれをさまざまな分野に応用できます。2年後、人工知能との主なコミュニケーション手段は何になっていると思いますか。自然言語がかなり良さそうですね。人間と人工知能が一緒に使えるような未来を設計することに関心があります。つまり、人型ロボットに興味があります。なぜなら、この世界は人間向けに設計されているので、より効率的なものに置き換えたくないからです。人工知能に対して自然言語で話せるようにし、人工知能同士も自然言語でコミュニケーションできるようにするのが良い方向だと思います。

(09:07) 最近、モデルそのものが商品化される可能性はあるが、最終的には個人に合わせたモデルのカスタマイズが最も重要になると言っていましたね。この認識で間違いありませんか。はい、それで間違いありません。カスタマイズ化を超えて、ビジネスの一般的なUIやユーザビリティが、エンドユーザーにとって勝利の鍵になると思いますか。はい、それらは重要な要素になるでしょう。新しい技術が登場すると、従来の事業ルールが通用しないと思いがちですが、実際にはうそか

(09:44) らです。価値を創造する伝統的な方法が依然として有効です。オープンソースモデルがベンチマークを追い越してきたことについて、どのように考えていますか。私はそれはいいことだと思っています。他の多くの技術と同様に、オープンソースと、ホストされたモデルの両方に場所がるべきです。

(10:17) 最近、WSJがクレデンシャルな報道機関として、半導体製造ラインに莫大な投資を行おうとしていると報じていました。TSMCやNVIDIAも、AI向けインフラへの期待から精力的に投資を行っています。先日、世界にはさらに多くのAIインフラが必要だと言っていましたが、TSMCやNVIDIAから出てくるものでは需要に応えられないほどの規模が予想されているのでしょうか。まず第一に、私は現在のシステムを提供するコストをかなり下げられると確信しています。しかし、その結果として需要も大幅に増えるでしょう。第二に、より大規模で優れたシステムを構築することで、さらに需要が高まると考えています。

(11:40) 私たち全員が、知性があふれるほど安価になることを望むべきです。そうなれば、あらゆる用途に使えるようになり、「自分のメールを読んで返事を書いてほしいか」とか「がんを治療してほしいか」と選ぶ必要がなくなります。両方を実現したいはずです。私は、そのために十分なリソースが必要だと確信しています。ご自身の取り組みについてコメントする必要はありませんが、HumaneやLimitlessなどの異なる個人用デバイス・アシスタントについて、ユーザーの期待に応えられていない点や間違っている点はどこだと思いますか。まだ始まったばかりだと思います。

(12:13) 私は様々な種類のコンピュティングをいち早く採用するタイプで、大学1年生のときにコンパクトTC1000を愛用していました。あれはiPadからはるか遠い製品でしたが、方向性としては正しかったと思います。その後、Palm Trioを手に入れましたが、当時の学生の間ではダサかったです。iPhoneが登場する前の製品でした。これらは有望な方向ですが、改良を重ねる必要があるでしょう。最近、ChatGPTアプリを構築する企業が、将来のGPTによって「steamrolled(蹴散らされる)」と表現されていましたね。このコメントについて詳しく教えてください。また、GPTの進化を生き残れるAI第一主義のビジネスは、どのような特徴を持つべきでしょうか。

(13:35) これについて有効であると分かっているのは、次のモデルが優れているという前提があります。

ChatGPTを構築している企業のうち、GPT-4の能力を超えたある1つの使用例に特化して大変苦労して実現したものがあるとしましょう。しかしその後、GPT-5がリリースされてその1つの使用例に加えてあらゆる他の分野でもGPT-4を大きく上回る能力を発揮したら、その企業の苦労は無駄になってしまいます。

一方で、幅広い分野で中程度の性能を発揮するアプリを作り、さまざまな用途に使われていたとしたら、GPT-5がリリースされると全体的に大きく恩恵を受けることができます。つまり、1つの特定の用途に特化するよりも、幅広い分野で活用できるようにしておけば、次のモデルのリリースで浮かばれると考えられます。

(14:12) ほとんどの場合、人工知能ビジネスを構築しているわけではありません。人工知能はあくまで利用する技術に過ぎません。アプリストアが登場した当初、一時的なニーズを満たすアプリが多数登場しましたが、やがてAppleがOSに同様の機能を組み込むようになり、そうしたアプリは不要になりました。一方でUberのようにスマートフォンの機能を活用して長期的に守れるビジネスモデルを構築した企業もあります。後者のカテゴリーを目指すべきです。

この枠組みに当てはまる新しいコンセプトの事業例を挙げていただけますか?実在する企業でも構いませんし、単なる思考実験でも構いません。

(15:27) 実際、このような新しい企業の方が有望だと考えています。人々が典型的に挙げる例は、AI医師やAI診断医についてですが、「メイヨー・クリニックなどの既存企業がそうした分野に参入するだろうからスタートアップが勝ち残れない」と言われがちです。しかし私は、その分野で新しい企業が勝つべきだと考えています。

CEOの皆さんにアドバイスをするとしたら、どのようなことを言いますか?これらの破壊的イノベーションに積極的に備えるにはどうすればよいでしょうか。

(16:04) 「インテリジェンス・アズ・ア・サービス」が年々より良くなり、より安価になることを前提としてビジネスを考えるべきですが、それだけでは勝ち残れません。大企業は新しい技術を導入するのに時間がかかりすぎるため、それを機会ととらえられます。しかし他の起業家も同じことを考えているので、長期的な差別化要因を見出す必要があります。価値創造の難しさは変わりません。ただし、価値を創造する方法が増えただけです。

(16:43) 5年後には、現在ではニッチまたは存在しない職種が一般化しているかもしれません。そうした職種のタイトルや業務内容は何だと考えられますか。素晴らしい質問ですね、これまでそのような質問を受けたことがありません。人々は常に「どの仕事が失われるか」と尋ねますが、新しい仕事に焦点を当てるのは面白い視点だと思います。考えてみましょう。

新しい種類のアート、エンターテインメント、人間同士のつながりなど、広く見れば5000万人や1億人が従事する可能性のある分野があるかもしれません。具体的な職種名は分かりませんが、人間らしい素晴らしい体験に価値が置かれるようになるのではないかと予想しています。5年以内に実現するかは分かりません。

(18:01) オープンAIの最新の企業価値評価は900億ドル前後と言われています。AGIに到達する前に、オープンAIが1兆ドル企業になるための重要なマイルストーンは1、2つありますか? 技術を現在の水準で改善し続け、収益が伸び続けることができれば、具体的な数字はさておき問題ないと思います。

現在のChatGPTサブスクリプションモデルが、1兆ドルの企業価値を生み出すと考えていますか?

意外だったのですが、そのサブスクリプションモデルが上手く機能しています。自信を持って推奨できるほどではありませんでした。

(18:40) AGIの定義次第ですが、AGIを実現した後は、AGIにどのようなモネタイズモデルが適切かを尋ねられるかもしれませんね。はい、その可能性はあります。

11月の一件について振り返る必要はないと思いますが、当時のオープンAIの体制には課題があると指摘されました。その後、体制の変更について言及されています。今後、適切な体制とは何だと考えていますか。

(19:23) 私たちは様々な対話を重ね、熱心に検討を重ねてきました。おそらく今年中に、それについて話せるようになると思います。年内に説明できるでしょうか?そうですね、機会があれば話したいと思います。

ラリー(Larry)とブレット・テイラー(Bret Taylor)が最高戦略責任者に就任した際、私のコールは来なかったのですが、人工知能に対する人々の先入観の一つとして、マニュアル作業、ホワイトカラー職、クリエイティブな仕事の順に置き換わると考えられていました。しかし実際は逆の順序になったと言えます。このように予想を裏切る例は他にもありますか?

(19:58) はい、その例こそが最大の驚きでした。法務分野での活用が早期に可能になると思っていませんでした。法律は非常に正確で複雑な分野だと考えていたからです。しかし、それが最大の驚きというわけではありません。手作業、知的労働、クリエイティブな仕事の順番が逆転したことが最大の驚きです。

最近、「AI」という言葉が気に入らないとおっしゃっていましたね。その理由を詳しく説明していただけますか。

(20:31) もはや時間の問題ではなく、連続的な指数関数的な進歩のプロセスだと考えています。会社を始めた当初は、AGIが実現する瞬間があると考えていました。AGIが実現する可能性はあると思いますが、全体としてはゆっくりとした進化の過程になると考えています。GPT-4はAGIの基準を満たしていませんし、次のモデルでもAGIには至らないでしょう。しかし、おそらくあと1、2つのアイデアとスケールアップさえあれば、AGIに近づけるかもしれません。AGIの実現時期を特定するのは難しいでしょう。

(21:13) AGIを判断するための新しい「チューリングテスト」のような基準はありますか?オープンAI全体での調査能力を上回る時点がAGIだと考えられますか? その可能性は否定できません。しかし、最も可能性が高いシナリオではないと考えています。検討する価値はあると思います。AGIに到達する上での最大の障害は何だと考えていますか?これまでの指数関数的な進化が当分の間続くと考えられます。

(22:31) 最大の障害は新しい研究成果にあります。インターネットのソフトウェア分野からAI分野に移ってきて学んだことですが、研究の進捗はエンジニアリングと同じスケジュールでは進みません。エンジニアリングよりも遅いことが多いですが、時には予想以上に早く進むこともあります。

(23:06) その点について具体的な例を挙げていただけますか。正確な数字は覚えていませんが、誰かが訂正してくれると思います。中性子の存在が理論的に示唆された20世紀初頭から、実際に検出されたのが1920年代だったと思います。原子爆弾の研究が始まったのは1930年代で、実際に実現したのが1940年代です。中性子の存在すら分からなかった状態から、物理学の常識を覆す原子爆弾が作られたのです。これは驚異的なスピードです。

これは純粋な科学の例ですが、科学技術分野でもこうした例はよくあります。有名な例として、ライト兄弟が「飛行機の実現は50年先だ」と言っていたのが1906年で、実際に飛行機を飛ばしたのが1908年だったと記憶しています。科学の歴史を見ると、こうした例がたくさんあります。逆に、理論は立てられても実現が大幅に遅れたり、数世紀もかかったりする例もあります。しかし、時に驚くべき速さで進歩する場合もあるのです。

(24:29) 解釈可能性に関する研究はどの程度進んでいますか?長期的にはAI普及の鍵になると考えられますか? 解釈可能性にはさまざまな側面があります。ネットワーク内の各層で起きていることを完全に理解することと、出力結果を見て論理的な矛盾点があるかを確認することは違います。オープンAIを含む様々な組織で、この分野の研究が着実に進んでいることを喜ばしく思っています。解釈可能性の研究は有望で興味深いと考えています。

企業でのAI導入を進める上で、解釈可能性の確保が前提条件になると思いますか?GPT-4は現時点でかなり高い解釈可能性を持っていると言えるでしょうか。その通りだと思います。

(25:55) AGIの実現に備えた規制の枠組み作りに関して、批判的な意見があります。自身の態度が個人的な懸念から来ているとの指摘もあり、AGIの恩恵を一方的に決められないよう、何らかの選出された機関による監視体制が必要だと主張されています。

現時点での高度なモデルを過剰に規制するのは間違っていると思います。しかし、深刻なリスクをもたらすレベルに到達した際には、何らかの監視体制が必要になるでしょう。この閾値をどこに設定し、どのようにテストするかについては、議論の余地があります。この素晴らしい技術の恩恵を妨げてはいけません。家庭でモデルを学習させることすら規制されてしまっては本当に恐ろしいことです。一方で、核兵器のように国際的なルールは必要です。

(26:36) 一部のVCから「規制の捕囚」になるのではないかと批判されていますが、彼らが見落としているリスクは何だと思いますか?全体として、彼らはAGIについて真剣に検討していないように思えます。AGIの可能性を全面的に否定していた人々も、そうした声の中にいました。しかし、私には彼らの懸念が理解できます。これまで規制が技術の発展を阻害してきたと考えているからです。欧州の技術業界がその好例です。しかし、私たちが向かっている先には、ある閾値を超えると、みんな考え方を変えるかもしれません。

(27:15) オープンソースのモデル自体が本質的な危険性を持つと考えられますか? 現時点では危険性はありませんが、今後は危険なモデルが登場する可能性があります。

安全性については、単なる二元論ではなく、航空機のように許容できるリスク水準を明確化する必要があると以前おっしゃっていました。ソーシャルメディアなど、副作用のある製品も含まれると思います。このような安全性のパラダイムの下で、貴方が活動を変える必要があると考えられる具体的な事例はありますか?

(28:39)私たちには「準備状況の枠組み」があり、それに基づいて行動を決めています。特定のカテゴリやレベルになれば、行動を変える必要があります。

以前、Lex Fridmanをゲストに迎えましたが、4時間にも及ぶ長い対話になりました。どうでしたか? 素晴らしい経験でした。彼は私より自由な時間が多いので、私が4時間も話し続けることはできません。複数のセッションに分ければいつでも構いません。

フレンドリーAIの話を聞かずにはいられません。様々な「急激な飛躍」のシナリオがあり、現状では計算リソースが制約要因となっています。もし現在のトランスフォーマーアーキテクチャに修正を加え、必要なデータ量やハードウェアのスケールが人間の脳に近づいたらどうなるでしょうか。急激な飛躍が起こる可能性はあるのでしょうか。

(29:57)その可能性はあります。その可能性はありますし、アーキテクチャの修正さえ必要ないかもしれません。私が最も可能性が高いと考えているシナリオではありませんが、起こり得るシナリオとして無視することはできません。重要なのは、そうした事態に備えて注意深く検討することです。

(30:35) AGIに到達した場合でも、それが社会にどの程度の影響を与えるかは一朝一夕ではなく、数年から10年かけてゆっくりと変化していくものだと考えています。翌日や翌年に世界が変わるわけではなく、おそらく10年程度の期間をかけて世界は大きく変わるでしょう。社会には一定の慣性があり、それが助けになると思います。

(31:13) あなたが受けたくない質問として、イーロン・マスク、株式の公平性、11月の取締役会の体制変更などがあると思いますが、どの質問が一番嫌ですか?私は特にどの質問も嫌ではありません。ただ新しいことは言えません。

株式の公平性については、十分に答えてきたつもりですが、人々はなかなか満足できない様子ですね。お金が十分にあれば良いということですが。

(31:50) 私が1兆ドルもの富を得て、それを寄付したとしても、多くの人が期待する従来の富裕層のように振る舞うべきだと考えられるでしょう。比較的小さな財産でもそうですね。大金を得た人が通常そうするものです。

AGIの実現に向けた動機は、お金以外に何があるのでしょうか。お金を稼ぐことも大切ですが、それ以外の動機があると多くの人が安心するでしょう。

(32:29) 人々にこう言っています。今は多くの犠牲を払っていますが、これが私がかかわれる最も興奮する、重要で素晴らしいことだからです。信じられないくらい刺激的で重要なことに携わる機会に感謝しています。しかし、いつまでも続くわけではありません。いずれは農場で退職し、今を懐かしく思い出すことでしょう。ただし、当時はストレスがたまる長い日々が続きました。

(33:03) 匿名を失った出来事の中で、最も現実離れした体験はありましたか?多数の有名人があなたの電話の連絡先に登録されているかもしれません。匂わせるつもりはありませんが、著名人から電話があったエピソードはありますか?

(33:36) 毎日がすでにかなりすごい体験です。例えば11月の出来事の後、翌日か翌々日に、10~20ヶ国の大統領や首相からテキストメッセージが来ました。それ自体はさほど驚くことではありませんでした。驚いたのは、そうした出来事があっても、私は普通に返信を書いていたことです。それは非常に異常な体験でした。

4、5日間、睡眠時間も食事時間もほとんどなく、ずっと高い緊張状態が続きました。それが感謝祭の前の週にあり、火曜日の夜にようやく収束しました。水曜日の感謝祭の前日、妻と一緒にナパへドライブに行きました。途中のダイナーで食事をしましたが、数日ぶりの食事でした。運転中に気づいたのですが、そこで初めて数日ぶりに食べ物を口にしたことに気づきました。そしてとてつもなく重く脂っこい料理と2つのミルクセーキを注文しました。食事をしながら、ある国の大統領からまたメッセージが来て、「すみません、忙しかったでしょう」というメッセージでした。そのとき、多くの首脳からメッセージが来ていたことを改めて実感しました。当時はそれが非日常的な出来事だと感じられなかったことに驚きました。

(34:54) これはつまり、人間には何にでも順応できる驚くべき能力があり、良くも悪くも、どんな状況でも普通のことになってしまうということですね。この数年で私もそのレッスンを何度も学びました。しかし、これは人類の素晴らしい適応能力を物語っていると思います。人工知能による大変革に直面する中で、この能力は役立つはずです。9.11の後を思い出します。その日私はニュージャージーにいましたが、私たちの町で数十人が犠牲になりました。しかし町は非常に団結し、テロ攻撃があったことすら日常的なことのように感じられました。イスラエルにいる友人に話を聞いても、戦争があることは普通のことだと言っています。食べ物を調達したり、友人と話したりする日常は続きます。こうした心理的なインパクトがあっても、基本的な生活は続かざるを得ません。適応力は本当に驚くべきものです。

(36:12)次のモデルが賢くなるにつれ、人間らしさを保つためには何が重要だと考えていますか? これは長年の質問ですが、私の答えは、人間は他者を気にかけ続けることでしょう。インターネットを見ると、みんなChatGPTに恋をしてしまうと言われています。でもそうならないと思います。私たちは生物学的に他者を気にかける存在に作られています。大きなことも小さなことも、他者のことを気にかける傾向は変わらないはずです。

(37:24)オープンAIを経営する上で、社内のルールやフレームワークは消費者向けインターネット企業と異なるものになりましたか? 研究者と製品エンジニアは性格が異なることが多いので、役員クラスで従来と異なる人材を採用する必要がありましたか? 外部から役員を採用することもありますが、基本的には社内で人材を育成・登用することを信じています。オープンAIの事業は他社とは異なるため、新しい発想を持つ人材を外部から取り入れることも大切です。しかし大半は社内育成です。

(38:40)オープンAIの歴史で最も重要な意思決定はどのようなものでしたか?また、その決定をどのように下したのでしょうか。
一つだけを挙げるのは難しいですが、AGIを秘密裏に開発して一度に世に出すのではなく、徐々に公開する「反復的デプロイメント」を決めたことは非常に重要でした。当初はAGIを一気に公開するのが賢明だと考えられていました。言語モデルに賭けたことも重要な決定でした。

(39:22)言語モデルに注力することを決めたきっかけは何だったのでしょうか。当初は他のプロジェクト、ロボットや Video Game などがあり、言語モデルの研究は小さな努力からスタートしました。イリヤ(Ilya)が言語モデルの可能性を強く信じていたのがきっかけでした。GPT1、GPT2を経て、スケーリングの法則を研究し、GPT3の開発が本格化しました。言語モデルに全力を注ぐことを決めたのです。振り返れば当たり前に見えますが、当時はそう簡単には見えませんでした。

(40:36)最近、自分の「AI 副腹話術人形」と「最も賢い従業員」のように、AIの利用法に2つのアプローチがあると言っていました。この点について詳しく説明してください。

(41:17)将来、あなたからテキストメッセージが来た場合、それがあなた自身からのものなのか、あなたのAI アシスタントからのものなのかを区別できるようにしたいと思います。AIアシスタントからのメッセージであれば、それを束ねて後で返事をするなど、人間の秘書に頼むようなことをするでしょう。しかし、あなた自身とはっきり区別できるようにしたいのです。AIがあなたの一部になってしまうのは避けたいと思っています。私自身もそうありたいと考えています。AIは別個の存在であり、AIとコミュニケーションを取る際には、ある種の境界線があることを認識したいのです。

(41:54) ドレイクやテイラー・スウィフトの音声を人工知能で生成できるようになると、本物の創作物であることを何らかの形で検証・証明する仕組みが必要になるかもしれません。個人レベルでも、同様の仕組みが求められる可能性があります。

(42:30) 個人のAIアシスタントがどうあるべきかについて、分権化した形で個人が決められるようにするのが良いでしょうか。そうですね、個人が決められるようにすることが重要です。

(42:39) 2030年代や2035年頃の大学生を見据えた際、教育システムにどのような変更が必要だと考ええますか?最も重要なのは、学生にツールの使用を義務付けることです。一部の場合を除いて、旧式の方法で行うべきではありません。数学の授業で電卓を使用禁止にされたことを覚えていますが、実生活では電卓を使用できます。原理を理解した上で、ツールの使用を熟達する必要があります。オープンAIの研究者が電卓を使わずに研究を行っていたら、オープンAIは存在しなかったでしょう。人工知能も同様に、生産的な作業を行う上で重要なツールになるはずです。学生に人工知能の使用を義務付けるべきです。

(44:24) 最後の質問です。AGIをはじめとする知能の進化について、『AGIはあくまで知性の連続体上の一点に過ぎず、過去10年間で見られた進化の速度が長期にわたり持続する可能性が高い』と書かれていました。個人的にはその未来をどのようにイメージされていますか。飛行車が飛び交う未来都市のようなイメージではなく、一人ひとりが何百人もの調和の取れた人々に匹敵する生産性を持てるようになることを想像しています。あらゆる科学を発見できるようになるわけではありませんが、それに近い体験ができるかもしれません。とてもエキサイティングなことだと思います。

サム、本日はありがとうございました。

Sam Altman talks GPT-4o and Predicts the Future of AI

以上です！ぜひXも見てね！

Tweets by prompt_naka

この記事が気に入ったらサポートをしてみませんか？