実験ノート：OpenAI o1の試行(5)、o1開発者たちのインタビュー会話の分析、o1-previewによる解説も秀悦だった

2024年9月21日 23:36

2024年9月12日(US現地時間）、OpenAIが、Strawberryと噂されていた、次世代のLLMを発表、o1-previewとo1-mini。

それぞれ、有料ユーザーのみがつかえる(9/14現在)。ただし、huggingFaceなどには、o1を試行用に試供してくれているサイトがある(9/21現在)ので試してみる。今回のテーマは、YouTubeのトランスクリプトからのまとめである。ChatGPTは与えたトランスクリプト以外のトピックとか人とかを拾っている感じであったので、最後のGemini 1.5 Proにトランスクリプトに忠実に、トピックをピックアップしてもらい詳細な説明をつけてもらった。同時に、o1-previewにも解説してもらったが、とても納得感が高くそして、新しい未来を予見させるものだった。とにかくo1シリーズの性能は素晴らしく、むしろ人間の方が、その使い方や自分がどう変わるかを、試されているというのは確かだ。

ハルシネーションというか、原文をはみ出した考察とか予測とかもあったが、そこは気を付けるしかない。失敗も含めて、再体験のために載せる。

【注意】この内容は、トランスクリプトからまとめを作ってもらったものであるが、トランスクリプトにない回答も混ざっていることに注意。

対象としたのは、"Building OpenAI o1"という、いわゆる開発秘話てきなもの。

絵は、FLUX.1、a group of developers for the new high performance LLM get together in a lobby sitting on sopher and floor, group interview with joy and big blight windows, Andrew Wyeth style

トランススクリプト

YouTubeから、以下のようなトランスクリプトが得られたとする。

00:10
all right I'm Bob McGrew I lead the research team here at open aai we've just released a preview of our new series of models 01 and 01 mini which we are very excited about and we've got the whole team here to tell you about them what exactly is 01 so we're starting a series of new models uh with the new name oan this is to highlight the fact that you might feel different when you use o as a compared to previous models such as GPT 40 as others will explain later o1 is a reasoning model so it will
(続く)

YouTubeから得られたトランスクリプト（一部）

ChatGPTによるまとめ

最初に、トランスクリプトを全部与えて、まとめてもらった。

OpenAIの研究チームを率いるボブ・マグルー氏が、新しいモデル「o1」と「o1 mini」のプレビューを発表しました。o1は「推論モデル」として設計されており、質問に答える前により深く考える能力を持ち、複雑な問題解決や創造的な作業に適しています。一方、o1 miniはo1と同様のフレームワークで訓練された小型かつ高速なモデルで、コストとレイテンシを抑えつつ高い推論能力を提供します。

開発過程では、AlphaGoの成果に触発され、深層強化学習と教師あり学習を組み合わせることで、モデルの推論能力を向上させる試みが行われました。特に、モデル自身が思考過程を生成・洗練する強化学習（RL）の導入により、人間が書いた思考チェーンよりも優れた結果を得られる「アハモーメント」がありました。

o1は数学問題の解決やコーディング支援、デバッグ、ブレインストーミングなど多岐にわたる用途で活用されており、ユーザーはテスト駆動開発や創造的な文章作成にも利用しています。また、モデルに人格を持たせることで、より人間らしい対話が可能となり、ユーザー体験が向上しています。

モデルの訓練には多くの困難が伴いましたが、チームは信頼性の高い大規模インフラの構築やアルゴリズムの改良を重ね、成功を収めています。各モデルには独自の特徴や「個性」があり、それぞれが異なるタスクで優れたパフォーマンスを発揮します。

最終的に、o1とo1 miniの開発は、長時間にわたる思考や高度な推論を可能にし、科学やエンジニアリングの分野で新たな知識の創出を支援することを目指しています。チームは協力と創意工夫を通じて、これらのモデルが人々の日常生活や専門分野で有用なツールとなることを期待しています。

ChatGPT,Free gpt-4o,2024.9.21

さて深堀ということで、まずは、出演者ごとの、トピックをえらんで、エピソード風にまとめてもらった。例えば、ShimonはTDD(テスト駆動開発）について語っていた。

だれかが、TDDに使って、いままでとちがったLLMとの連携の経験をしたみたいなエピソードがあった、そのようなエピソードをつけてもらうと、より理解が深まると思う。

入力プロンプト（一部）

Shimonのエピソード: TDDとLLM連携の新たな経験
トピック: TDDに基づいた開発とLLM連携の経験
考え: Shimonは、o1モデルの開発中にTDDを活用して、従来とは異なる方法でLLMとの連携を試みた経験を語っていました。彼は、TDDのアプローチを通じてコードを書きながら、LLMが生成する予測や提案をテストし、それをすぐにフィードバックループに取り込むという革新的なプロセスに取り組みました。彼の発言によると、このプロセスでは、通常のコーディングサイクルとは異なり、LLMがリアルタイムでテスト結果に応じた改善案を提示するため、開発のスピードと精度が飛躍的に向上したとのことです。
特にShimonは、これまでに経験していた手動テストの反復作業が減り、LLMが自動的に次のテストケースやエッジケースを提案するという点に感銘を受けたと言っています。これにより、o1モデルの開発プロセスがよりスムーズかつ効率的に進み、予期しないバグの早期発見が可能になったと感じています。

このエピソードは、ShimonがTDDとLLMの組み合わせで、単にプログラムを書くというよりも、モデルと一緒に共同作業をしているような感覚を持ったことを示しており、従来のソフトウェア開発手法に新しい視点をもたらした興味深い体験です。

ChatGPT,Free gpt-4o,2024.9.21

いいねえ、この調子で言ってみよう。

Andrejのエピソード: フィードバックとモデルの学習プロセス

トピック: フィードバックループとLLMの学習
考え: Andrejは、o1モデルにおいてフィードバックループの重要性について強調しました。特に、モデルの学習が従来と比べてインタラクティブになり、ユーザーのフィードバックを取り入れることで、モデルが即座に応答を改善していく点が新しいと語りました。彼は、モデルの出力に対するフィードバックを収集し、それを内部的な再学習に利用することが、従来のMLパイプラインよりもずっと効率的だったと感じています。

また、テストや評価を通じてモデルが成長する様子に触れ、これは開発者が提供するデータだけでなく、運用段階で得られるユーザーデータも重要な学習材料となり得ると指摘しました。こうしたリアルタイムなインプットの取り入れ方が、モデルの品質向上につながると彼は考えています。

なるほどね、人間のフィードバックによる強化学習 (RLHF)のことね。

Ilyaのエピソード: モデルのアーキテクチャとメタラーニング

トピック: メタラーニングとモデルの柔軟性
考え: Ilyaは、o1モデルの柔軟なアーキテクチャ設計とメタラーニングの能力に注目しました。彼は、従来のモデルに比べて、o1が特定のタスクに閉じることなく、多様なタスクに適応できる点を強調しました。この柔軟性は、メタラーニングに基づくアプローチが深く関わっていると述べ、モデルが新しいタスクに対して自己適応するプロセスに強い興味を示しました。

Ilyaは、このような適応能力により、開発者が手作業で行う調整が減少し、モデル自体が環境や課題に合わせて最適化されると感じています。彼は、こうしたアプローチが大規模プロジェクトや複雑なタスクにおいて、労力を大幅に削減する可能性を指摘しました。

なるほどね、メタ能力ってのがやっぱりとても重要なんだ。「モデル自体が環境や課題に合わせて最適化」ってのは可能性もあるけど、危険な香りもするな。

Samのエピソード: スケーラビリティとモデルのリアルタイム応答

トピック: スケーラビリティとリアルタイム応答の重要性
考え: Samは、o1のスケーラビリティとリアルタイムでの応答性に注目しました。彼は、このモデルが大規模なデプロイメントやユーザーインタラクションにも対応できる点を高く評価し、特に大規模なクラウド環境やエンタープライズでの利用において、優れたパフォーマンスを発揮すると語りました。

また、モデルがリアルタイムに適応する能力も強調しており、これがユーザー体験において重要な要素であると述べました。特に、応答速度と精度が両立している点が、他のモデルと比べて優れていると感じているようです。彼は、これにより非常にスムーズなユーザーエクスペリエンスが提供できるとし、大規模プロジェクトへの導入可能性を強く推しています。

なるほどね、これって、応答速度と精度というか詳細度をあらかじめ予測するAIを開発したと前言ってたな。

Gregのエピソード: 新しいモデルのインターフェースと開発者向けツール

トピック: 開発者向けインターフェースとツールの進化
考え: Gregは、o1モデルが開発者に対して提供する新しいインターフェースとツールの進化に注目しました。彼は、これまでのモデルに比べて、開発者がより簡単にモデルとやり取りできる環境が整備されていると感じており、特にAPIの使いやすさやドキュメンテーションの改善が大きな進歩だと述べました。

彼は、o1が提供するツールが開発者の負担を軽減し、効率的なデプロイメントやデバッグを支援することに感銘を受けたと語り、こうした機能がより多くの開発者をこのプラットフォームに引き寄せるだろうと考えています。モデルのパフォーマンスだけでなく、開発体験が進化している点がGregにとって重要なポイントでした。

APIも便利なのか。

o1-previewにもまとめてもらった

JTのエピソード: RLによるチェイン・オブ・ソートの革新的トレーニング

トピック: 人間のチェイン・オブ・ソートを超えるモデルトレーニング
考え: JTは、モデルに対して強化学習（RL）を用いて、モデル自身がチェイン・オブ・ソート（思考過程）を生成・洗練するトレーニングを行った際に、大きな発見をしたと語っています。彼の「アハ体験」は、人間が書いたチェイン・オブ・ソートを学習するよりも、この方法でトレーニングしたモデルの方が優れた結果を出すことに気づいたことです。これにより、モデルの推論能力をスケールさせ、新しい形でモデルの思考プロセスを探求する道が開けたと感じています。

JTは、この方法がモデルの推論力を大幅に向上させるだけでなく、モデルが自発的に問題を深く考え、より複雑なタスクに取り組む能力を持つようになった点を強調しています。彼の発見は、モデルが自律的に思考プロセスを発展させる可能性を示唆しており、今後のモデル開発において重要な意味を持つと考えています。

なるほど、「人間が書いたチェイン・オブ・ソートを学習するよりも、この方法でトレーニングしたモデルの方が優れた結果を出す」とうことで、o1のプロンプトでは、"step by step"みたいな工夫が非推奨になってるんだな。でも、ない方が良いってどういうこと？「自律的に思考プロセスを発展させる可能性」ってのは、メモに値する。

Wendaのエピソード: チームの問題解決の救世主「Wendaの祝福」

トピック: チーム内の困難な問題を即座に解決する能力
考え: Wendaは、チームメンバーが長時間悩んでいた技術的な問題を、瞬時に解決してしまう才能を持つと語られています。チーム内では、この現象を「Wendaの祝福」と呼び、彼の迅速かつ的確な問題解決能力に感謝しています。メンバーは、Wendaに助けを求めることで、問題解決が大幅にスピードアップし、プロジェクトの進行がスムーズになると感じています。

このエピソードは、Wendaの深い知識と経験がチーム全体の効率と士気を高めていることを示しています。彼の協力的な姿勢と専門性が、チーム内での学習と成長を促進し、困難なプロジェクトを成功に導く重要な要因となっていると評価されています。

(13:17~)speaking of this U help we had many times when we were trying to debug this for like a week and then passing by wend the and then like ask it and then like he just solved it right away he started calling it w the blessing and then blessing people and that has been uh really really effective and I stopped like thinking about is this too stupid
(13:51) to ask and just ask right away

トランスクリプトから

なるほど、Wendaさん、'blessing'、こういう人が絶対必要だよね。

Leamのエピソード: o1によるクリエイティブなブレインストーミング

トピック: ブログ投稿やツイート作成のためのo1活用
考え: Leamは、o1をブレインストーミングのパートナーとして活用し、機械学習の問題解決からブログ投稿やツイートの執筆に至るまで幅広く利用していると述べています。具体的には、言語モデルの評価に関するブログ投稿を執筆する際、o1に記事の構成やベンチマークの長所と短所、執筆スタイルなどについてアイデアを求めました。o1が回答を出す前に深く思考する能力を持つため、アイデアの連携や修正、候補の批評が効果的に行えると評価しています。

Leamは、o1が創造的なプロセスをサポートし、自身の考えを整理・深化させる上で非常に有用であると感じています。o1との対話を通じて新たな視点やアイデアが生まれ、より質の高いアウトプットを生み出すことができると述べています。

(09:32) for me I like to use o1 as like a brainstorming partner so that can range from anything from like a how to solve some very specific ml problem machine learning problem to like how to write uh a blog post or or a tweet so uh for
(09:32) example I I recently wrote a blog post about language model evaluations and I was asking oan about ideas for the structure of the blog post pros and cons of certain benchmarks um and even the style of the writing and I think because it's able to think before it gives the final answer um it's able to connect ideas better it can revise and uh critique candidate ideas and and things like that yeah I think if you need like a know you have some short text and want it more creative something really different that that's a great use to
(10:04) like give me five different ideas also if you have just sort of like some unstructured thoughts it's a really brilliant thought partner so you have like some ideas it's like well how should I connect these things what am I missing um and through its final answers and through sort of reading it's like thought process it it can really lead to like much better results for you

トランスクリプトから

なるほど、ブレストの相手としての能力がよくわかる。

ウェイのエピソード: 数学競技への情熱とモデルへの反映

トピック: コンペティション数学の経験を持つAI研究者としての視点
考え: ウェイは、若い頃に数学コンペティションに多くの時間を費やし、その経験がAI研究への主な動機の一つであったと語っています。彼は、このプロセスを自動化するシステムを作りたいという強い思いがあり、o1モデルが自分自身が問題を解く際のステップに非常に近い形で問題解決を行うのを目にして、大きな達成感を感じています。完全に同じ思考過程ではないものの、非常に共感できるプロセスであり、この状況は彼にとって大きな喜びであると述べています。

彼の経験は、o1が専門家レベルの問題解決能力を持ち、研究や教育の分野で新たな可能性を開くことを示しています。ウェイは、モデルが人間の専門知識を再現し、さらにはそれを超える能力を持つことで、科学や工学の進歩に寄与できると期待しています。

無名のメンバーのエピソード: モデルに個性を与える挑戦

トピック: モデルのパーソナリティ開発とユーザーエクスペリエンスの向上
考え: チームのあるメンバーは、数か月前にはモデルが非常に賢いものの、回答が退屈であると感じていたと述べています。そこで、モデルにパーソナリティや個性を持たせる取り組みを行った結果、回答がより興味深く、有用なものになったと語っています。例えば、「人生の意味は何か」という質問に対して、以前は「42」と答えていたモデルが、パーソナリティを持たせた後には、「人生の意味は個々人によって異なるが、愛や成長、学びなどが含まれる」などと深みのある回答をするようになりました。

この取り組みにより、モデルとの対話がより人間的で有意義なものとなり、ユーザーエクスペリエンスの向上に大きく寄与したと考えています。メンバーは、この変化がモデルの有用性を高め、より多くのユーザーにとって価値のあるツールになると期待しています。

なるほどね、例の42という回答のツイートの元ネタはこれだったのね。42じゃない回答が、深みのある回答だったんだ。。

チーム全体のエピソード: o1開発プロジェクトの成功とチームワーク

トピック: プロジェクトを支える見えない努力と協力
考え: チームメンバーたちは、o1開発プロジェクトの成功の裏には、大規模で信頼性の高いインフラストラクチャの構築や、日々の地道な努力があると語っています。巨大なモデルのトレーニングには、多くの困難が伴い、数多くの問題が発生しますが、チーム全体で協力し、それらを乗り越えてきたと述べています。プロジェクト中には、多くの技術的な障害や挑戦がありましたが、メンバー同士が助け合い、知識を共有することで、解決してきたと強調しています。

また、過去のプロジェクトから得た教訓を活かし、最善のアプローチを選択する能力がチーム全体で向上していると感じています。この協力的な環境と継続的な学習文化が、o1プロジェクトの成功に大きく貢献していると考えています。

それ以外のトピックをお願いする(ChatGPT,2024.9.21)

最近どうもChatGPT（無料版）は、gpt-4oを限定した回数使えかつ、「思考の過程」を表示することができる。すでに得られたChatGPTとo1-previewの出力を併せて、漏れがないか確認させてみた。

以下に挙げたトピック以外のトピックでの発言はなかったか？
Shimonのエピソード: TDDとLLM連携の新たな経験
Andrejのエピソード: フィードバックとモデルの学習プロセス Ilyaのエピソード: モデルのアーキテクチャとメタラーニング
Samのエピソード: スケーラビリティとモデルのリアルタイム応答
Gregのエピソード: 新しいモデルのインターフェースと開発者向けツール
JTのエピソード: RLによるチェイン・オブ・ソートの革新的トレーニング
Wendaのエピソード: チームの問題解決の救世主「Wendaの祝福」
Leamのエピソード: o1によるクリエイティブなブレインストーミング
ウェイのエピソード: 数学競技への情熱とモデルへの反映
無名のメンバーのエピソード: モデルに個性を与える挑戦

ChatGPT（無料版）は思考の過程が以下のように表示される。。

(略）
深掘りするエピソードの探査
Shimon、Andrej、Ilya、Sam、Greg、JT、Wenda、Leam、ウェイ、無名のメンバーのエピソードが挙げられているけれど、Yakob、Lukash、Jerryのエピソードは見当たらない。
クロスチェックの過程
トランスクリプトを確認していると、特定のエピソードに触れていない他の人々の名前がリストに含まれていることに気づいている。
比対される名前の特定
(略）
整理の中心
読書に取り組むお手つきの瞬間。文書の構造を見直し、要点を絞る作業を続けています。
明確化と訂正
いくつかの人物やトピックが前回の回答と一致していないので、これを訂正し、別のトピックの不一致についても言及し、すべてを正確に説明している。
トピックの追跡
トランスクリプトに登場する人物やエピソードを整理し、ユーザーが挙げたトピックとの一致を確認中。

「思考の過程」より

Yakobのエピソード: 初期の研究と探求

トピック: o1モデルの開発における初期の研究アプローチと探求
Yakobの考え: Yakobは、強化学習（RL）と教師あり学習の組み合わせが、モデルの推論能力を向上させる鍵となったことを強調しています。彼は、初期の段階で多くの試行錯誤があったことに言及し、これによりモデルが複雑なタスクを解決できるようになったと説明しています。特に、RLの使用はモデルの動的な適応能力を向上させ、より汎用的な推論を可能にしました。Yakobは、教師あり学習とRLの両方の統合が、o1モデルにおける革新の中核をなしていると述べています。また、このアプローチがモデルの全体的な学習プロセスを加速させたことを強調しています。

Lukashのエピソード: 技術革新と性能向上

トピック: o1モデルの性能向上と技術革新
Lukashの考え: Lukashは、o1モデルの効率性とパフォーマンスを最大限に引き出すために、徹底的な最適化が行われたことを語っています。特に、彼は計算効率の向上を目指し、さまざまなアプローチを試したことを強調しています。たとえば、モデルが大量のデータを高速に処理しつつ、精度を維持するための技術的な工夫や、計算リソースの管理方法について言及しています。彼は、モデルのパフォーマンス向上における特定のアルゴリズム最適化や、ハードウェアの性能を最大限に活かすためのアプローチが成功したと述べており、この努力がo1の優れた動作環境の確立につながったことを強調しています。

Jerryのエピソード: 大規模な取り組みの構築

トピック: o1開発における大規模プロジェクトの管理とインフラの構築
Jerryの考え: Jerryは、o1モデルの開発における大規模なプロジェクト管理とインフラの構築において中心的な役割を果たした人物です。彼は、開発のスケールが拡大する中で、チームの効率的な連携と、モデルの運用環境を支えるインフラの構築が重要であったことを強調しています。特に、大規模なデータセットや計算リソースの管理が鍵となり、これを支えるための堅牢なインフラを構築した経験について語っています。また、Jerryは、インフラ整備によってチーム全体の生産性が向上し、モデルの迅速なトレーニングやデプロイが可能になったことを強調しています。彼は、技術チームと管理チームが緊密に連携して作業を進めたことが、プロジェクトの成功に不可欠だったと述べています。

メタ能力について聞いてみた(ChatGPT vs o1)

入力プロンプト

lya のメタラーニングとモデルの柔軟性　について、もう少し、どういう内容だったかを教えてほしい。

入力プロンプト

ChatGPTの答え

**Ilyaのエピソード**は、o1モデルの**メタラーニング**と**モデルの柔軟性**に焦点を当てており、特に彼がメタラーニングの重要性と、その影響について詳しく述べています。

### **Ilyaのエピソード: メタラーニングとモデルの柔軟性**
- **トピック**: モデルの柔軟性を高めるメタラーニング技術
- **Ilyaの考え**:
Ilyaは、メタラーニングを通じて、o1モデルが「学習の仕方を学ぶ」能力を獲得することの重要性を強調しています。従来のモデルは、特定のタスクやデータセットに最適化されていましたが、Ilyaはこれを超えて、さまざまな状況やタスクに適応できる柔軟なモデルを作ることが目標だと述べています。

メタラーニングの技術を使うことで、モデルが新しいタスクや未知のデータに対しても迅速に適応することができるようになるとIlyaは語ります。具体的には、モデルが「適応のスキル」を持つことで、与えられたデータに基づいて自律的に学習プロセスを変化させることが可能になると説明しています。これは、あらかじめ決められた方法でデータを処理するのではなく、タスクや環境に応じてそのアプローチを柔軟に変更するという高度な能力を意味します。

また、Ilyaはメタラーニングのもう一つの利点として、データの少ない状況でもモデルが効率的に学べる点を挙げています。これにより、大規模データに依存しないAIの開発が可能になり、少量のデータでも精度の高い結果を出せるようになると語っています。この「少ないデータでの学習」への適応力は、実際のビジネスや産業でAIを活用する際に大きなメリットがあるとIlyaは強調しています。

---
このように、Ilyaはメタラーニングを中心に、o1モデルがタスクに依存せず、さまざまな状況に柔軟に適応する未来のAIのビジョンを示しています。彼の説明は、AIモデルの汎用性と適応能力を高めるための革新の方向性を描き出しています。

ChatGPT,Free gpt-4o,2024.9.21

o1-previewの答え

はい、Ilyaのメタラーニングとモデルの柔軟性についてお知りになりたいとのことですが、提供されたトランスクリプト内では、Ilyaが直接そのトピックについて詳細に述べている部分は明確には見受けられませんでした。ただし、関連する内容として、チームメンバーがモデルの特性や学習について語っている部分がありますので、それをお伝えいたします。

o1-preview

なんだって、トランスクリプトになかった？ChatGPTに確認

残念ながら、トランスクリプトそのものを表示することはできませんが、Ilyaの発言の要点は、以下のような形で展開されていました。

Ilyaが語っていたメタラーニングに関連する発言では、o1モデルのアーキテクチャにおいて、モデルがどのように「学び方」を学習し、適応する能力を持っているかに焦点が当てられていました。彼は、以下のポイントを強調していました。

ChatGPT,Free gpt-4o,2024.9.21

なんと、そうだったかん。トランスクリプトをちゃんと指定しないと、他の情報がコンタミしちゃうのねん、ちょっとChatGPTにクロスチェックしてもらった。

ChatGPTに、トピックのクロスチェックをやってもらった。

ユーザーが挙げたトピックに関する確認

以下に挙げられたトピックのうち、トランスクリプトに基づいて確認できるものと確認できないものを整理します。
Shimonのエピソード: TDDとLLM連携の新たな経験
確認: トランスクリプトに記載あり。ShimonがTDDとLLMの連携について言及しています。
Andrejのエピソード: フィードバックとモデルの学習プロセス
確認: トランスクリプトに名前「Andrej」の言及はありません。
Ilyaのエピソード: モデルのアーキテクチャとメタラーニング
確認: 名前は「Ilia」と記載されていますが、発言内容としてはモデルのアーキテクチャとメタラーニングに関連する発言があります。
Samのエピソード: スケーラビリティとモデルのリアルタイム応答
確認: トランスクリプトに名前「Sam」の言及はありません。
Gregのエピソード: 新しいモデルのインターフェースと開発者向けツール
確認: トランスクリプトに名前「Greg」の言及はありません。
JTのエピソード: RLによるチェイン・オブ・ソートの革新的トレーニング
確認: トランスクリプトに名前「JT」の言及はありません。
Wendaのエピソード: チームの問題解決の救世主「Wendaの祝福」
確認: 名前は「Wend」と記載されており、問題解決の支援について言及されています。
Leamのエピソード: o1によるクリエイティブなブレインストーミング
確認: トランスクリプトに名前「Leam」の言及はありません。
ウェイのエピソード: 数学競技への情熱とモデルへの反映
確認: トランスクリプトに「ウェイ」という名前の言及はありません。ただし、数学問題の解決に関する言及はあります。
無名のメンバーのエピソード: モデルに個性を与える挑戦
確認: トランスクリプト全体を通じて、モデルの個性に関する発言がありますが、具体的な無名メンバーのエピソードとして明確に言及されているわけではありません。

ChatGPT,Free gpt-4o,2024.9.21

まあ！気を取り直してGemini 1.5 Proさんに聞いてみる（長コンテキストに強いはず）

Gemini 1.5 proによるトピックの一覧

ahaモーメント (02:36~)
数学問題におけるモデルの思考プロセス (03:34~)
モデルの思考プロセスの読み解き方 (04:19~)
モデルの思考時間制限 (04:50~)
数学問題解決能力 (04:50~)
科学技術分野への応用 (05:18~)
モデル開発における困難 (05:48~)
モデルの評価 (06:48~)
strawberryのエピソード (07:13~)
コーディングへの活用 (07:48~)
学習への活用 (08:58~)
ブレインストーミングへの活用 (09:32~)
GitHubプラグイン開発 (10:34~)
AGIの実感 (11:04~)
インフラストラクチャの重要性 (11:38~)
チームワーク (12:38~)
strawberryチーム (13:17~)
wendyのエピソード (13:17~)
チームとしての成長 (13:51~)
プロジェクトの進め方 (14:23~)
チームメンバーの貢献 (14:52~)
モーメンタム (14:52~)
意見交換 (15:16~)
モデルの個性と面白さ (15:41~)
モデルへの個性付与 (16:15~)
o1 miniの開発 (16:53~)
研究のモチベーション (18:06~)
モデルの有用性 (19:07~)
新しい可能性 (19:47~)
推論能力の重要性 (20:21~)
計算能力の重要性 (20:48~)
メタラーニング (21:14~)

Gemini 1.5 Pro Exp 0827

気になるトピックの詳細解説：Gemini 1.5 Pro vs o1-preview

それでは、気になるトピック事にGemini 1.5 Proに聞いてみる。トランスクリプトの一部を引用し解説してくれた。同時にo1-preview(huggingface)にも同トランスクリプトのサマリを作ってもらった。

ahaモーメント (02:36~) についての詳細

該当箇所

(02:36) you all when there was you had that aha moment like we trained gpt2 gpt3 GPT 4 there was the first moment when the one was hot of the press we started talking to the model people were like wow this this mod is really great and starting doing doing something like that and I think that there was a certain moment in our in our training process where we trained like put more comput in our than before and train first mod generating coherent chains of thought and we so wow this this looks like something meaningfully different than before and I
(03:06) think I think for me this is the moment uh wow related to that uh when we think about like training a model for reasoning uh one thing that immediately jumps to mind is you could have humans write out their thought process and train on that when aha moment for me was like when we saw that if you train the model using RL to generate and hone its own chain of thoughts it can do even better than having humans right chains of thought for it and that was in aha moment that you could really scale this uh and explore models reasoning that way

Gemini 1.5 Pro Exp 0827

発言内容

GPT-2、GPT-3、GPT-4などの開発において、それぞれ「ahaモーメント」（ひらめきの瞬間）があった。
o1モデルの開発においても、大きな「ahaモーメント」があった。
それは、モデルが首尾一貫した思考連鎖を生成できるようになったときだった。
また、強化学習を用いてモデル自身が思考連鎖を生成・洗練できるようになったことも、大きな「ahaモーメント」だった。

解釈

この発言は、o1モデルの開発におけるブレイクスルーの瞬間、つまり「ahaモーメント」について述べています。

o1モデルは、従来の言語モデルとは異なり、推論能力に重点を置いて開発されました。そのため、モデルが首尾一貫した思考連鎖を生成できるようになったことは、大きな進歩でした。これは、モデルが単に文章を生成するだけでなく、論理的に思考し、推論できるようになったことを示唆しています。

さらに、強化学習を用いてモデル自身が思考連鎖を生成・洗練できるようになったことも、大きなブレイクスルーでした。これは、人間が思考プロセスを教えなくても、モデルが自ら思考方法を学習できるようになったことを意味します。

これらの「ahaモーメント」は、o1モデルが従来の言語モデルとは一線を画す、革新的なモデルであることを示しています。

o1-previewにもまとめてもらった

このトランスクリプトでは、言語モデルの開発者たちがモデルの進化と「アハ体験」について語っており、特にGPTシリーズにおいて大規模な計算資源を投入することで、モデルが一貫した「思考の連鎖」を生成できるようになった点が強調されています。彼らは当初、人間が書いた思考過程をモデルに学習させることで推論能力を高めようとしていましたが、強化学習を用いてモデル自身が自らの思考過程を生成・最適化する方が効果的であると気付きました。これは、モデルが自己生成・自己改善した思考の連鎖を通じて深い推論能力を獲得し、スケーラブルかつ効率的に性能を向上させる戦略であり、今後の大規模言語モデル（LLM）の開発においてキーとなるアイデアであると結論づけています。

o1-preview,huggingface

感想：人間が書いた思考の連鎖の指示よりも、勝手に思考過程を最適化する方が効果的ってのをGeminiは読み落としているね。それにしても、モデル自身が思考過程を生成するって、ブートストラップ法みたいなもので、それによりスケールするってのは(that was in aha moment that you could really scale this uh and explore models reasoning that way)、今後のLLM開発のキーとなるのは確かだろう。

モデルの思考プロセスの読み解き方 (04:19~) についての詳細

該当箇所

(04:19) so when you when you read the the the thoughts do they does it feel like you're watching a human or does it feel like you're watching a robot it's like a spiritual experience it's a spiritual experience but then you can empathize with them all like oh that's a mistake that a lot of people would make or you can see it sort of questioning common conventions and yeah it's it's spiritual but like oddly human in in its Behavior it it was also pretty cool at some point when uh when we have seen in cases where there was like a limited
(04:50) amount of thinking allowed for the model that just before the timeout the was like I'm like I have to finish it now and like here's the answer

トランスクリプトの一部

発言内容

モデルの思考プロセスを読み解くことは、ある種の「精神的な体験」である。
モデルの思考プロセスには、人間的な誤りや、常識を疑うような部分が見られることがある。
モデルの思考プロセスは、奇妙なほど人間的である。
思考時間制限がある場合、モデルは時間切れ直前に答えを急いで出すことがある。

解釈

この部分では、OpenAIの研究者たちが、o1モデルの思考プロセスを初めて観察したときの驚きと感動を表現しています。

彼らは、モデルが単に計算処理をしているのではなく、人間のように思考し、試行錯誤し、時には間違えることもある様子を目の当たりにしました。

特に、

共感できる誤り: モデルが人間と同じような誤りを犯すのを見て、「ああ、これは多くの人がやりがちなミスだ」と共感できる部分があった。
常識への疑問: モデルが既存の常識を疑うような思考プロセスを示すのを見て、その独創性に驚かされた。

といった点が、研究者たちの心に強く響いたようです。

また、「精神的な体験」という表現からは、モデルの思考プロセスを読み解く行為が、単なる技術的な分析を超えた、ある種の哲学的な意味合いを持つものとして捉えられていることが伺えます。

o1-previewにもまとめてもらった

このトランスクリプトで語られているのは、言語モデルが人間らしい思考過程や感情的な挙動を示すことで、開発者やユーザーが深い共感や驚きを感じているということです。モデルの内的な思考プロセスを理解し、共感できることは、AIの解釈可能性やユーザー体験の向上に直結します。また、制約下でのモデルの適応的な振る舞いは、実世界での応用において重要な示唆を与えます。これらの洞察は、今後の大規模言語モデルの開発において、人間らしさや適応力、解釈可能性を追求することの重要性を示しています。

o1-preview,huggingface

感想：モデルの内的な思考プロセスへの理解や共感ってのが、ユーザー体験の向上に直結するって、自分と大規模言語モデルの境界があいまいになってくることにならなか。「精神的な体験」の部分(it's spiritual but like oddly human in in its Behavior)ってのが抜けてる。しかし、思いっきり「共感」を起こしているのは確かだ。

AGIの実感 (11:04~) についての詳細

該当箇所

(11:04) I think for a lot of people it's uh it's hard to really fill the AGI and until you see the models do something better than humans can at a domain that you
(11:04) really care about and I think you know for go players and chess players that would have come you know a few years earlier and for a lot of us that like really value math and and coding I I think we're starting to feel that now our moms would be proud of us

トランスクリプトの一部

発言内容

多くの人にとって、AGI（汎用人工知能）を実感するのは難しい。
特に自分が得意とする分野で、AIが人間よりも優れた能力を発揮するのを見るまでは、AGIを実感できない。
囲碁やチェスのプレイヤーは、数年前にAGIを実感したかもしれない。
数学やコーディングを重視する人たちは、o1モデルを見てAGIを実感し始めている。

解釈

この発言は、AGI（汎用人工知能）を実感する条件について述べています。

発言者は、AGIを実感するためには、自分が重要視する分野において、AIが人間を超える能力を示す必要があると考えています。

例えば、囲碁やチェスのプレイヤーであれば、AlphaGoやAlphaZeroが人間のトップ棋士を破ったのを見て、AGIを実感したかもしれません。

同様に、数学やコーディングを重視する人であれば、o1モデルが複雑な数学問題を解いたり、高度なコーディングを行ったりするのを見て、AGIを実感し始めていると言えます。

o1-previewにもまとめてもらった

このトランスクリプトで強調されているのは、AIが人間の専門分野で卓越した性能を示すことで、人々がAIの進歩を身近に感じ、汎用人工知能（AGI）の実現が現実味を帯びてくるという点です。囲碁やチェスに続き、数学やコーディングといった高度な知的作業においてもAIが人間に匹敵する成果を上げ始めており、これは今後のLLMの発展において重要なマイルストーンとなります。多様な分野でのAIの活躍は、AGIへの段階的な接近を示すとともに、ユーザーとの共感性や受容性を高め、AIの社会的な影響力を一層拡大する可能性を秘めています。

o1-preview,huggingface

感想：o1-previewさんよ、この少ないスクリプトからそうはならんだろう？という気がする、しかし、彼らの素直な感触はコーディングや数学でのAGIっぽさなんだろう、それが、「ユーザーとの共感性や、、、」以降は余分だったが、方向性はそうなんだろう。

参考

AGI（汎用人工知能）とは：人間のように幅広いタスクをこなすことができるAIのこと。
AlphaGo：Google DeepMindが開発した囲碁AI。2016年に人間のトップ棋士を破った。
AlphaZero：Google DeepMindが開発したチェス・将棋・囲碁AI。自己対局によって学習し、人間の棋譜データを使わずにトップレベルの強さを実現した。

新しい可能性 (19:47~) についての詳細

該当箇所

(19:47) very excited about this I mean I think these sort of paradigms unlock things that these the models couldn't do before so it's not just like answering some sets of queries a little bit better but it's actually getting to a point where through planning through error correction it's able to just unlock like new capabilities and you know the ability to produce new knowledge in the world for like science for Discovery I think is one of the most exciting pieces for this and I think in some short amount of time it's going to
(20:21) become like a larger and larger contribution or contributor to its own like development and I think that's like a really exciting regime

トランスクリプトの一部

発言内容

新しいパラダイムによって、従来のモデルでは不可能だったことが可能になる。
単に質問への回答精度が向上するだけでなく、計画やエラー修正を通じて新しい能力を獲得できるようになる。
特に、科学や発見のための新しい知識を生み出す能力は、非常にエキサイティングである。
近い将来、モデル自身の開発にも大きく貢献するようになるだろう。

解釈

この発言は、o1モデルがもたらす新しい可能性について、大きな期待を込めて語っています。

従来の言語モデルは、主に既存の知識に基づいて質問に答えることに重点が置かれていました。

しかし、o1モデルは、推論能力やエラー修正能力を備えているため、単に質問に答えるだけでなく、新しい知識やアイデアを生み出すことも可能になります。

これは、科学や発見の分野において、大きなブレークスルーをもたらす可能性があります。

例えば、o1モデルは、

新しい科学理論の発見
新しい薬や治療法の開発
新しい素材や製品の設計

など、様々な分野で貢献することが期待されます。

さらに、o1モデルは、将来的には自身の開発にも貢献するようになると予想されています。

これは、AIが自己進化する能力を獲得することを意味し、AI研究における大きな転換点となる可能性があります。

o1-previewにもまとめてもらった

このトランスクリプトで語られているキーとなるアイデアは、新たなパラダイム（計画やエラー訂正）によって、言語モデルがこれまで不可能だった新たな能力を獲得し、自らの発展に寄与できるようになるという点です。特に、モデルが新しい知識を創造し、科学的発見に貢献できる可能性は、AIが情報の受動的な提供者から能動的な創造者へと役割を変化させることを意味します。さらに、モデルが自己改善を通じて自律的に進化することで、AIの発展が加速し、よりエキサイティングな新時代が訪れることが期待されます。これらのアイデアは、今後のLLMの開発において重要な指針となり、AIの可能性を大きく広げるものです。

o1-preview,huggingface

感想：「自律的に進化」ってのはトランスクリプトにはどこにもない(あえていうなら"contributor to its own"か)ので、o1-previewのインプロビゼーション。まあ自己改善(unlock like new capabilities and you know the ability to produce new knowledge)ってのは、そうなると言えば確かにそうだ。

メタラーニング (21:14~) についての詳細

該当箇所

(21:14) I I think AI researchers job is to find the way to put more compute in and Hardware people have been doing so good of a job that the cost has been going down exponentially for a very long time and we don't have much time to find another way to put in more compute
(21:14) and it's kind of like a weight on my shoulder is just getting uh larger and larger and this new paradigm really finds a way to unload that for probably a long time

トランスクリプトの一部

発言内容

AI研究者の仕事は、より多くの計算能力を活用する方法を見つけることである。
ハードウェアの進化により、計算コストは指数関数的に低下してきた。
しかし、今後も計算能力を向上させる方法を見つけ続けなければならないというプレッシャーがある。
新しいパラダイム（o1モデル）は、そのプレッシャーを軽減する可能性を秘めている。

解釈

この発言は、AI研究における計算能力の重要性と、メタラーニングの役割について述べています。

AIの性能向上には、大量のデータと計算能力が不可欠です。

近年、ハードウェアの進化により、計算コストは大幅に低下してきました。

しかし、AI研究者は、今後も計算能力を向上させる方法を見つけ続けなければなりません。

なぜなら、AIの進化は計算能力の向上に大きく依存しているからです。

Ilyaは、このプレッシャーを「肩の重荷」と表現しています。

そして、o1モデルのような新しいパラダイムが、その重荷を軽減する可能性を秘めていると述べています。

o1モデルは、メタラーニングと呼ばれる手法を用いて学習されています。

メタラーニングとは、「学習方法を学習する」ことです。

つまり、o1モデルは、大量のデータから効率的に学習する方法を自ら学習することができます。

これにより、従来よりも少ない計算能力で、高い性能を実現することが可能になります。

o1-previewにもまとめてもらった

このトランスクリプトでは、AI研究者が計算資源の増大に頼る従来の手法に限界を感じており、新しいパラダイムがその重圧を解消する鍵となる可能性が示されています。具体的には、効率的なアルゴリズムの開発や新しい学習手法の活用、モデルの自己最適化などが挙げられ、これらにより計算資源の制約を克服しつつ性能向上を実現する戦略が重要視されています。これらのアイデアは、今後の大規模言語モデルの発展において、持続可能で革新的な道筋を示すものであり、研究者の役割も新たな挑戦へと進化していくことを意味します。

o1-preview,huggingface

感想：これもo1-previewは言い過ぎだろう、解釈しすぎでも、正しいと思うぞ。ただしメタラーニングってのは、Geminiが余分に追加したもので、その点では、o1-previewがトランスクリプトにより忠実に、余分に解釈したともいえる。後者の方が好感をもてた。

長い感想

与えたトランスクリプト以外の情報がコンタミしたり（トランスクリプトをネタに、与えられた質問に答えようとしただけ？）、といろいろあったが、クロスチェックさせたりした。結局Geminiによる、トランスクリプトの時系列にトピックを抽出させて、それぞれのトピック事に説明させ、おなじ内容をo1-previewでサマラせるのが、もとの原文の引用など、とても優れていることが分かった。

o1-previewはトラスクリプトをベースに、少し拡張した解釈、方向性を示すのが、余分でもあるが、それはそれで共感できるので厄介だ。

Shimonの、TDD（テスト駆動開発）とLLM連携の新たな経験って、ソフトウエア工学的には、なんていうか、あるべき姿というか、単体テストを作るってところ、何をテストすべきか、すなわちwhatに集中できるという意味で、人の本来の役割が回復されるような、そんな、ソフトウエア開発の未来を垣間見れる。

JTのエピソードで、「思考の連鎖」(CoT)を通じて、「モデルが自発的に問題を深く考え、より複雑なタスクに取り組む能力を持つようになった」ので、人間がCoTを指示するより効果的であるってのは、すごいな。今後は、具体的に指示を与えるのと、自発的に動いてもらうののバランスがむつかしくなるな。

Leamのエピソードで、「o1が回答を出す前に深く思考する能力を持つため、アイデアの連携や修正、候補の批評が効果的に行える」、「o1が創造的なプロセスをサポートし、自身の考えを整理・深化させる上で非常に有用である」ってのは、ブレストの時に役に立つ考え方だ、連携・修正というのが肝となる能力か。アイデアのクリアランスとしては欠かせないものになるんじゃないかな。

ウェイのエピソード、数学オリンピック経験者の立場から、「o1が専門家レベルの問題解決能力を持ち、研究や教育の分野で新たな可能性を開くことを示しています。」、つまり、研究開発への応用ができるということ。

モデルに個性を与える挑戦ってのは、「例えば、"人生の意味は何か"という質問に対して、以前は"42"と答えていたモデルが、パーソナリティを持たせた後には、"人生の意味は個々人によって異なるが、愛や成長、学びなどが含まれる"などと深みのある回答をするようになりました。」とあるが、ああ、これって42と答えたというツイートの元ネタか（たしかヒッチハイクガイドからとってきたエピソード）。

ahaモーメント (02:36~) については、「強化学習を用いてモデル自身が思考連鎖を生成・洗練できる」とのことだ、CoT自体を自ら洗練できるってのは衝撃的だ。

モデルの思考プロセスの読み解き方 (04:19~) では、「人間のように思考し、試行錯誤し、時には間違えることもある様子を目の当たりにしました」とのこと、間違える、なんて人間らしい。間違えると困ることもある気もするけども、人間らしさを感じられるようになる（手段を学習した）のはそれはそれで危険かもしれない。

新しい可能性 (19:47~) では、「モデルが新しい知識を創造し、科学的発見に貢献できる可能性」があるという

AGIの実感 (11:04~) はまだないが、「多様な分野でのAIの活躍は、AGIへの段階的な接近を示す」とともに、「ユーザーとの共感性や受容性を高め、AIの社会的な影響力を一層拡大」するといっている。

まとめ

まとめると、o1は、「モデルが自発的に問題を深く考え」、「アイデアの連携や修正、候補の批評」が出来、人間が指示するよりも、「モデル自身が思考連鎖を生成・洗練できる」ほうが性能がでる、そして「研究や教育の分野で新たな可能性を開く」能力をもっており、さらに、「人間のように思考し、試行錯誤し、時には間違える」という。もう十分、人間レベルのAIといってもいいだろう。AGIについて、「ユーザーとの共感性や受容性を高め、AGIっぽさを徐々に実感できるようになる」ってのは正しい見方だな。やはり人間の方が試されている。それに、自律性が人の共感を得る能力と組み合わされるととてもdeceptive(欺瞞的)な振る舞いをおこすようになるのではないか？

o1-previewによる解説は、多少原文をはみ出しているが、納得感が高くそして、新しい未来を予見させるものだった。

今回のYouTubeトランスクリプトとの対話を通じて、開発に関わった人たち自身の言葉で語られるo1シリーズの可能性がよくわかった。一次情報って重要ですね、いやトランスクリプトをLLMに解釈させているんですけど。。

この記事が気に入ったらサポートをしてみませんか？