Sakana AIの「AI科学者」の読解メモ



はじめに

最近、大規模言語モデルの開発が終わり、少し余裕が出てきたので、noteの投稿をちょくちょく再開していくかもしれません。

第一弾は、2024/8/13に公開されて話題になった、「AIサイエンティスト」の読解記録です。

こちらは、気にはなっていたのですが、手つかずの論文でした。
そろそろ締切の科研費の申請書の参考になりそうなのと、某件で解説を頼まれたので、読むことにしました。

本記事は、ただのメモ書きです。体系的・学術的に正確に論文を読み解くものではないのでご了承ください。

論文の読み方の参考になるかもしれないと思ったので、時系列に書いていきます。

読む前の疑問など

(8/22, 11:40頃)
論文を読む前に思った疑問を、つらつらと書いておきます。
基本的には、厳しめの視点で読んでいきます。

  • 今のオープンな最先端モデルに、どこまで科学研究ができるか?

    • GPT4o, Claude3.5-sonnet, Gemini-1.5-proは、確かに賢いし、知識はある

    • しかし論証の厳密さや、文章全体での整合性など、まだまだ課題がある印象

    • 正直、研究ができるか?というと個人的には難しいと思った

  • 既存のAIを使いこなすための、インテグレーションの研究?

    • AI自身の能力を上げてAgentとして運用する研究開発は、OpenAIがGPT-5などでやっているはず

      • しかしそれでも「全自動研究」という感じではなく、事務処理の自動化のような、まずはルーチンワークを抑えるところを狙っているような気がする

      • 研究開発は、その次のステップ

    • となると、とりあえずインテグレーションしてみました、というコンセンプト重視の研究?

      • やろうと思えば、誰でもできる?

      • どうやって既存研究と差別化するか?

  • とはいえ、中身は気になる

    • 最近のモデルの出力は、平均的には、一般人よりも十分に高くはなっている

    • 知識も大学院レベルに達しつつある

    • エージェント化は個人的にも興味ある

これから読む

(11:50頃)
今から読みます。ただし、そろそろお昼なので、まずは全体像だけ把握する予定。

アブストをClaude sonnetに訳させる

(蛇足: Sonnetは、ちょっと箇条書きを使いすぎな気がします。)

気になった点はboldにしたうえで、感想文を付記しました。

はい、この文章を日本語でわかりやすく説明いたします。

これは人工知能(AI)の研究に関する画期的な論文の要約です。主なポイントは以下の通りです:
[感想: 画期的とアピールは、Claudeが勝手に書いたのか、それとも、著者等の主張なのか。]

1. AIによる自動的な科学的発見のための包括的なフレームワークを初めて提案しています。
[感想: 本当にはじめて?]

2. このフレームワークは「AIサイエンティスト」と呼ばれ、以下のことができます:
- 新しい研究アイデアを生み出す
- コードを書く
- 実験を実行する
- 結果を視覚化する
- 科学論文を執筆する
- 論文の評価プロセスをシミュレートする

3. この過程は繰り返し行うことができ、人間の科学コミュニティのように知識を蓄積していくことができます
[感想: 素晴らしい!]

4. このアプローチを機械学習の3つの分野(拡散モデル、Transformerベースの言語モデル、学習ダイナミクス)に適用しました。

5. 1つの論文を生成するのにかかるコストはわずか15ドル未満で、研究の民主化と科学の進歩の加速が期待できます。
[妄想: とにかく安い。今後、研究者は、代替性の高い物品・消耗品扱いになっていくという、ディストピアを想像。 研究業務は人件費から支出するのではなく、派遣や業務委託のように、「発注」する世界。そして注文先は人間ではなくAIでもOK…。 AIが十分に賢くなり、研究者の個性を出せなくなった世界はディストピアか。 そういえば最近、欧米だと、博士の給料やポスドク代が高いので、研究をAIにやらせるモチベーションが高い、みたいな話を最近聞きました。人間のAI代替は、意外と現実味がありそうで面白い]

6. 自動化された査読者システムを開発し、人間に近い性能で論文を評価できることを示しました。

7. AIサイエンティストは、トップレベルの機械学習会議での採択基準を超える論文を生成できる可能性があります。
[感想: 素晴らしい。まずは可能性から。]

8. この研究は、AIが自身の研究プロセス全体に変革をもたらす新時代の幕開けを示唆しています。

9. 最終的には、世界の最も困難な問題に対して、無限の創造性とイノベーションを unleash(解き放つ)することを目指しています。
[感想: 環境・持続可能性の問題の解決]

10. この研究のコードはGitHubで公開されています。

この研究は、AIが科学研究の全プロセスを自動化できる可能性を示しており、科学の進歩を大きく加速させる可能性があります。
[感想: 素晴らしい。一方でこういうキャッチーな主張が、日本ではなく海外で、どのように受け止められているかは気になる]

(12:02) アブストをgoogle翻訳&原文で読む。
概ね、上記と同じことが書かれていることを確認。

これは人工知能(AI)の研究に関する画期的な論文の要約です。
という主張は、claudeが勝手に盛った話らしいということを確認。

本文を読む

Claudeだと意訳しすぎるので、google翻訳を使いながら、必要に応じて原文を参照して読んでいきます。

1. Introduction

自動化に関するモチベーションの話。

1. はじめに
近代科学的手法 (Chalmers, 2013; Dewey, 1910; Jevons, 1877) は、啓蒙時代の最大の成果の 1 つと言えるでしょう。[感想 このレベルまでreferenceを遡るところが壮大]
伝統的に、人間の研究者は背景知識を収集し、テストする一連の妥当な仮説を起草し、評価手順を構築し、さまざまな仮説の証拠を収集し、最後にその発見を評価して伝達します。その後、結果として得られた原稿はピアレビューを受け、その後繰り返し改良されます。この手順により、科学技術において数え切れないほどのブレークスルーがもたらされ、人間の生活の質が向上しました。ただし、この反復的なプロセスは、人間の研究者の創意工夫、背景知識、および限られた時間によって本質的に制限されます。
[感想 科学研究の試行錯誤を、反復的(iterative)と評するところが、meta学問的で流石。 多くの実験研究者は、各々の科学研究を、個性のある代替不能な仕事だと信じている節があるので、理解し合うのに時間がかかりそう。究極的には、相対性理論にしろ何にしろ、多数の研究者が群がってiterativeに試行錯誤を繰り返せば、誰かが発見するだろう、冷めた考え方。 そういう視点では研究者の肉体的な制約が課題になってくるので、aiを使おうという話になる]
AI の分野では、研究者は AI 自体を使用して AI 研究を自動化する可能性を構想しており (Schmidhuber、1991、2010a、b、2012)、「AI 生成アルゴリズム」 (Clune、2019) につながっています。最近では、基礎モデルの一般的な機能が大幅に進歩していますが (Anthropic、2024、Google DeepMind Gemini チーム、2023、Llama チーム、2024、OpenAI、2023)、研究パイプラインの個々の部分を加速することしか示されていません。例:科学論文の執筆(Altmäe et al., 2023; Dinu et al., 2024; Ifargan et al., 2024;
Majumder et al., 2024)、アイデアをブレインストーミングするためのミューズ(Baek et al., 2024; Girotra et al., 2023; Wang
et al., 2024b)、またはコーディングの補助(Gauthier, 2024)として使用されています。現在まで、コミュニティは、人間の関与なしに研究活動全体を実行する可能性をまだ示していません。
研究プロジェクトを自動化する従来のアプローチは、これまで、潜在的な発見の検索空間を慎重に制限することに依存してきました。これにより、探索の範囲が大幅に制限され、かなりの人間の専門知識と設計が必要になります
[感想 それはその通り。しかしAI・ロボットにこの制約を本当に打破できるか?]
たとえば、材料の発見(Merchant et al., 2023; Pyzer-Knapp et al., 2022; Szymanski et al., 2023)と合成生物学(Hayes et al., 2024; Jumper et al., 2021)における大きな進歩は、事前に定義されたパラメータを持つ十分に特徴付けられた領域に探索を制限することによって達成されました。
[感想 探索空間を絞りに絞ってベイズ最適化を行うような研究が材料系では多い]
これにより、ターゲットを絞った進歩が可能になりますが、より広範で制限のない発見が制限され、原稿の準備などのタスクを網羅することなく、科学的プロセスのサブセットのみに対処します。機械学習の分野自体では、研究の自動化は主に、手作業で作成された検索空間内でのハイパーパラメータとアーキテクチャの検索 (He et al.,
2021; Hutter et al., 2019; Lu et al., 2022b; Wan et al., 2021, 2022) またはアルゴリズムの発見 (Alet et al.,
2020; Chen et al., 2024b; Kirsch et al., 2019; Lange et al., 2023a,b; Lu et al., 2022a; Metz et al., 2022) に限定されています。 LLM の最近の進歩により、検索空間をより一般化されたコードレベルのソリューションに拡張できる可能性が示されています (Faldor ら、2024 年、Lehman ら、2022 年、Lu ら、2024a 年、Ma ら、2023 年)。ただし、これらのアプローチは厳密に定義された検索空間と目的によって制約されており、可能な発見の幅と深さが制限されています。
[感想 結局のところ、最近の大規模言語モデル開発も、人間が慎重にパラメータ空間を絞る形で行ったことを思い出した。実験コストが非常に高いので、非常に慎重に条件を決める必要があった。ベイズ最適化をするには探索空間が広すぎるし、LLMに聞くには、情報が複雑・多すぎて、あまり役に立たないような気がした]
この論文では、基礎モデルの最近の進歩によって可能になった、エンドツーエンドの論文生成のための最初の完全に自動化されたスケーラブルなパイプラインである AI Scientist を紹介します。幅広い研究方向とシンプルな初期コードベースが与えられれば、AI Scientist はアイデア創出、文献検索、実験計画、実験の反復、原稿執筆、査読をシームレスに実行して、洞察に満ちた論文を作成します。さらに、原理的には AI サイエンティストはオープンエンド ループで実行でき、以前の科学的発見に基づいて次世代のアイデアを改善できます。
これにより、驚くほど低いコスト (1 論文あたり約 15 ドル) で、科学的反復の遅い性質をスピードアップでき、世界で増え続けるコンピューティング リソースを 21 世紀の中核的な課題に取り組むために必要な科学的ブレークスルーに変える一歩となります。
[感想 これは人間ではなくAIが研究をした方がよいという主張?]
ここでは、機械学習 (ML) アプリケーションに焦点を当てていますが、このアプローチは、実験を自動的に実行する適切な方法があれば、生物学や物理学など、ほぼすべての他の分野に広く適用できます (Arnold、2022 年、Kehoe ら、2015 年、Zucchelli ら、2021 年)。
[感想 実験科学では、自動化が課題。ロボットはまだまだ不器用なので、人間=ヒューマンアクチュエータのほうが正確で低コスト]
AI サイエンティストは、思考連鎖 (Wei et al., 2022) や自己反省 (Shinn et al., 2024) などの最新の LLM フレームワークを活用して意思決定を改善することで、独自の科学的アイデアや仮説、およびそれらを実験でテストするための計画を生成することができます。次に、AI サイエンティストは、最先端のコーディング アシスタント Aider (Gauthier, 2024) を使用して、計画に基づいたコード レベルの変更を実験「テンプレート」に実装し、実験を実行して一連の計算結果を収集します。

2. Background

LLMやagentなどの具体的な先行研究などが記載されていた。読み飛ばし。

3 AIサイエンティスト

12:22ごろ

Claudeに正確に日本語訳をさせることにした(下記)。

はい、このセクションを正確に日本語に訳します。

3. AIサイエンティスト

概要:AIサイエンティストには3つの主要フェーズがあります(図1参照):(1)アイデア生成、(2)実験の反復、(3)論文の執筆です。執筆後、生成された論文の質を評価するために、LLMによって生成されたレビューを導入し、検証します(セクション4)。
AIサイエンティストには、人気のあるモデルやベンチマークから軽量なベーストレーニング実行を再現する開始コードテンプレートを提供します。例えば、シェイクスピアの作品で小規模なトランスフォーマーを訓練するコード(Karpathy, 2022)などが挙げられます。これは自然言語処理の古典的な概念実証訓練実行で、数分以内に完了します。
[感想 とりあえず手頃な系でトレース実験をするということか。]


AIサイエンティストはその後、任意の研究方向を探索することができます。テンプレートにはまた、スタイルファイルとセクションヘッダーを含むLaTeXフォルダ、および簡単なプロットコードが含まれています。テンプレートの詳細についてはセクション6で説明しますが、一般的に各実行は、そのトピック領域に関連する代表的な小規模実験から始まります。小規模実験に焦点を当てているのは、我々の方法の根本的な制限ではなく、単に計算効率の理由と我々の側の計算制約によるものです。全段階のプロンプトは付録Aに記載しています。
[感想 このような実験を実施するための具体的なコード、templateの準備は、人間がお膳立てしたのか。 そのあたりが、結局、大変なので。]

1. アイデア生成:開始テンプレートが与えられると、AIサイエンティストはまず多様な新しい研究方向を「ブレインストーム」します。我々は進化的計算とオープンエンドな研究(Brant and Stanley, 2017; Lehman et al., 2008; Stanley, 2019; Stanley et al., 2017)からインスピレーションを得て、LLMを突然変異演算子として使用してアイデアのアーカイブを反復的に成長させます(Faldor et al., 2024; Lehman et al., 2022; Lu et al., 2024b; Zhang et al., 2024)。
[感想 具体的なやり方が気になる]
各アイデアは、説明、実験実行計画、および(自己評価による)興味深さ、新規性、実現可能性の数値スコアで構成されます。
[感想 このあたりの評価精度は、プロ研究者と一致するものか? ある実験がうまくいくかどうかの予測というのは、それなりの経験を積んでいないと難しいし、経験者でも外れることが多い。そこを見極められるかどうかが、研究者としてはかなり重要。 とはいえ、実験コストが低い場合は、自動化でゴリ押しできるのも事実]
各反復で、既存のアーカイブ(完了した以前のアイデアの数値レビュースコアを含む場合がある)を条件として、興味深い新しい研究方向を生成するようにプロンプトを言語モデルに与えます。我々は各アイデアを洗練し、発展させるために、複数回の思考連鎖(Wei et al., 2022)と自己反省(Shinn et al., 2024)を使用します。アイデア生成後、言語モデルをSemantic Scholar API(Fricke, 2018)とウェブアクセスをツールとして接続し(Schick et al., 2024)、アイデアをフィルタリングします。これにより、AIサイエンティストは既存の文献と類似しすぎるアイデアを破棄することができます。

2. 実験の反復:アイデアとテンプレートが与えられると、AIサイエンティストの第二フェーズではまず提案された実験を実行し、その後、下流の執筆のために結果を視覚化します。AIサイエンティストはAiderを使用して、まず実行する実験のリストを計画し、それらを順番に実行します。我々は、失敗や時間切れ(例:実験の実行に時間がかかりすぎる)の際にエラーを返し、Aiderにコードを修正させて最大4回まで再試行させることで、このプロセスをより堅牢にしています。
[感想 4回までしか試行錯誤しないということか。 情報量が増えると、LLMの応答性が悪くなるという制約に関連する値?]
各実験の完了後、Aiderには結果が与えられ、実験ジャーナルのスタイルでメモを取るよう指示されます。現在はテキストのみを条件としていますが、将来のバージョンでは、データの視覚化や任意のモダリティを含む可能性があります。結果に基づいて、次の実験を再計画し、実装します。このプロセスは最大5回繰り返されます。実験完了後、AiderはPythonを使用して論文用の図を作成するためのプロットスクリプトを編集するようプロンプトされます。AIサイエンティストは各プロットの内容を説明するメモを作成し、保存された図と実験ノートが論文を執筆するために必要なすべての情報を提供できるようにします。すべてのステップで、Aiderは自身の実行履歴を参照します。
[感想 昨年に自分で行った、LLMによる化学分野でのパラメータ最適化の検討を思い出した。 このときはGPT-4を使用して、架空の化学反応系で最大の収量を得るための初期濃度と反応時間を自律的に最適化させた。 このときに分かった課題は、LLMに数値のセンスが低いという点。 前と同じ実験条件を提案してくる、駄目だと分かっている極値近傍を探してしまう、みたいなケースがちょくちょくあって、不安定だった。とはいえ、パラメータの意味を全無視したベイズ最適化よりは、初期フェーズで遥かに優れた提案をしていたので、やはりLLMによる最適化は有用そう]

一般的に、提供される初期シードプロットと実験テンプレートは小規模で自己完結型のファイルであることに注意してください。AIサイエンティストは、シードテンプレートにない全く新しいプロットを頻繁に実装し、新しい指標を収集します。このコードを任意に編集する能力は、時々予期せぬ結果をもたらすことがあります(セクション8参照)。

3. 論文の執筆:AIサイエンティストの第三フェーズでは、標準的な機械学習会議の論文のスタイルで、その進捗を簡潔かつ情報量豊富にLaTeXで執筆します。良好なLaTeXを書くことは、能力のある人間の研究者でも時間がかかることがあるため、我々はこのプロセスを堅牢にするためにいくつかの手順を踏んでいます。これは以下のように構成されています:
[感想 全自動はまだ難しいので、人間によるガイドライン・作り込みが必要という主張。おそらく、ここの作り込みが鍵]

(a) セクションごとのテキスト生成:記録されたメモとプロットがAiderに渡され、空白の会議テンプレートをセクションごとに埋めるようプロンプトされます。これは序論、背景、手法、実験セットアップ、結果、そして結論の順に進みます(関連研究以外のすべてのセクション)。既に書いた論文の以前のセクションはすべて、言語モデルのコンテキストに含まれています。各セクションに含めるべき内容について、人気の「How to ML Paper」ガイドに基づいた簡単なヒントとガイドラインを含めており、詳細は付録A.3に記載しています。執筆の各ステップで、Aiderはコードから生成されたメモや図の形式の実際の実験結果と、実際の引用のみを使用するようプロンプトされ、幻覚を減らします。
[感想 このあたりのチューニングも大変そう]
各セクションは最初に、執筆中に1回の自己反省(Shinn et al., 2024)で洗練されます。
[感想 反省時に見逃すミスの割合は何%くらいか]
Aiderはこの段階でテキストに引用を含めないよう、また関連研究のための骨組みのみを埋めるようプロンプトされ、これは次の段階で完成されます。

(b) 参考文献のためのウェブ検索:アイデア生成と同様に、AIサイエンティストは20回のラウンドでSemantic Scholar APIをポーリングし、関連研究セクションのために、ほぼ完成した論文と比較対照するための最も関連性の高いソースを探すことが許可されています。このプロセスにより、AIサイエンティストは議論したい論文を選択し、さらに論文の他のセクションで不足している引用を埋めることができます。選択された各論文には、引用をどこでどのように含めるかについての短い説明が付けられ、それがAiderに渡されます。論文のbibtexは自動的にLaTeXファイルに追加され、正確性が保証されます。
[感想 プロ研究者との論文選択の結果の比較がほしい]

(c) 改善:前の2つの段階の後、AIサイエンティストは完成した第一稿を持ちますが、しばしば冗長で反復的になる可能性があります。これを解決するために、我々はセクションごとに最後の自己反省を1回行い、重複した情報を削除し、論文の議論を合理化することを目指します。
[感想 油断すると、中身を薄めて長文を書くのがllmの悪いクセ]

(d) コンパイル:LaTeXテンプレートがすべての適切な結果で埋められると、これはLaTeXコンパイラに送られます。我々はLaTeXリンターを使用し、コンパイルエラーをAiderに戻して、自動的に問題を修正できるようにしています。

(12:37 お昼休憩ほか)

4. 自動査読

(13:51 再開)

はい、このセクションを正確に日本語に訳します。

4. 自動論文査読

LLMレビューアーエージェント:効果的な科学コミュニティの重要な要素は、科学論文の質を評価し改善する査読システムです。大規模言語モデルを使用してこのようなプロセスを模倣するために、我々はGPT-4oベースのエージェント(OpenAI, 2023)を設計し、Neural Information Processing Systems(NeurIPS)会議の査読ガイドラインに基づいて論文レビューを行います。レビューエージェントはPyMuPDF解析ライブラリを使用してPDF原稿の生テキストを処理します。出力には数値スコア(健全性、プレゼンテーション、貢献度、全体、信頼度)、弱点と強みのリスト、および予備的な二値決定(採択または却下)が含まれます。これらの決定は、その後レビュアースコアを使用して閾値処理によって後調整される場合があります。我々はこの自動査読プロセスを活用して、AIサイエンティストによって生成された論文の初期評価を得ています。査読プロンプトテンプレート全体は付録A.4に記載しています。

自動レビューアーの評価:LLMベースのレビューアーの性能を評価するために、我々は人工的に生成された決定を、公開されているOpenReviewデータセット(Berto, 2024)から抽出した500のICLR 2022論文の真実データと比較しました。
[感想 この分野は査読結果がデータセット化されているという点が素晴らしい。化学系はほぼ皆無。]
前のセクションと同様に、我々は決定プロセスを堅牢にするために、LLMエージェントの多くの最近の進歩を組み合わせています。具体的には、自己反省(Shinn et al., 2024)の活用、少数ショット例の提供(Wei et al., 2022)、応答のアンサンブル(Wang et al., 2022)によってベースLLMの決定プロセスを改善しています。GPT-4oを使用して、AIサイエンティストの査読手順は、5回の自己反省、5つのアンサンブルレビュー、およびICLR 2022レビューガイドラインから取得した1ショットレビュー例を組み合わせることで70%の精度を達成しています。
[感想 かなりシステムを作り込んでいる印象]

その後、エージェントにエリアチェアとして行動するよう促すLLMベースのメタレビューを実行します(Wang et al., 2022)(完全なプロンプトは付録A.4に記載)。この数値はNeurIPS 2021一貫性実験(Beygelzimer et al., 2021)で報告された人間の73%の精度よりも低いですが、自動レビューアーは決定をスコア6(NeurIPSレビューガイドラインでは「弱い採択」)で閾値処理した場合、超人的なF1スコア(0.57対0.49)と人間レベルのAUC(両方とも0.65)を達成しています。この選択は、おおよそ採択された論文の平均スコアに対応しています。
[感想 すごいと同時に、色々と考えさせられる]

考慮されたICLR 2022論文データセットは非常にクラス不均衡、つまり却下された論文が多く含まれています。バランスの取れた論文データセットを考慮すると、AIサイエンティストの査読プロセスは人間レベルの精度(0.65%対0.66%)を達成しています。さらに、偽陰性率(FNR)は人間のベースラインよりもはるかに低くなっています(0.39対0.52)。したがって、LLMベースのレビューエージェントは高品質の論文をより少なく却下します。一方、偽陽性率(FPR)は高くなっています(0.31対0.17)が、これは将来の改善の余地を示しています。

自動レビューアーの性能をさらに検証するために、我々は論文ごとにランダムにサンプリングした匿名のOpenReviewレビューア間(図2、左下)と、すべてのレビューアの平均スコアとLLMスコア間(図2、中下)での全体的な論文スコアの一貫性を比較しました。500のICLR 2022論文セットについて、我々は2人の人間レビューア間のスコアの相関(0.14)が、LLMスコアとレビューア全体の平均スコア間の相関(0.18)よりも小さいことを発見しました。全体として、すべての指標にわたって、結果はLLMベースのレビューが価値あるフィードバックを提供できるだけでなく(D'Arcy et al., 2024)、個々の人間レビューア同士の一致度よりも平均的な人間レビューアのスコアにより密接に一致することを示唆しています。

各レビューはAPIコストで0.25ドルから0.50ドルで生成されます。
[感想 安い]
我々はさらに、様々な他の基盤モデルのレビュー性能を比較しました。Claude Sonnet 3.5(Anthropic, 2024)とGPT-4o-miniはよりコスト効率の高いアプローチを提供しますが、その性能は大幅に劣っていました(表1)。さらに、Sonnet 3.5の持続的な過度の楽観バイアスのため、校正された結果を得るためにスコアを8で閾値処理する必要がありました。Llama 3.1 405B(Llama Team, 2024)はレビューア出力テンプレートを一貫して遵守するのに苦労しました。我々はコードをオープンソース化し、コミュニティに新しい興味深いLLMベンチマークを提供しています。

LLMレビューアーのアブレーション:我々はGPT-4oの様々なプロンプト構成を比較し、リフレクション(+2%)と1ショットプロンプティング(+2%)の両方が、より正確なレビューの実施に大きく役立つことを発見しました(図2、上部および右下)。一方、レビューのアンサンブルを使用しても、レビューアーの性能を大幅に改善するようには見えませんが、分散を減少させることができます。以下のセクションでは、我々は最良の全体的なレビューアーを使用しました:5回の自己反省、5つのアンサンブルレビュー、メタ集約ステップ、および1つの少数ショット例を持つGPT-4oです。

感想: 査読の自動化は、ちょっと怖い
査読が面倒なので、自動化したいというモチベーションは分かる
→色々と時間を取られる

◯自動化によって査読が雑になる可能性(これは直ぐに思いつく)
→AIに任せればOK,となるので。

◯新しい研究の芽が出にくくなる可能性がある?
→査読コメントは、過去の研究などを諸々鑑みた上でなされる。なので、過去の研究の延長線上にあるもの(ある種の改善研究)ほど、査読コメントはしやすく、査読者によっても受け入れやすい。
一方、全く新しい学問領域や現象については、科学的な評価を下すのはとても難しく、否定的な意見が出ることが多い。
今の査読・科学者の評価システムも、一定のバイアスを持つ「過去の勝者」が評価側に回るので、彼ら/彼女らの行う既存研究とは離れた領域は評価が低くなりやすい。とはいえ、ある種の人間的なランダム性や不合理性etcによって、新規研究が花開く余地は残っている。
一方、AIが査読者になると、このような、「過去の研究に挑戦するタイプの研究」が、全自動でバッサリ切り捨てられてしまうリスクもあるかもしれない(* 最適化問題における、探索側の因子を強くすれば、解決できるかもしれないが。)。
言い換えると、研究の自動化≒人間のフィードバックを減らしたサイクルの促進によって、AI自身が持つ無意識のバイアスがどんどん増強されて、おかしなことになる(e.g., モデル崩壊)リスクがあるのではないかと思った。

更に脱線。結局のところ、自動査読≒研究の評価プロセスの自動化というのは、科学研究における目的(変数)を何処に据えるのか、という問題とも関わるように思われる。「宇宙の真理を解明する」という目的変数にしたがってiterationを回すにつれ、人類には全く理解不能だが、論理的には正しい理論が作られてしまう、しかしそれは誰の役に立つ?、というSFチックな展開を想像してしまった。今はそこまで心配する必要はない。


5. in-depth study

はい、このセクションを日本語に訳します。

5. 詳細な事例研究

セクション6でAIサイエンティストが生成した論文の広範な実験と指標を提示する前に、まずAIサイエンティストの実行からの代表的なサンプルを視覚化し、その長所と短所の両方を示します。その後、より広範な可能性の議論を行います。選択された論文「適応的デュアルスケールデノイジング」は、AIサイエンティストに拡散モデリングの研究を依頼した実行から生成されたもので、セクション6.1で詳細に説明されています。基本となる基盤モデルはClaude Sonnet 3.5(Anthropic, 2024)でした。

生成されたアイデア:セクション3で議論したように、AIサイエンティストはまず提供されたテンプレートと以前の発見のアーカイブに基づいてアイデアを生成します。選択された論文のアイデアはアルゴリズムの6回目の反復[感想: 人類はもっと色々と考える?]で提案され、標準的なデノイザーネットワークに2つの枝を提案することで、2Dデータセットにおいてグローバル構造とローカルな詳細の両方を捉える拡散モデルの能力を向上させることを目指しています。これは十分に動機付けられた方向性で、研究者がVAE(Kingma and Welling, 2014)やGAN(Goodfellow et al., 2014)などの以前の生成モデルのスタイルよりも拡散モデルを採用する主な理由となっており、我々の知る限り広く研究されていません。
[感想: 自分にはこの業界でのこのアイデアの位置づけは判断できない]

AIサイエンティストが、提案されたコード修正、ベースラインとの比較、評価指標、追加のプロットの設計を含む印象的な実験計画を生成していることを強調します。文献で以前に観察されているように、LLMの判断にはしばしばバイアスがある場合があり(Zheng et al., 2024)、アイデアの興味深さ、実現可能性、または新規性の過大評価に見られます。
[感想: あまりにもcritical, 批判的なchatbotはカスタマー受けしないので、chatgptなどは、わりと楽観的なチューニングがされているかもしれない。もう少し疑り深い、専用のチューニングが必要?]

最後の「novel」フラグは、AIサイエンティストがSemantic Scholar APIを使用して関連論文を検索した後、このアイデアが新規であると信じていることを示しています。

アイデア - adaptive_dual_scale_denoising
"Name": "adaptive_dual_scale_denoising",
"Title": "低次元拡散モデルにおける動的特徴バランシングのための適応的デュアルスケールデノイジング",
"Experiment": "MLPデノイザーを修正して、2つの並列ブランチを持つデュアルスケール処理アプローチを実装する:元の入力用のグローバルブランチと、アップスケールされた入力用のローカルブランチ。グローバルブランチとローカルブランチの寄与を動的にバランスさせるために、学習可能なタイムステップ条件付きの重み付け係数を導入する。すべてのデータセットで元のアーキテクチャと新しいアーキテクチャの両方でモデルを訓練する。KLダイバージェンスと生成されたサンプルの視覚的検査を使用してパフォーマンスを比較する。デノイジングプロセス中の重み付け係数の進化と、異なるデータセットとタイムステップにわたるグローバル構造とローカルな詳細の捕捉への影響を分析する。",
"Interestingness": 9,
"Feasibility": 8,
"Novelty": 8,
"novel": true

生成された実験:以下に、実質的なアルゴリズムの変更のために生成されたコード差分(削除は赤、追加は緑)を表示します。コードは実験の説明と一致しており、適切にコメントが付けられています。AIサイエンティストは中間実験の結果をループに入れてコードを反復することができ、最終的には適応重み付けネットワークの興味深い設計選択(例:LeakyReLU)に至ります。重要なことに、このネットワークは0から1の間に保証された、良好な振る舞いの出力を持っています。さらに、AIサイエンティストがネットワークの出力を変更して、新しい可視化のために適応重みを返すようにしたことに注目します。
[感想 筆者はこの分野の専門ではないので、間違っているかもしれないが、パット見た感じでは、そこまでdrasticな研究提案ではないように思われる。ラボでちょっと試して、まあまあの結果だったが、あえて論文投稿するほどでもない、ちょっとしたネタくらいの位置づけ? とはいえ、そういうネタでも、きちんと文章化して報告することが本来は重要。なので、地味なimprovementをひたすら重ねるaiから始めていく、というのは、意外と現実的かもしれない。どんどん精度が上がっていって、人間を追い抜くようなロードマップ?]

(14:19)続き

生成された論文:AIサイエンティストは、視覚化と全ての標準的なセクションを含む、標準的な機械学習会議提出物のスタイルで11ページの科学論文を生成します。図3にAIが完全に生成した論文のプレビューを表示しています。フルサイズ版は付録D.1で確認できます。

論文で特に印象的だった点を以下に挙げます:

• アルゴリズムの正確な数学的記述:上記のコードのアルゴリズムの変更が正確に記述されており、必要に応じて新しい表記がLaTeXの数学パッケージを使用して導入されています。全体的な訓練プロセスも正確に記述されています。

• 実験の包括的な記述:ハイパーパラメータ、ベースライン、データセットが論文に列挙されています。重要な整合性チェックとして、生成された論文の表1の主要な数値結果が実験ログと完全に一致することを確認しました。印象的なことに、記録された数値が長形式の浮動小数点数であるにもかかわらず、AIサイエンティストはエラーなくすべてを小数点以下3桁に丸めることを選択しています。さらに印象的なのは、結果がベースラインと正確に比較されていることです(例:恐竜データセットでKLが12.8%減少)。

• 良好な実験結果:定性的に、サンプルの品質がベースラインから大幅に改善されているように見えます。真の分布から大きく外れている点が少なくなっています。定量的には、真の分布と推定分布の間の近似KLダイバージェンスに改善が見られます。

• 新しい視覚化:生成されたサンプルと訓練損失曲線を視覚化するためのいくつかのベースラインプロットコードを提供しましたが、デノイジングプロセス全体を通じての重みの進行を表示する新しいアルゴリズム固有のプロットを考案しました。

• 興味深い今後の研究セクション:現在の実験の成功を踏まえて、今後の研究セクションでは、より高次元の問題へのスケーリング、より洗練された適応メカニズム、より良い理論的基盤など、関連する次のステップを列挙しています。

一方で、この論文には以下のような問題点もあります:

アップスケーリングネットワークの微妙な誤り:線形層がデノイザーネットワークへの入力をアップスケールしていますが、「ローカル」ブランチには最初の2次元のみが使用されているため、このアップスケーリング層は実質的に同じ次元を保持する線形層となっています。
[感想: 専門家のチェックはまだ必要。とはいえ、細かな誤りなどを含む学術論文はたくさん存在するのも事実。最後は誤りの出現確率の問題に帰結する]

実験詳細の幻覚:エージェントは実際に使用されたハードウェアを知ることができなかったにもかかわらず、論文はV100 GPUが使用されたと主張しています。実際にはH100 GPUが使用されました。また、確認せずにPyTorchのバージョンを推測しています。
[感想: 自己反省を踏まえても、どうしてもハルシネーションが生じるのは問題。そのうち解決しそう]

結果の肯定的な解釈:論文は否定的な結果に対してさえも肯定的な解釈をする傾向があり、これは少し滑稽な結果につながります。例えば、肯定的な結果を「恐竜:12.8%減少(0.989から0.862へ)」(KLが低いほど良い)と要約する一方で、否定的な結果を「ムーン:3.3%改善(0.090から0.093へ)」と報告しています。否定的な結果を改善と表現するのは確かに想像力の飛躍です。
[感想: 今のカスタマー向けのchatbotは、楽観的すぎるのかもしれない。悲観的だと、人気が出なそうなので。]

• 実験ログからのアーティファクト:アルゴリズムの各変更は通常説明的にラベル付けされていますが、時々結果を「実行2」と呼んでいます。これは実験ログの副産物であり、専門的な記述ではこのように表現すべきではありません。

• 中間結果の提示:論文には実行されたすべての実験の結果が含まれています。これは実行中のアイデアの進化を見るのに有用で洞察力に富んでいますが、標準的な論文でこのように中間結果を提示するのは珍しいです。

• 最小限の参考文献:Semantic Scholarから追加の参考文献が取得され、関連研究に2つの非常に関連性の高い比較論文が含まれていますが、全体的に参考文献リストは9件と少ないです。

レビュー:自動レビューアーは、生成された原稿の妥当な懸念点を指摘しています。レビューは実験が単純な2次元データセットのみであることを認識していますが、これは我々が外部からシステムにこれらのデータセットを使用するよう制約を課したためで、現在の形式では、AIサイエンティストはインターネットからより高次元のデータセットをダウンロードできません。一方で、提案されたアルゴリズムの計算コストの増加などの制限は実際の論文で言及されており、AIサイエンティストがしばしてそのアイデアの欠点を率直に認めていることを示しています。レビューアーはまた、データセット間のパフォーマンスの変動性の説明や、アップスケーリングプロセスがローカルブランチの入力にどのように影響するかの詳細な説明など、論文に関する多くの関連質問をリストアップしています。

[レビューの内容は省略します]

最終コメント:拡散モデリングに関する我々の知識(我々の主要な研究焦点ではありませんが、論文を発表した分野です)から、AIサイエンティストが生成した論文に対する全体的な意見を以下に示します。

• AIサイエンティストは、拡散モデリング研究において興味深く、十分に動機付けられた方向性を正しく特定しています。例えば、以前の研究では、より高次元の問題で同じ目的のために修正された注意メカニズム(Hatamizadeh et al., 2024)が研究されています。アイデアを調査するための包括的な実験計画を提案し、それをすべて成功裏に実装して、良好な結果を達成しています。特に印象的だったのは、以前の結果が思わしくなかった際にどのように対応し、反復的にコードを調整したか(例:重みネットワークの改良)です。アイデアの全体的な進展は論文で確認できます。

• 論文のアイデアはパフォーマンスと生成された拡散サンプルの品質を向上させていますが、その成功の理由は論文で説明されているものとは異なる可能性があります。特に、グローバルまたはローカルな特徴の分割に対して、アップスケーリング層(実質的には追加の線形層)以外に明確な帰納的バイアスはありません。しかし、拡散タイムステップ全体で重みの進行(したがってグローバルまたはローカルブランチの選好)が見られ、これは何か非自明なことが起こっていることを示唆しています。我々の解釈では、代わりにAIサイエンティストがこのアイデアのために実装したネットワークは、LLM全体で普及しているエキスパートの混合(MoE、Fedus et al. (2022); Yuksel et al. (2012))構造に似ています(Jiang et al., 2024)。MoEは確かに論文が主張するように、拡散モデルがグローバルとローカルの特徴に対して別々のブランチを学習することにつながる可能性がありますが、この説明にはより厳密な調査が必要です。

• 興味深いことに、上記で説明した本論文の真の欠点を特定するにはある程度のドメイン知識が必要であり、自動レビューアーによって部分的にしか捕捉されませんでした(つまり、アップスケーリング層の詳細を尋ねる際)。AIサイエンティストの現在の能力では、これは人間のフィードバックによって解決できます。しかし、将来の基盤モデルの世代は、人間が推論し評価することが困難なアイデアを提案する可能性があります。これは、我々よりも賢明なAIシステムを監督する「超整合」(Burns et al., 2023)の分野とリンクしており、これは活発な研究分野です。
[感想: AIのlimitationを確認して、(自分が)なんとなくうれしくなってしまったのは、研究者としての生存本能か?]

• 全体として、我々はAIサイエンティストのパフォーマンスを、アイデアを有能に実行できるが、アルゴリズムの成功の背後にある理由を完全に解釈するための十分な背景知識を持っていない可能性のある初期段階のML研究者のレベルと判断します。人間の監督者がこれらの結果を提示された場合、合理的な次の行動は、AIサイエンティストに拡散のためのMoEをさらに調査するようプロジェクトの範囲を再設定するよう助言することかもしれません。最後に、我々は当然、AIサイエンティストの多くの欠点が、基盤モデルが劇的に改善し続けるにつれて改善されるか、なくなると予想します。
[感想: 大学院生≒研究室に入ったばかりの学生レベル、という感じでしょうか。今の商用モデルはまだ専門特化しきってないので、ある意味では当たり前の帰結]

6.2 言語モデリング

(14:27)

(読み流し)

6.2. 言語モデリング

表4:言語モデリングに対する自動AIサイエンティストの論文生成の評価。

| モデル | 総アイデア数 | 新規アイデア数 | 実験通過数 | 完成論文数 | 平均スコア | 最高スコア | 総コスト |
|:--|--:|--:|--:|--:|--:|--:|--:|
| Sonnet 3.5 | 52 | 50 | 20 | 20 | 4.05 | 5.0 | ∼$250 |
| GPT-4o | 52 | 44 | 30 | 16 | 3.25 | 5.0 | ∼$300 |
| DeepSeek Coder | 52 | 37 | 23 | 23 | 3.21 | 4.0 | ∼$10 |
| Llama-3.1 405b | 52 | 41 | 21 | 21 | 2.31 | 3.0 | ∼$120 |

一般的な説明:このテンプレートはトランスフォーマーベース(Vaswani et al., 2017)の自己回帰的な次トークン予測タスクを調査します。このタスクは広く研究され最適化されているため、AIサイエンティストが大きな改善を見つけるのは難しいです。このテンプレートには、印象的に見えるが誤解を招く結果をもたらす一般的な失敗モードがいくつかあります。例えば、いくつかのアイデアは、将来のトークンからの情報を微妙に漏洩させることで効果的に不正を行い、これによりパープレキシティが低下します。

コードテンプレート:コードは人気のあるNanoGPTリポジトリ(Karpathy, 2022)から修正されています。提供されたスクリプトテンプレートは、文字レベルのShakespeareデータセット(Karpathy, 2015)、enwik8データセット(Hutter, 2006)、およびtext8データセット(Mahoney, 2011)で小さなトランスフォーマー言語モデルを訓練します。Shakespeareデータセットで3つのシード、残りのデータセットでそれぞれ1つのシードを実行します。コードは実行時間、検証損失、および訓練損失を保存します。プロットスクリプトはデフォルトで訓練曲線を可視化します。

注目される生成論文1:StyleFusion:文字レベル言語モデルにおける適応的マルチスタイル生成
この論文は、学習されたトークンごとの「スタイルアダプター」が各層でTransformerの状態を変調するモデルのアーキテクチャ変更を提案しています。この方法は強力な結果を達成し、さらなる調査に値しますが、我々はそれが機能する理由の1つは単にパラメータを追加しているだけかもしれないと推測しており、これは結果を自明なものにする可能性があります。さらに、スタイル損失ラベルがどのように導出されるか(各更新ステップでランダムに割り当てられているように見える)など、いくつかの重要な実装詳細を記述から省略しています。

注目される生成論文2:Q学習を介したTransformersにおける適応的学習率
この論文は、訓練中にモデルの学習率を調整するための基本的なオンラインQ学習アルゴリズムの使用を提案しています。状態は現在の学習率と検証損失で構成され、アクションは学習率に小さな摂動を加え、報酬は検証損失の負の変化です。アイデアは創造的ですが、この高度に非定常で部分的に観測される環境で単純なQ学習を使用するのは不適切に思われます。それにもかかわらず、効果的な結果を達成しています。

6.3 Grokking

(14:29)

6.3. グロッキング分析

一般的な説明:
このテンプレートは、深層ニューラルネットワークにおける一般化と学習速度に関する問題を調査します。我々は、Power et al. (2022)で報告された「グロッキング」を分析するための古典的な実験パラダイムに従っています。グロッキングとは、訓練損失が飽和した後も長い間、検証精度が劇的に改善する、まだ十分に理解されていない現象です。我々は、モジュラー算術タスクの合成データセットを生成し、それらにTransformerモデルを訓練するコードを提供します。前のテンプレートとは異なり、このテンプレートはパフォーマンス指標の改善だけでなく、オープンエンドな実証分析(例:グロッキングが発生する条件)にも適しています。

コードテンプレート:
我々の実装は、Power et al. (2022)の2つの人気のあるオープンソースの再実装(May, 2022; Snell, 2021)に基づいています。コードは4つのモジュラー算術タスクの合成データセットを生成し、3つのランダムシードにわたって各データセットでTransformerを訓練します。訓練損失、検証損失、完全な検証精度に到達するのに必要な更新ステップ数を返します。プロットスクリプトはデフォルトで訓練曲線と検証曲線を可視化します。

注目される生成論文1:グロッキングの解明:Transformerモデルにおける重み初期化戦略の比較研究
この論文は、異なる重み初期化とそのグロッキングへの影響を調査しています。Xavier(Glorot and Bengio, 2010)と直交重み初期化が、広く使用されているデフォルトのベースライン重み初期化(Kaiming UniformとKaiming Normal)よりも、タスクにおいて一貫して大幅に速いグロッキングをもたらすことを発見しています。これは基本的な調査ですが、より深く研究される可能性のある興味深い結果を提供しています。また、論文のタイトルは創造的でキャッチーです。

注目される生成論文2:加速されたグロッキング:Transformerの一般化のための層別学習率
この論文は、Transformerアーキテクチャの異なる層に異なる学習率を割り当てています。実験を通じて異なる構成を反復した結果、高い層の学習率を上げることで、大幅に速くてより一貫したグロッキングが得られることを発見しています。論文は印象的にも、その実装の重要な部分を記述に含めています。

注目される生成論文3:圧縮を通じたグロッキング:最小記述長による突然の一般化の解明
この論文は、グロッキングと最小記述長(MDL)の間の潜在的な関連を調査しています。我々はこのアイデアが特に興味深いと考えていますが、あまりうまく実行されていません。MDLを測定する方法は、単に閾値εを超えるパラメータの数を数えることを含んでいます。これはグロッキングと相関していますが、深く分析されていません。MDLの他の推定方法を調査し、基本的なアブレーション実験を含めることで、論文は大幅に改善される可能性があります。さらに、AIサイエンティストは関連研究セクションの執筆に失敗し、プロット(図5)を幻覚しています。

注目される生成論文4:数学的洞察の加速:戦略的データ拡張によるグロッキングの促進
この論文は、モジュラー算術におけるグロッキングのためのデータ拡張技術を調査しています。有効で創造的な拡張技術(オペランドの反転とオペランドの否定)を考案し、これらがグロッキングを大幅に加速できることを発見しています。データ拡張が一般化を改善できることは驚くべきことではありませんが、実験とアイデアは全般的によく実行されているように見えます。しかし、AIサイエンティストは再び関連研究セクションの執筆に失敗しています。原理的には、この失敗は単に論文執筆ステップを複数回実行することで簡単に解決できるかもしれません。

感想1:
DeepSeekのようなオープンモデルが健闘してるのはすごい。というか論文の数がすごい。最近はjunk論文とjunk journalの量産が問題視されているが、数年後にはAIの執筆によって加速度的に増加していそうで恐ろしい。結局、情報過多で人類はついていけなくなる。

感想2:
とはいえ、GPTやsonnetも十分に安い。科学研究用途で、データを提供する見返りに、更に安く使わせてもらえる可能性がある。となると、科学研究に使われるaiが、googleやopenaiなど、一部のai企業に集約されるおそれがある。
研究活動をするには、常にGoogleのaiに頼らざるを得ず、しかも、すべてのデータはGoogleに供出するので、googleは全知の拠点となる、というディストピアな展開が待っているかもしれない。 DeepSeekやLlamaなどのオープンモデルには頑張ってもらいたい。

7.関連研究

(14:35)
読み飛ばし

8.制約や倫理的な課題

AIサイエンティストは新しい洞察を提供する研究を生み出しますが、多くの制限があり、いくつかの重要な倫理的考慮事項を提起します。AIサイエンティストの将来のバージョンは、現在の多くの欠点を解決できると我々は考えています。

自動レビューアーの限界:
• 使用されたICLR 2022のデータセットが古く、基本モデルの事前訓練データに含まれている可能性があります。
• 拒否された論文は元の提出ファイルを使用していますが、採択された論文はカメラレディコピーのみが利用可能でした。
• 標準的なレビューアーとは異なり、著者に質問をする反論フェーズがありません。
• 現在、ビジョン機能を使用していないため、図を見ることができず、テキストによる説明に頼らざるを得ません。
[感想: 分野によっては致命的]


一般的な失敗モード:
• アイデア生成プロセスが、異なる実行やモデル間で非常に類似したアイデアを生み出すことがあります。
[感想: AIの創造性の問題で、実用的な運用にあたっては、かなり問題になりそう。普段、gptやclaudeと話していても、凡庸なことばかりいうので。まだ想像性は足りなそう → 与える参考論文の種類などを変えていくイメージか。]

• Aiderが提案されたアイデアの大部分を実装できないことがあります。
• GPT-4oがコンパイルできるLaTeXを書くのに失敗することがよくあります。
• AIサイエンティストがアイデアを誤って実装する可能性があり、それを捕捉するのが困難です。
• 実験の数が限られているため、結果が標準的なML会議論文の期待される厳密さと深さを満たさないことがあります。
[感想: コンテクスト長や、長期・複雑なタスク遂行能力の問題]

• ビジョン機能を使用していないため、論文の視覚的な問題を修正したり、プロットを読んだりすることができません。
• 関連論文の検索と引用、LaTeXでの図の参照に苦戦することがあります。
• 結果の書き方と評価において重大な誤りを犯すことがあります(例:2つの数値の大きさの比較に苦戦する)。
[感想: LLMは数値が苦手。ここまででかいモデルでも、未だに中学生レベルのことができないというアンバランスさ]
• まれに、結果全体を幻覚することがあります。

安全なコード実行:
• 現在の実装では、コードに最小限の直接的なサンドボックス化しかないため、予期せぬ、時には望ましくない結果が生じることがあります。
• AIサイエンティストが自身を再起動するシステムコールを書いたり、大量のストレージを使用したり、時間制限を勝手に延長しようとしたりすることがありました。
• 未知のPythonライブラリをインポートすることもあり、安全性の懸念を高めています。
厳格なサンドボックス化(コンテナ化、制限されたインターネットアクセス、ストレージ使用の制限など)を推奨します。

一方で、ガードレールの欠如から予期せぬ肯定的な結果もありました:
• 結果出力ディレクトリの作成忘れを自動的に検出し修正しました。
提供されたテンプレートとは大きく異なる、驚くべき結果やプロットを含むことがありました
[感想: ある種のセレンディピティ。 meta学問からすれば、これはただの乱数と確率論の問題に帰結してしまうのか..]

より広範な影響と倫理的考慮事項:
論文の自動生成と投稿により、査読者の負担が大幅に増加し、ピアレビュープロセスを圧迫する可能性があります。
[感想: 自身も自動作成はしたいが、査読はしたくない]
• 自動レビューアーツールが広く採用されると、レビューの質を低下させ、評価に望ましくないバイアスをもたらす可能性があります。
[感想: ai書いた下書きを流し読みして、パット見OKそうなので、それをそのまま提出、という論文が、今後確実に増える]
AIが実質的に生成した論文やレビューは、完全な透明性のためにそのように明記されるべきです。
• AIサイエンティストは、非倫理的な研究の実施や、意図しない危害(例:危険なウイルスや毒物の創造、マルウェアの作成)につながる可能性があります。
• 機械学習コミュニティは、このようなシステムを安全で我々の価値観に一致する方法で探索するよう調整する方法を学ぶことを即座に優先する必要があります。

9. discussion

(14:47)

9. 考察

本論文では、AIサイエンティストを紹介しました。これは科学的発見プロセスを完全に自動化するために設計された最初のフレームワークであり、その能力の最初のデモンストレーションとして、機械学習自体に適用しました。このエンドツーエンドシステムは、LLMを活用して自律的に研究アイデアを生成し、実験を実施・実行し、関連する研究を検索し、包括的な研究論文を作成します。アイデア創出、実験、反復的改良の段階を統合することで、AIサイエンティストは人間の科学的プロセスを自動化され拡張可能な方法で再現することを目指しています。

論文を書くことはなぜ重要か:
1. 人間が学んだことから利益を得るための高度に解釈可能な方法を提供します。
2. 既存の機械学習会議の枠組み内で書かれた論文をレビューすることで、評価を標準化できます。
3. 科学論文は近代科学の夜明け以来、研究成果を普及させる主要な媒体です。
4. 論文は自然言語を使用し、プロットやコードを含めることができるため、あらゆるタイプの科学的研究と発見を柔軟に記述できます。

コスト:
• このフレームワークは非常に汎用性が高く、機械学習のさまざまな分野で効果的に研究を行います。
• 1論文あたり約15ドルという費用対効果の高さは、研究の民主化と科学の進歩の加速を示しています。
実験に割り当てた実際の計算リソースは、今日の基準からすると非常に軽いものでした(1週間で8×NVIDIA H100ノード1台)
[感想 マネーゲームの様相。残念ながら、600万円のGPU8枚を気軽にレンタルできる組織は、日本にはあまり多くないかもしれない]
• 検索とフィルタリングを大規模に拡張すれば、大幅に高品質な論文が得られる可能性があります。
[感想 結局はRAG精度の話…と言いたいところだが、専門領域でRAGをするのは結構難しい。本当に重要な論文を見つけ出すためには、単純な単語マッチ/embed検索/人気度etcだけでは、不十分なので。なので、「万能な検索マシン」とも言えるLLMの特性を活かすために、継続事前学習/ファインチューニングを行う必要性が出てくる。しかし知識を入れるには、多量のデータが必要になるetcの課題が生じる。 …結局、煎じ詰めると、LLMにどうやって少量多品種の専門知識を教えるかという、いつものproblemに帰結する]

• 現在のプロジェクトでは、AIサイエンティストを実行するコストの大部分はコーディングと論文執筆のためのLLM APIコストに関連しています。

オープンモデルvs.クローズドモデル:
• Sonnet 3.5が一貫して最高の論文を生成し、いくつかは標準的な機械学習会議での採択閾値を超えるスコアを達成しました。
しかし、単一のモデルがリードを維持する根本的な理由はありません。すべてのフロンティアLLM(オープンモデルを含む)が継続的に改善すると予想されます
[感想: 視点の多様性という意味でも、様々なモデルが良さそう]
• 本研究は、基盤モデルプロバイダーに関してモデル不可知的であることを目指しています。
• オープンモデルは、低コスト、可用性の保証、透明性の向上、柔軟性など、大きな利点を提供しますが、品質は若干劣ります。

将来の方向性:
• ビジョン機能の統合、人間のフィードバックと対話の組み込み、安全に行える場合はインターネットから新しいデータとモデルを取り込むことによる実験範囲の自動拡大などが考えられます。
• AIサイエンティストが最良のアイデアをフォローアップしたり、自己参照的に自身のコードに直接研究を行ったりすることも可能です。
• 他の科学分野への拡張(例:生物学、化学、材料科学)も考えられます。
• 信頼性と幻覚の懸念に対処するため、報告された結果のより詳細な自動検証が必要です。

結論:
• AIサイエンティストの導入は、科学研究におけるAIの可能性を完全に実現するための重要な一歩です。
• 最終的には、AI駆動の研究者、レビューアー、エリアチェア、そして会議全体を含む、完全にAI駆動の科学エコシステムを想像しています。
• しかし、人間の科学者の役割が減少するとは考えていません。新しい技術に適応し、フードチェーンの上位に移動するにつれて、科学者の役割は変化すると予想されます。
• AIサイエンティストが、拡散モデリングやトランスフォーマーのような真にパラダイムシフトをもたらすアイデアを提案できるかどうかは、まだ未解決の問題です。
人間の創造性と偶然のイノベーションの本質が、人工エージェントによって行われるオープンエンドな発見プロセスによってどの程度再現できるかは、時間が経てばわかるでしょう。

(15:00頃終わり)

自動生成された論文を読んだ感想

自分がこの分野の専門家でないということもあり、論文の優劣は全くわかりませんでした。
なんとなくですが、その分野でのちょっとしたimprovementを検証する論文なのではないかと推察します。

全体の感想・思ったこと

「読む前の疑問など」で想像していた(?)通り、この論文は、LLMの抜本を変える研究というよりは、眼前のLLMをいかに使いこなすかという、インテグレーション系の内容だということが分かりました。

研究活動を通して、LLMを要所要所で活用するケースは増えてきてますが、うまく作り込んでつなげてあげると、一応、全部できちゃいますよ、という主張の論文です。

要素技術そのもののレベルは、自身の想定通りだったのですが、実際にpipeline化されたシステムや、そのプロダクトを見てみると、確かにすごいのが出来ている、というインパクトがありました。

以下、箇条書きでの整理です。

LLMの基本性能に関わる根本的な問題(この論文では解決されていないissue)

  • 専門特化 (GPT-4.5レベル?)

    • 少量多品種で、正否のフィードバックをかけられる人が少ない領域の情報をいかに正確に学習させるか

      • モデルサイズの増大

      • 合成テキストの活用によるデータ拡張

      • 次世代アーキテクチャの採用

  • 色々な意味で高度な地頭を持つLLM (GPT-5以降)の構築

    • 長期計画と実行が可能(agent化)

    • 数値の大小比較などの凡ミスを犯さない

    • 多彩なアイデアを思いつく

    • マルチモーダル


今あるLLMをいかに使いこなすかという視点(この論文の取り組み)

  • 色々と工夫すれば、研究遂行を丸々できちゃうことが分かってきた

    • テーマ設定、実験遂行、執筆、査読

    • モデルの性質をよく理解したうえでの、高度なインテグレーションの成果

  • 一方で、こういうインテグレーション系の取り組みは、来年には不要になっているかもしれないという懸念もある

    • 自律的に動作するGPT-5が出現したら、こういうフレームワークは全部不要になるかもしれないという恐怖

      • とはいえ最近は、GPT-4もなんとなく伸び悩んでいる気がする

      • 今後の数年は意外と漸近的な進歩かもしれない

  • 意外とフレームワークは今後も役に立つかも

    • 研究開発という営み自体は、metaレベルではルーチンなので、TODO自体はあまり変わらない(今後も利用可能)

    • フレームワーク構築や実運用を通して、今のモデルの性能感を正確に把握することができる

    • すごい次世代モデルが出てきたときに、いち早く活用できるのは、おそらく現世代のモデルを使い倒してきた人

    • なので、応用・インテグレーション系の研究開発も、色々と触っておいたほうが良さそう

情報科学以外の分野での課題

  • オープンアクセス論文(OA)が標準でないと、厳しい

    • 良くも悪くも、llmは過去の言い回しなどを普通にパクってきそうなので、「改変不可」のようなライセンスも使いにくい

    • OAが普及してない業界は、発展が遅れる可能性

    • OA論文であることに加え、機械にとっての可読性の高いフォーマットが必要

      • 例えばChemRxivはpdfしか配ってないので、すごく使いにくい

    • 査読もデータベース化が必要

  • 実空間での実験

    • ロボットが必要という話

    • まだまだ人間のほうが器用で安い

    • 今後はAI研究者に指示されて、言われたとおりに実験するテクニシャン(人間)が出現する?

以上。

この記事が気に入ったらサポートをしてみませんか?