はじめに
最近、大規模言語モデルの開発が終わり、少し余裕が出てきたので、noteの投稿をちょくちょく再開していくかもしれません。
第一弾は、2024/8/13に公開されて話題になった、「AIサイエンティスト」の読解記録です。
こちらは、気にはなっていたのですが、手つかずの論文でした。
そろそろ締切の科研費の申請書の参考になりそうなのと、某件で解説を頼まれたので、読むことにしました。
本記事は、ただのメモ書きです。体系的・学術的に正確に論文を読み解くものではないのでご了承ください。
論文の読み方の参考になるかもしれないと思ったので、時系列に書いていきます。
読む前の疑問など
(8/22, 11:40頃)
論文を読む前に思った疑問を、つらつらと書いておきます。
基本的には、厳しめの視点で読んでいきます。
これから読む
(11:50頃)
今から読みます。ただし、そろそろお昼なので、まずは全体像だけ把握する予定。
アブストをClaude sonnetに訳させる
(蛇足: Sonnetは、ちょっと箇条書きを使いすぎな気がします。)
気になった点はboldにしたうえで、感想文を付記しました。
(12:02) アブストをgoogle翻訳&原文で読む。
概ね、上記と同じことが書かれていることを確認。
これは人工知能(AI)の研究に関する画期的な論文の要約です。
という主張は、claudeが勝手に盛った話らしいということを確認。
本文を読む
Claudeだと意訳しすぎるので、google翻訳を使いながら、必要に応じて原文を参照して読んでいきます。
1. Introduction
自動化に関するモチベーションの話。
2. Background
LLMやagentなどの具体的な先行研究などが記載されていた。読み飛ばし。
3 AIサイエンティスト
12:22ごろ
Claudeに正確に日本語訳をさせることにした(下記)。
(12:37 お昼休憩ほか)
4. 自動査読
(13:51 再開)
感想: 査読の自動化は、ちょっと怖い
◯査読が面倒なので、自動化したいというモチベーションは分かる
→色々と時間を取られる
◯自動化によって査読が雑になる可能性(これは直ぐに思いつく)
→AIに任せればOK,となるので。
◯新しい研究の芽が出にくくなる可能性がある?
→査読コメントは、過去の研究などを諸々鑑みた上でなされる。なので、過去の研究の延長線上にあるもの(ある種の改善研究)ほど、査読コメントはしやすく、査読者によっても受け入れやすい。
一方、全く新しい学問領域や現象については、科学的な評価を下すのはとても難しく、否定的な意見が出ることが多い。
今の査読・科学者の評価システムも、一定のバイアスを持つ「過去の勝者」が評価側に回るので、彼ら/彼女らの行う既存研究とは離れた領域は評価が低くなりやすい。とはいえ、ある種の人間的なランダム性や不合理性etcによって、新規研究が花開く余地は残っている。
一方、AIが査読者になると、このような、「過去の研究に挑戦するタイプの研究」が、全自動でバッサリ切り捨てられてしまうリスクもあるかもしれない(* 最適化問題における、探索側の因子を強くすれば、解決できるかもしれないが。)。
言い換えると、研究の自動化≒人間のフィードバックを減らしたサイクルの促進によって、AI自身が持つ無意識のバイアスがどんどん増強されて、おかしなことになる(e.g., モデル崩壊)リスクがあるのではないかと思った。
更に脱線。結局のところ、自動査読≒研究の評価プロセスの自動化というのは、科学研究における目的(変数)を何処に据えるのか、という問題とも関わるように思われる。「宇宙の真理を解明する」という目的変数にしたがってiterationを回すにつれ、人類には全く理解不能だが、論理的には正しい理論が作られてしまう、しかしそれは誰の役に立つ?、というSFチックな展開を想像してしまった。今はそこまで心配する必要はない。
5. in-depth study
(14:19)続き
6.2 言語モデリング
(14:27)
(読み流し)
6.3 Grokking
(14:29)
感想1:
DeepSeekのようなオープンモデルが健闘してるのはすごい。というか論文の数がすごい。最近はjunk論文とjunk journalの量産が問題視されているが、数年後にはAIの執筆によって加速度的に増加していそうで恐ろしい。結局、情報過多で人類はついていけなくなる。
感想2:
とはいえ、GPTやsonnetも十分に安い。科学研究用途で、データを提供する見返りに、更に安く使わせてもらえる可能性がある。となると、科学研究に使われるaiが、googleやopenaiなど、一部のai企業に集約されるおそれがある。
研究活動をするには、常にGoogleのaiに頼らざるを得ず、しかも、すべてのデータはGoogleに供出するので、googleは全知の拠点となる、というディストピアな展開が待っているかもしれない。 DeepSeekやLlamaなどのオープンモデルには頑張ってもらいたい。
7.関連研究
(14:35)
読み飛ばし
8.制約や倫理的な課題
9. discussion
(14:47)
(15:00頃終わり)
自動生成された論文を読んだ感想
自分がこの分野の専門家でないということもあり、論文の優劣は全くわかりませんでした。
なんとなくですが、その分野でのちょっとしたimprovementを検証する論文なのではないかと推察します。
全体の感想・思ったこと
「読む前の疑問など」で想像していた(?)通り、この論文は、LLMの抜本を変える研究というよりは、眼前のLLMをいかに使いこなすかという、インテグレーション系の内容だということが分かりました。
研究活動を通して、LLMを要所要所で活用するケースは増えてきてますが、うまく作り込んでつなげてあげると、一応、全部できちゃいますよ、という主張の論文です。
要素技術そのもののレベルは、自身の想定通りだったのですが、実際にpipeline化されたシステムや、そのプロダクトを見てみると、確かにすごいのが出来ている、というインパクトがありました。
以下、箇条書きでの整理です。
LLMの基本性能に関わる根本的な問題(この論文では解決されていないissue)
今あるLLMをいかに使いこなすかという視点(この論文の取り組み)
情報科学以外の分野での課題
以上。