LLM関連ブックマークまとめ(2024.9.9-9.15): OpenAI o1の衝撃、その破壊と創造とは？、o1自身にまとめてもらった。

2024年9月15日 17:53

「LLM関連ブックマーク（週毎）をまとめる作業をLLMにやらせてみる」にあるように、毎週あつめたLLM関連ブックマークを、LLMにまとめてもらっている。今週は@yuntiandengさんがhuggingfaceに公開してくれた、o1-previewのデモさんにまとめてもらいました。

いや、o1出ました、様々な評価もでてます、強いところ、苦手なところ、これって様々な人に新しいLLMとの付き合い方を再考させたようです。これがo1リリースの狙いじゃなかったんでしょうか？今週のまとめは、当然o1-previewさん(huggingfaceのデモ版）にやってもらいましたが、これはすごい、すごすぎる！

追記(9/16)：o1の部分だけ、人間がまとめたバージョンを最後に添付した、まだまだ人間にも活躍の余地がありそうかどうか。。

絵は、o1のイメージをFLUX.1 devに書いてもらった

A gigantic robot head floating in Tokyo Bay, its interior revealing complex machinery and circuits. Some of the inner mechanisms resemble a Rube Goldberg machine, with intricate, chain-reaction-like movements. From the robot's mouth, streams of words in various languages pour out. In the foreground, people stand far away, looking at the robot in astonishment. The background shows the cityscape of Tokyo, with its tall buildings and iconic landmarks.

プロンプトはChatGPTが作った

LLM最新動向(2024.9.9-9.15)まとめ

最近、AI界隈でちょっとした話題になっているのが、OpenAIが新たにリリースしたモデル「o1」、コードネーム「Strawberry🍓」です。このモデル、従来のGPT-4oと比べて数学や科学の分野で驚異的な性能を発揮しており、大学院博士課程レベルの知識に匹敵するとも言われています。特に数学オリンピックのテストでは、以前のモデルが13点しか取れなかったのに対し、o1はなんと83点を叩き出したとか。まさにAIの進化は留まるところを知らないですね。

ところで、このo1モデルが特に注目されているのは、推論時の計算量、いわゆる「推論スケーリング」を最適化して性能を向上させている点です。これまでの大規模言語モデルは、モデルのパラメータ数を増やすことで性能を上げてきましたが、o1は推論時の計算をより長く、深く行うことで、より高度な回答を導き出すことができるようになりました。AIが自分で考える時間を増やすことで、まるで人間が熟考するように答えを見つけ出すわけです。これには、「学習スケーリングはもう限界で、これからは推論スケーリングの時代だ！」なんて声も上がっています。でも、まあ、CPUの性能向上が頭打ちになったからって「これからはマルチコアの時代だ！」と言い出した時期を思い出すと、ちょっと懐かしい気もしますね。

各社の動きを見てみると、AI競争はますます激化しています。MetaはLlama4のトレーニング用に10万台のH100 GPUを投入するとか。推論スケーリングに続いて、計算資源のスケーリングもまだまだ続きそうです。また、Appleが発表した「Flash Sigmoid Attention」は、これまでの「Flash Attention 2」よりも17%高速化を実現したとのこと。AIの世界では、わずかな性能差が大きな影響を与えるので、このような技術革新は見逃せません。

日本でも生成AIの開発が活発で、経済産業省とNEDOが支援するGENIACプロジェクトでは、多くの企業や研究機関が成果を発表しています。Sakana AIは、小さな公開済みのモデルを改善し、その知見を業界全体に公開することで、業界全体を盛り上げようとしています。秋葉さんのプレゼンでは、一瞬会場がシーンとなるほどのインパクトがあったとか。富士通は非構造データを業界ごとの規則に応じて扱うナレッジグラフ化の技術を披露し、東京大学の松尾研究室は対話における共感性を高めるモデルを発表しました。

一方、理論面でも興味深い研究が続々と発表されています。Microsoft Researchの「Mutual Reasoning」は、小規模な言語モデルでも自己対話によって問題解決能力を大幅に向上させる手法を提案しています。また、「In-Context Learning」についての新たな見解もあり、LLMが内部知識の活用と文脈からの学習を組み合わせていることが示唆されています。これらの研究は、AIがどのように知識を構築し、問題を解決しているのかを理解する上で重要です。

しかし、性能の高さだけがAIの価値を決めるわけではありません。AIのベンチマークが簡単に操作できてしまうという指摘もあり、モデルの真の能力を評価する難しさも浮き彫りになっています。DrJimFanが「LLMの最高性能を鵜呑みにしてはいけない」と警鐘を鳴らしていますが、確かにユーザーの偏りや評価基準の曖昧さは無視できませんね。

そして、人間とAIの関係性についても考えるべき点が多くあります。AIアライメントネットワークの設立記念イベントでは、日本のAI安全性研究所とAIガバナンス協会が連携していく方針が示されました。AIが人間の社会に深く入り込む中で、安全性や倫理的な課題はますます重要になります。

また、AIが人間の職業や生活に与える影響も大きくなっています。医療分野では、ChatGPT o1が医師を志す学生レベルの問題を解けるようになっており、Deryaさんは医師を目指す全ての人に警告を発しています。将来的には、医療従事者の役割も変わっていくかもしれません。

一方で、生成AIブームに対する冷ややかな視線もあります。TJOさんは「結局、生成AIブームもかつてのデータサイエンティストや人工知能のブーム同様に、ダメなゴールドラッシュと同じになりつつある」と指摘しています。確かに、大して使えないPoCを量産して雰囲気だけで商売しようとする動きも見受けられます。でも、金鉱を掘り当てられなくても、ツルハシやジーンズを売ることで儲ける人もいるわけで、ビジネスとは面白いものです。

それでも、AIの進化が人々の生活や経済に大きな影響を与えることは間違いありません。ポストシンギュラリティ共生学を提唱する山川さんは、「私たちはこの状況を乗り越えて前向きに解決を目指すべきであり、その一つのアプローチが共生学である」と述べています。AIと人間が共に発展していくためには、技術だけでなく、人文的な視点や倫理的な考察も不可欠です。

今後、AIがどのように進化し、私たちの生活をどのように変えていくのか。リスクに対してどのような心構えを持つべきか。答えは一つではありませんが、少なくともAIの可能性を最大限に活かしつつ、人間らしさを忘れないようにしたいものです。とりあえず、AIに仕事を奪われないように、私も頑張らねば、ですね。

追記(9/16)：人間が作成したまとめ(o1部分)

今週はOpenAI o1シリーズの発表が全て。以上。

というわけにいかないので。OpenAI は9月12日にかねてStrawberryという名で噂されていた、o1およびo1-miniを発表。o1-preveiw, o1-miniは課金ユーザーに回数制限付きで提供開始。CoT(思考の連鎖)を用いて時間をかけて考える、いわゆるSystem2思考できるのが特徴。物理、生物、化学の問題のベンチマークで博士レベルの性能をだし、さらに数学オリンピックの米国予選でトップ500にランクインだそうだ。問題に応じて、時間をかけて答えるという動きをし、その考えている中途のステップもみることができる。将来バージョンは数時間から数日単位で時間をかけて考えさすほど、より複雑な問題に対応できるようになるということで、新たなスケーリングパラダイム（推論時の）の幕開けだと言われている。早速、いろいろな評価が始まり、東大数学で合格最低点を突破、いや、理系数学第５問は解けなかったとか、数学や論理性に優れているが、文系の課題にはgpt-4oの方が良いという評価もあったが、そうでもないみたいな評価もある。ただ、Claudeが持ってる図的思考ってのは薄いかな。とにかく、ちょっととがった性質であることがわかってきた。自分たちはGPT-5を待ってたのに、コレジャナイいう意見も聞こえてきた。しかし医療データセットで優れた成果を出し、日常的な診断や治療業務が代替できるというのだから、ポテンシャルは有りそう。ishiaraさんは、幾何学の独立した２つの理論をつなぐ方法を解かせてみて、その妥当性はわからないが、結果の式展開を見てヒントになるといっているし、東大の教授が新しいアイデアを１週間かけて精査するお仕事を１分で終らせるレベルとか、東大松尾研の今井さんに至っては、「普通の人がわかる性能発展としてはGPT-4oがほぼ限界ライン」ということで、ちょっと普通の人間にはToo muchなのかもしれない。なおIQが120という結果も出ていて、もう本当の偉さは人間ではわからないんじゃないかな。というふうにわずか１週間で世界はがらりと変わった、OpenAIもo1を限定リリースしたのも、そういう新しいLLMとの付き合い方を皆が学ぶ機会を与えていた、反応を観察してた、のかもしれない。有料ユーザーでなくても、huggingfaceに、デモスペースを開放している奇特な人もいるのでその実力を垣間見ることができる。

ブックマークから著者が作文

LLM関連ブックマーク（オリジナル）

もととなった、ブックマーク集です。

この記事が気に入ったらサポートをしてみませんか？