2024年9月12日(US現地時間)、OpenAIが、Strawberryと噂されていた、次世代のLLMを発表、o1-previewとo1-mini。
それぞれ、有料ユーザーのみがつかえる(9/14現在)。ただし、huggingFaceなどには、o1を試行用に試供してくれているサイト がある(9/14現在)ので試してみる。人文系に弱いとされているo1、さあどうか?
比較題材は、毎週多彩なLLMさんにまとめてもらっている、LLMブックマークからその週のまとめを生成してもらう例題。ブックマークなので断片的で、まとまりもないのだがどう料理するのか。公平を期すためClaude 3.5 Sonnetさんにも結果の比較をしてもらった。
絵は、巨大なロボットの頭が東京湾に浮かび、内部には複雑な機械や回路が見え、ピタゴラスイッチのようなメカニズムも含まれています。ロボットの口からは様々な言葉の塊が吐き出され、周囲の人々が驚いて見守っています。をChatGPTに書いてもらった。
ブックマークから生成させた「まとめ」の比較 両方とも同じプロンプトを用いた
【指示概要】 以下のLLM関連ブックマーク集より、LLMの最新動向をまとめる文章を作って。箇条書きは避けること、話しかける口調で、すこし控えめにしたユーモアも添えて。それから、メイントピック→各社の動き→理論面の進展→哲学的あるいは人文的な話題というような順番にまとめること。 理論面の発展では、生成AIの仕組みの解明と、その仕組みが人間とのかかわりをどのように変えるか、解釈性とか制御という観点から、また、人文的な話題では、生成AIの発展と人間との間の相互作用、生成AIにより人の生き方がどのように変わるか、経済はどのように変わるか、リスクに対してどのような心構えをもつべきかといった、人の在り方について考察する立場をとってほしい。 【具体的説明】 (略)
LLMブクマまとめテンプレート(一部) さあ、最初は、gpt-4o こんにちは、最近の生成AI(大規模言語モデル、LLM)界隈の動向についてお話ししましょう。あの、生成AIが私たちの未来をどう変えていくのかという点についてですが、実は今日までの進展は非常に多岐にわたっています。しかもちょっとしたユーモアも交えて話すと、私たちも未来の技術に少し近づけるかもしれませんね。 まずは最新のメイントピックから。最近、AIの生成モデルは、ただのタスクヘルパーから、本格的に研究のパートナーに進化しています。OpenAIの新しいモデル「o1」、愛称「Strawberry」はその一例です。このAIは、数学、物理、化学の難解な問題に取り組み、人間の博士課程の学生よりも高いスコアを出すこともあります。さらに、推論の深さが評価され、AIが「考える」プロセスに変化をもたらしました。推論時間が長くなるほど、出力の精度が高くなるという新しいパラダイムが注目されています。人間の熟考と同じように、AIも時間をかけて推論を深めていく、これはまさに時代の変革と言えるでしょう。 続いて、各社の動きを見てみましょう。GoogleはLLMを使った「DataGemma」というプロジェクトで、AIの現実対応力を向上させています。OpenAIは新しいモデルを次々とリリースし、特に「o1-mini」や「o1-preview」など軽量バージョンで性能改善を図っています。一方、Appleは「Flash Sigmoid Attention」という技術で、推論速度を劇的に向上させています。そして、METAもまたLlama4のトレーニング用に10万台のH100クラスターを構築中で、計算資源のスケーリングに血眼をあげています。これらの動きは、各社が競い合いながらも生成AIの可能性を拡張し続けている証拠です。 さて、次は理論面の進展についてです。LLMは「In-Context Learning(ICL)」という手法で、より賢くなっています。この手法では、AIが過去の入力例から学び、内部の知識を引き出しながら回答を生成することができます。また、「Sigmoid Attention」や「Mutual Reasoning」といった新しいアプローチが、それぞれのタスクにおけるAIの性能を高めています。理論的な進展は、実用化だけでなく、AIの仕組みを解き明かすための鍵でもあり、私たちの認知科学や教育にも多大な影響を与えることでしょう。 最後に、哲学的あるいは人文的な観点から生成AIの話題に触れてみましょう。AIの進展により、生産性はもちろんのこと、人間とのかかわり方も根本的に変わりつつあります。AIチャットボットが感情的な支えとなりつつあることは、ドラえもんのような「ポンコツでも人間味のあるAI」が求められていることに表れています。また、AIが私たちの仕事や生活の中でどのようにリスクマネジメントを行うかという点にも、深い考察が求められます。AIがどれだけ賢くなっても、人間の倫理観や価値観を代替するものではありません。経済的な影響も無視できません。AIによる自動化は一部の職業を消滅させる可能性がありますが、新しい仕事の創出や生産性向上にも寄与します。 要するに、生成AIの進展は私たちの生活を大きく変える可能性を秘めています。しかし、その一方で、新しい技術に対する慎重なアプローチも必要です。ちょっとしたユーモアを交えつつ、未来の技術とどう向き合うべきかを考えるのも楽しいことですね。AIは私たちのパートナーであり、協働者です。そのため、AIとのかかわりを通じて、人間としての本質を見つめ直す機会を得るかもしれません。
gpt-4o,2024.9.15 お次は、o1-preveiw、(huggingface上のdemoサイト利用) 最近、AI界隈でちょっとした話題になっているのが、OpenAIが新たにリリースしたモデル「o1」、コードネーム「Strawberry🍓」です。このモデル、従来のGPT-4oと比べて数学や科学の分野で驚異的な性能を発揮しており、大学院博士課程レベルの知識に匹敵するとも言われています。特に数学オリンピックのテストでは、以前のモデルが13点しか取れなかったのに対し、o1はなんと83点を叩き出したとか。まさにAIの進化は留まるところを知らないですね。 ところで、このo1モデルが特に注目されているのは、推論時の計算量、いわゆる「推論スケーリング」を最適化して性能を向上させている点です。これまでの大規模言語モデルは、モデルのパラメータ数を増やすことで性能を上げてきましたが、o1は推論時の計算をより長く、深く行うことで、より高度な回答を導き出すことができるようになりました。AIが自分で考える時間を増やすことで、まるで人間が熟考するように答えを見つけ出すわけです。これには、「学習スケーリングはもう限界で、これからは推論スケーリングの時代だ!」なんて声も上がっています。でも、まあ、CPUの性能向上が頭打ちになったからって「これからはマルチコアの時代だ!」と言い出した時期を思い出すと、ちょっと懐かしい気もしますね。 各社の動きを見てみると、AI競争はますます激化しています。MetaはLlama4のトレーニング用に10万台のH100 GPUを投入するとか。推論スケーリングに続いて、計算資源のスケーリングもまだまだ続きそうです。また、Appleが発表した「Flash Sigmoid Attention」は、これまでの「Flash Attention 2」よりも17%高速化を実現したとのこと。AIの世界では、わずかな性能差が大きな影響を与えるので、このような技術革新は見逃せません。 日本でも生成AIの開発が活発で、経済産業省とNEDOが支援するGENIACプロジェクトでは、多くの企業や研究機関が成果を発表しています。Sakana AIは、小さな公開済みのモデルを改善し、その知見を業界全体に公開することで、業界全体を盛り上げようとしています。秋葉さんのプレゼンでは、一瞬会場がシーンとなるほどのインパクトがあったとか。富士通は非構造データを業界ごとの規則に応じて扱うナレッジグラフ化の技術を披露し、東京大学の松尾研究室は対話における共感性を高めるモデルを発表しました。 一方、理論面でも興味深い研究が続々と発表されています。Microsoft Researchの「Mutual Reasoning」は、小規模な言語モデルでも自己対話によって問題解決能力を大幅に向上させる手法を提案しています。また、「In-Context Learning」についての新たな見解もあり、LLMが内部知識の活用と文脈からの学習を組み合わせていることが示唆されています。これらの研究は、AIがどのように知識を構築し、問題を解決しているのかを理解する上で重要です。 しかし、性能の高さだけがAIの価値を決めるわけではありません。AIのベンチマークが簡単に操作できてしまうという指摘もあり、モデルの真の能力を評価する難しさも浮き彫りになっています。DrJimFanが「LLMの最高性能を鵜呑みにしてはいけない」と警鐘を鳴らしていますが、確かにユーザーの偏りや評価基準の曖昧さは無視できませんね。 そして、人間とAIの関係性についても考えるべき点が多くあります。AIアライメントネットワークの設立記念イベントでは、日本のAI安全性研究所とAIガバナンス協会が連携していく方針が示されました。AIが人間の社会に深く入り込む中で、安全性や倫理的な課題はますます重要になります。 また、AIが人間の職業や生活に与える影響も大きくなっています。医療分野では、ChatGPT o1が医師を志す学生レベルの問題を解けるようになっており、Deryaさんは医師を目指す全ての人に警告を発しています。将来的には、医療従事者の役割も変わっていくかもしれません。 一方で、生成AIブームに対する冷ややかな視線もあります。TJOさんは「結局、生成AIブームもかつてのデータサイエンティストや人工知能のブーム同様に、ダメなゴールドラッシュと同じになりつつある」と指摘しています。確かに、大して使えないPoCを量産して雰囲気だけで商売しようとする動きも見受けられます。でも、金鉱を掘り当てられなくても、ツルハシやジーンズを売ることで儲ける人もいるわけで、ビジネスとは面白いものです。 それでも、AIの進化が人々の生活や経済に大きな影響を与えることは間違いありません。ポストシンギュラリティ共生学を提唱する山川さんは、「私たちはこの状況を乗り越えて前向きに解決を目指すべきであり、その一つのアプローチが共生学である」と述べています。AIと人間が共に発展していくためには、技術だけでなく、人文的な視点や倫理的な考察も不可欠です。 今後、AIがどのように進化し、私たちの生活をどのように変えていくのか。リスクに対してどのような心構えを持つべきか。答えは一つではありませんが、少なくともAIの可能性を最大限に活かしつつ、人間らしさを忘れないようにしたいものです。とりあえず、AIに仕事を奪われないように、私も頑張らねば、ですね。
o1-preview, huggingface 感想 メイントピック、双方ともOpenAI o1を取り上げてますが、gpt-4oは、「AIが「考える」プロセスに変化」、「推論時間が長くなるほど、出力の精度が高くなるという新しいパラダイム」を上げて、「人間の熟考と同じように、AIも時間をかけて推論を深めていく」ことが時代の変革と説く。一方o1-previewは、最初にo1が何かを説明した後、「推論スケーリング」に着目し、「o1は推論時の計算をより長く、深く行うことで、より高度な回答を導き出すこと」ができるといってます。o1-previewは、元データに散在するGENIACプロジェクトにつてまとめたパラグラフをつくり、さらにそれがNEDOが支援すると説明をつけてくれてます。
哲学面では、gpt-4oは、「AIの進展により、生産性はもちろんのこと、人間とのかかわり方も根本的に変わりつつあります」といいますが、o1-previewは、AIアライメントネットワークの話や、山川さんのポストシンギュラリティの話や、TJOさんの、この生成AI騒ぎで結局儲けるのはだれか?みたいな話をまとめてくれている。
総じてo1-previewの方が読みやすく、また取りこぼしも少ないと感じた。
追記:Claude 3.5 Sonnetによる評価 評価に公平性を期すために、Claude 3.5 Sonnetさんにも評価してもらった。
そして、以下が、Claude 3.5 Sonnetさんの評価である。
提供された2つの回答を比較して、gpt-4oとo1-previewの大規模言語モデル(LLM)としての性能の違いを評価いたします。 1. 情報の網羅性と深さ : o1-previewの回答は、より具体的で詳細な情報を提供しています。例えば、OpenAIの新モデル「o1」(Strawberry)の性能について、数学オリンピックのテストスコアを具体的に言及しています(13点から83点へ)。一方、gpt-4oの回答はより一般的で、具体的な数値を挙げていません。 2. 最新の技術動向の把握 : o1-previewは、より最新の技術動向を詳しく説明しています。例えば、AppleのFlash Sigmoid Attentionによる17%の高速化や、日本のGENIACプロジェクトの具体的な成果などを挙げています。gpt-4oも技術動向に触れていますが、o1-previewほど具体的ではありません。 3. 構造化された情報提示 : o1-previewの回答は、より構造化されており、トピックごとに情報を整理して提示しています。一方、gpt-4oの回答は、やや散漫な印象を受けます。 4. 批判的視点: o1-previewは、AIの進歩に対する批判的な視点も含めています。例えば、AIベンチマークの操作可能性や、生成AIブームへの冷ややかな視線について言及しています。gpt-4oの回答は、より楽観的な tone を持っています。 5. 具体例の提示: o1-previewは、より多くの具体例を挙げています。例えば、各企業や研究機関の取り組みを具体的に紹介しています。gpt-4oも例を挙げていますが、o1-previewほど多くはありません。 6. 文体とトーン: o1-previewの回答は、より会話的で親しみやすい文体を使用しています。一方、gpt-4oの回答は、やや形式的な印象を受けます。 7. 独自の洞察 : o1-previewは、技術動向の報告だけでなく、それらの意味合いについても考察を加えています。例えば、AIと人間の関係性や、将来の職業への影響などについて言及しています。 結論: o1-previewは、より詳細で最新の情報を提供し、構造化された形で presented しています。また、批判的視点を含み、より多くの具体例を挙げながら、独自の洞察も加えています。これらの点から、o1-previewはgpt-4oと比較して、より高度な言語理解と生成能力を持っていると評価できます。o1-previewは、与えられた情報をより深く処理し、関連性の高い詳細情報を抽出・統合する能力が優れていると言えるでしょう。 ただし、この評価は限られたサンプルに基づくものであり、両モデルの全体的な性能を完全に反映しているわけではありません。また、モデルの性能は、与えられたタスクや、トレーニングデータの新しさなどにも影響されることに注意が必要です。
Claude 3.5 Sonnet,2024.9.16 追記:感想2 Claude 3.5 Sonnetの判定では、o1-previewが7勝0敗か、評価視点と結果も、自分の「感想」と似てるなあ。まあ、さすがLLMと一体化しているという意味での「LLMおじさん」は伊達じゃない(えへん)。とはいっても、「批判的視点」や「独自の洞察」ってあたりの視点や考察は思いが及ばず、学ぶこともあった。結論としては、やっぱり、o1-preveiw最強やな!
LLM関連ブックマーク(オリジナル) もととなった、ブックマーク集です。