2024年9月12日(US現地時間)、OpenAIが、Strawberryと噂されていた、次世代のLLMを発表、o1-previewとo1-mini。
それぞれ、有料ユーザーのみがつかえる(9/14現在)。ただし、huggingFaceなどには、o1を試行用に試供してくれているサイト がある(9/14現在)ので試してみる。人文系に弱いとされているo1、さあどうか?
比較題材は、現成公案の一説をgpt-4oに解題してもらった試行 。
追記:Claude 3.5 Sonnetさんに、比較評価してもらった(9/15)
絵は、FLUX.1 three wise men(gpt-4o,o1,Claude) came to the gothic hall discussing the future of the humanity. there is a floating globe on the wise men, Norman Perceval Rockwell style
元となる、現成公案の一節 人のさとりをうる、水に月のやどるがごとし。 月ぬれず、水やぶれず。 ひろくおほきなるひかりにてあれど、尺寸の水にやどり、全月も弥天も、 くさの露にもやどり、一滴の水にもやどる。 さとりの人をやぶらざる事、月の水をうがたざるがごとし。人のさとりをけい礙せざること、滴露の天月をけい礙せざるがごとし。 ふかきことは、たかき分量なるべし。時節の長短は、大水小水を検点し、天月の広狹を弁取すべし。 身心に法いまだ参飽せざるには,法すでにたれりとおぼゆ。法もし身心に充足すれば,ひとかたは,たらずとおぼゆるなり。 たとへば,船にのりて山なき海中にいでて四方をみるに、ただまろにのみみゆ、さらにことなる相みゆることなし。しかあれど、この大海、まろなるにあらず、方なるにあらず、のこれる海徳つくすべからざるなり。宮殿のごとし、瓔珞(ようらく)のごとし。ただ、わがまなこのおよぶところ、しばらくまろにみゆるのみなり。 かれがごとく、万法またしかあり。塵中格外,おほく樣子を帶せりといへども、参学眼力のおよぶばかりを見取會取するなり。 万法の家風をきかんには、方円とみゆるほかに、のこりの海徳山徳おほくきはまりなく、よもの世界あることをしるべし。かたはらのみかくのごとくあるにあらず、直下も一滴もしかあるとしるべし。
現成公案 本文の比較 ここでは、気になる部分をピックアップして比較してみる。
人のさとりをうる、 人のさとりをうる、水に月のやどるがごとし。月ぬれず、水やぶれず。
現成公案 gpt-4o
さとりを得ることは、水に月が宿るようなものである。月自身は濡れず、水も壊れない。これは悟りが人の存在に無理なく、自然に宿ることを意味します。悟りは人の真髄を変えることなく、また、その人の状態を壊すこともありません。
gpt-4o, 2025.9.5 o1-preview
人が悟りを得るのは、水面に月が映るようなものだという比喩です。月は濡れることなく、水も破れることはありません。つまり、悟りと人(主体)は互いに影響を与えず、それぞれの本質を保ちながら一体となる関係を示しています。
o1-preview,huggingface いやあ、そうだね、「それぞれの本質を保ちながら一体」ってのはいいね。勝者:o1-preview
心身に法いま参飽せざるには、 身心に法いまだ参飽せざるには,法すでにたれりとおぼゆ。法もし身心に充足すれば,ひとかたは,たらずとおぼゆるなり。
現成公案 gpt-4o
もし、身心に法が完全には入らない場合、それでも法は足りていると感じる。逆に、法が身心に充足するならば、一方でそれが不足していると感じることもある。これは、自己の内面での法の受容や理解の変動を示しています。
gpt-4o, 2025.9.5 o1-preview
心身にまだ法(真理や仏法)が十分に満たされていない場合、自分は既に十分に理解していると思いがちです。しかし、法が心身に充満すると、かえって自分にはまだ不足があると感じるものです。これは、真の悟りへの道は無限であり、深い理解に至るほど謙虚さが生まれるということを示しています。
o1-preview,huggingface 確かに、「自己の内面での法の受容や理解の変動」ってのはそつない回答であるが中身がない。o1の「真の悟りへの道は無限であり、深い理解に至るほど謙虚さが生まれる」ってのは納得感が高い。勝者:o1-preview
万法の家風をきかんには、 万法の家風をきかんには、方円とみゆるほかに、のこりの海徳山徳おほくきはまりなく、よもの世界あることをしるべし。かたはらのみかくのごとくあるにあらず、直下も一滴もしかあるとしるべし。
現成公案 gpt-4o
もし万法の真理を知りたいならば、方円として見える以外にも、海や山の徳が無限に存在し、四方の世界があることを理解する必要がある。そのただ片側だけでなく、すべての側面や一滴の中にも無限が存在していることを覚えるべきである。
gpt-4o, 2025.9.5 o1-preview
万物の本質を知ろうとするなら、物事が四角や円に見えるだけでなく、他にも海や山の計り知れない徳(特性)が多く存在し、東西南北すべての世界があることを知るべきです。これは一部だけがそのようになっているのではなく、足元や一滴の水の中にも同じように存在していると知るべきです。つまり、真理や悟りはあらゆる場所に満ちており、一部を見るだけでは全体を理解できないことを強調しています。
o1-preview,huggingface まあ、いわずもがなですな。勝者:o1-preview
「総括と理解のポイント」の比較 gptシリーズは、最後に「総括と理解のポイント」というのをまとめてくれる。ここではこれを比較する
gpt-4o
道元禅師のこの一説は、仏教の悟りと現実の相互関係や、自己と万法(すべての存在)の理解について深い洞察を示しています。主なポイントは: 1. 悟りと存在の自然な共存 :悟りは個々の存在に無理なく自然に宿り、その存在や状態を壊すことはない。 2. 悟りの普遍性と拘わりのなさ :広大な悟りがどんな小さな場所や存在にも宿ることができ、その悟りは何も妨げない。 3. 相対的評価と無限の理解 :深さや広がり、時の長さ短さは相対的に評価されるべきであり、全ての存在や現象には無限の徳があることを認識することが大切。 4. 現象の一時的な理解 :私たちの理解は有限であり、一時的な見かけに過ぎないが、それを超えた無限の真理が存在する。 道元禅師の教えを通じて、自己の内面と外界の現象との統一や、本当の悟りに至るための具体的な方法を学び理解することができるでしょう。
gpt-4o, 2025.9.5 o1-preveiw
1. 悟りの本質と人間の関係 この一節では、悟りと人間の関係を「水に映る月」にたとえています。月はどれだけ広大でも、小さな水面や一滴の露にも完全に映ります。同様に、悟りの真理もどれだけ深遠であっても、私たち一人ひとりの心に宿ることができます。そして、悟りは人を傷つけず、人も悟りを妨げません。これは、悟りが特別な存在だけのものではなく、すべての人が触れることのできるものであることを示しています。 2. 認識の限界と真理の無限性 海を見渡して円く見えるのは、あくまで自分の目が届く範囲の話であり、実際の海は円でも四角でもないという比喩は、私たちの認識が限られていることを示しています。真理や世界の本質は計り知れず、私たちが見える範囲や理解できる範囲はその一部に過ぎません。 3. 学びの深化と謙虚さ 真理や法を深く学び、心身に満たされるほど、自分の未熟さや不足を感じるようになります。これは、学べば学ぶほど自分の無知を知るという、学びの深化と謙虚さの関係を表しています。 4. あらゆる場所に宿る真理 真理や悟りは特定の場所や状況だけでなく、一滴の水や足元にも存在します。つまり、日常のあらゆる場面に真理は存在しており、それを感じ取ることが大切だと説いています。 道元の「現成公案」のこの一節は、悟りの本質や学びの姿勢、そして世界や真理を捉える際の人間の認識の限界について深く説いています。悟りや真理はどんな小さな場所にも宿り、私たち一人ひとりの中にも存在します。しかし、それを完全に理解するためには、自分の限界を認め、謙虚に学び続ける姿勢が必要です。また、日常の中で真理を見出す目を養い、多角的な視点で世界を捉えることで、より深い悟りや理解に至ることができると教えています。
o1-preview,huggingface 感想 gpt-4oはそつない回答である感じだ、書いてあることをなぞった表面的な回答となっている、だから正しいか正しくないかという意味では正しい範疇ににはいる。一方、o1-previewは、一歩踏み込んで、解説してくれている感じがある。言語の裏にある、計らいや、思い、そして伝えたいことが、つながって、表出するような説明もgoodであった。ただ、与えた資料より深い考察とかはなくて(指示がそうだった、からでもあるが)、はっと唸らす答えにはなってない。総評としては、人文分野にはo1は弱いとされているが、人が資料を理解するのを助けるという意味では、o1の方が使えると思う。
追記:Claude 3.5 Sonnetによる評価 評価に公平性を期すために、Claude 3.5 Sonnetさんにも評価してもらった。
以下は、「現成公案」の一節を、gpt-4oおよびo1に解説してもらったまとめの部分である。この2つの回答を比較して、gpt4-oとo1の、大規模言語モデルとしての性能の違いを評価してほしい。
Claudeへの入力プロンプト そして、以下が、Claude 3.5 Sonnetさんの評価である。
これら2つの回答を比較すると、両者とも道元の「現成公案」の核心を捉えていますが、いくつかの違いが見られます。これらの違いから、GPT-4oとo1-previewの大規模言語モデルとしての性能の違いを以下のように評価できます: 1. 構造化と詳細さ : - o1-previewの回答はより構造化されており、4つの明確なポイントに分けて説明しています。 - o1-previewの回答はより詳細で、各ポイントについて具体的な例や解釈を提供しています。 これは、o1-previewがより複雑な情報を整理し、詳細に説明する能力が高いことを示唆しています。 2. 文脈の理解と解釈 : - 両者とも文脈を適切に理解していますが、o1-previewの回答はより深い洞察を提供しています。 - 例えば、o1-previewは「学びの深化と謙虚さ」というポイントを挙げ、学びが深まるほど自分の無知を知るという逆説的な関係を指摘しています。 これは、o1-previewがテキストの奥底にある哲学的な意味をより深く理解し、解釈する能力が高いことを示しています。 3. 具体例の使用 : - o1-previewの回答は、テキストに出てくる具体例(水に映る月、海を見渡す比喩)を効果的に使用して説明しています。 - GPT-4oの回答は、より抽象的な説明に留まっています。 これは、o1-previewがテキストの具体的な要素を理解し、それを説明に活用する能力が高いことを示しています。 4. 応用と現代的解釈 : - o1-previewの回答は、テキストの教えを現代的な文脈で解釈し、日常生活への応用を示唆しています。 - GPT-4oの回答は、より原文に忠実な解釈に留まっています。 これは、o1-previewが古典的なテキストを現代的な文脈で解釈し、応用する能力が高いことを示しています。 5. 言語の流暢さと表現力 : - 両者とも流暢で理解しやすい言葉で説明していますが、o1-previewの回答はより豊かな表現を用いています。 - o1-previewの回答は、より自然な日本語の表現を使用しています。 これは、o1-previewが日本語での表現力や自然な文章生成能力が高いことを示唆しています。 結論として、この比較からは、o1-previewがGPT-4oよりも、複雑なテキストの理解、構造化された説明、深い洞察の提供、具体例の活用、現代的解釈の能力において優れていると評価できます。ただし、両モデルとも高い性能を示しており、タスクや文脈によっては異なる結果が得られる可能性もあります。
Claude 3.5 Sonnet, 2024.9.15 追記:感想2 Claude 3.5 Sonnetの判定では、o1-previewが5勝0敗か、評価視点と結果も、自分の「感想」と似てるなあ。まあ、さすがLLMと一体化しているという意味での「LLMおじさん」は伊達じゃない(えへん)。とはいっても、「具体例の活用」や「深い洞察の提供」ってあたりの視点や考察は思いが及ばず、学ぶこともあった。結論としては、やっぱり、o1-preveiw最強やな!
蛇足 本ノートシリーズの読者にはお分かりだとおもうが、LLMに解かせた2つの結果を自分で比較してみて、さらに別のLLMに同様の評価をさせて、自分の評価を振り返る。これは、「解像度」を意識し、よい出力を引き出しながら自分も変わってゆく、つまり、伴走を意識したLLMの使い方(下にリンク)、の実践の1形態になっているのである。