見出し画像

GPT-4o vs Claude 3.5 Sonnet - 噂の最新言語モデルを徹底検証!

こんにちは、スクーティーという会社の代表をやっているかけやと申します。

弊社は生成AIを強みとするベトナムオフショア開発・ラボ型開発や、生成AIコンサルティングなどのサービスを提供しており、最近はありがたいことに生成AIと連携したシステム開発のご依頼を数多く頂いています。

さて、​2024年6月21日にAnthropic社から衝撃の発表がありました。最新の言語モデル、Claude 3.5 Sonnetです。ベンチマーク評価結果が業界トップと言うこともありますが、Artifactsという機能があまりにインパクトが大きく、Xのタイムラインを埋め尽くしました。

しかし思い出してください。たった1ヶ月前に、OpenAI社がGPT-4oを発表し、衝撃を与えたばかりです。その衝撃度は、今回のClaude 3.5 Sonnetと甲乙つけがたいです。

そこでこの記事では、私の独断と偏見で決めた方法で、GPT-4oとClaude 3.5 Sonnetに対決してもらい、性能を比較してみました。まずは簡単にClaude 3.5 Sonnetがどのようなものかをまとめつつ、記事の最後では、同じプロンプトで出力を比較した10番勝負を記載していますので、ぜひそちらまで御覧ください!


また、前回のChatGPTとClaudeの熱き戦いはこちらの記事をご覧ください!
参照: ChatGPT vs Claude 3 - 生成AIの性能を徹底検証!

GPT-4oとは

GPT-4oはOpenAIの最新言語モデルです(本記事執筆の2024/06/23現在)。

GPT-4oが発表されたときは、精度の高さや音声出力のレスポンス速度、感情表現など、GPT-4o以前のモデルから想像される言語モデルの能力から、あまりにも非連続的な進化を遂げていたため、本当に衝撃的でしたし、生成AI界隈もしばらくざわつきまくっていたのが記憶に新しいです。

GPT-4oに関しては別の記事に詳しくまとめていますので、そちらを御覧ください。

参照: 【とにかくすごい】GPT-4oとは?最新モデルと新機能のまとめ

Claude 3.5 Sonnetとは

Claude 3.5 Sonnetの​概要

Claude 3.5 Sonnetは、Anthropicが2024/06/21に発表した最新の言語モデルであり、業界標準を超える性能を誇ります。このモデルは、大学院レベルの推論能力(GPQA)、学部レベルの知識(MMLU)、およびコード生成の熟練度(HumanEval)において、他の競合モデルやClaude 3 Opusを凌駕しています。特に、速度とコスト効率に優れており、Claude 3 Opusの2倍の速度で動作し、複雑なタスクも対応できる能力をもっています。

視覚的推論能力も強化されており、グラフやチャートの解釈、画像からのテキスト転写においても優れた性能を持っているようです。

新機能のArtifactsでは、ユーザーが生成したコードスニペットやテキストドキュメントをリアルタイムで編集・構築でき、プロジェクトやワークフローにシームレスに統合できます。

安全性とプライバシーにも配慮しており、外部の専門家によるテストを経て、ASL-2の安全性を維持しています。また、ユーザーの明示的な許可なしにデータをモデル訓練に使用しないというポリシーです。

ちなみに​Claude 3.5 Sonnetは、利用制限はあるものの無料プランでも使用できるようです。

Claude 3.5 Sonnetのベンチマークによる性能評価

出典: https://www.anthropic.com/news/claude-3-5-sonnet
  • ​Graduate Level Reasoning (GPAQ, Diamond)

    • 定義: 大学院レベルの推論能力を測定する指標。

    • 意味: 複雑な概念や理論に対する理解と、それを論理的に説明する能力を評価します。

  • Undergraduate Level Knowledge (MMLU)

    • 定義: 学部レベルの知識を測定する指標。

    • 意味: 広範な学術知識を持ち、一般的な学部レベルの質問に正確に答える能力を評価します。

  • ​Code (HumanEval)

    • 定義: コード生成能力を測定する指標。

    • 意味: プログラミングの問題を解決するためのコードを正確に生成する能力を評価します。

  • Multilingual Math (MGSM)

    • 定義: 多言語対応の数学問題解決能力を測定する指標。

    • 意味: 数学的な問題を多言語で理解し、解答する能力を評価します。

  • ​Reasoning Over Text (DROP, F1 score)

    • 定義: テキストを元にした推論能力を測定する指標。

    • 意味: テキストから重要な情報を抽出し、質問に対して正確に答える能力を評価します。

  • Mixed Evaluations (BIG-Bench-Hard)

    • 定義: 多様なタスクに対する性能を総合的に測定する指標。

    • 意味: 複数の異なる難易度のタスクに対してどれだけ正確に対応できるかを評価します。

  • ​Math Problem-solving (MATH)

    • 定義: 数学問題解決能力を測定する指標。

    • 意味: 数学の問題を正確に解く能力を評価します。

  • ​Grade School Math (GSM8K)

    • 定義: 小学校レベルの数学問題解決能力を測定する指標。

    • 意味: 基本的な数学の問題を正確に解く能力を評価します。

各指標の意味は上記のようになり、大学学部レベルの知識がGPT-4oと同等で、数学問題の解決能力以外はすべてClaude 3.5 SonnetがGPT-4oを上回る能力を持っているという結果です。

出典: https://www.anthropic.com/news/claude-3-5-sonnet
  • ​Visual Math Reasoning (MathVista)

    • 定義: 視覚的な数学的推論能力を測定する指標。

    • 意味: 図形やグラフを見て数学的な推論を行う能力を評価します。

  • ​Science Diagrams (AI2D)

    • 定義: 科学的な図表を理解する能力を測定する指標。

    • 意味: 科学的な図表を正確に解釈し、その内容を説明する能力を評価します。

  • Visual Question Answering (MMMU)

    • 定義: 画像に基づいた質問に答える能力を測定する指標。

    • 意味: 画像から情報を抽出し、それに基づいて質問に答える能力を評価します。

  • ​Chart Q&A (Relaxed accuracy)

    • 定義: グラフに基づいた質問に答える能力を測定する指標。

    • 意味: グラフを解釈し、その情報を基に質問に答える能力を評価します。

  • ​Document Visual Q&A (ANLS score)

    • 定義: ドキュメントに基づいた質問に答える能力を測定する指標。

    • 意味: ドキュメントから重要な情報を抽出し、それに基づいて質問に答える能力を評価します。

次に視覚的能力です。こちらは画像に基づいたQ&A能力以外はすべてClaude 3.5 SonnetがGPT-4oを上回っています。

本記事の最後にGPT-4oとClaude 3.5 Sonnetの10番勝負をしますが、勝負の内容はできる限り上記の指標に基づいたものを考えてみました。

Artifacts機能

​Claude 3.5 Sonnetに新たに導入されたArtifacts機能は、ユーザーがAIと対話しながら生成したコンテンツをリアルタイムで編集・構築できる革新的なツールです。

「革新的な」と表現していますが、実際Artifactsやばいです。これがあったからここまでユーザーに衝撃を与え、いまだにXがざわついているのだと思います。

この機能は、コードスニペット、テキストドキュメント、ウェブサイトデザインなど、ユーザーがClaudeに生成させた様々なコンテンツを専用のウィンドウに表示します。

Artifactsは、AIによって生成されたコンテンツをすぐに見て編集できるダイナミックな作業環境を提供します。これにより、プロジェクトやワークフローにシームレスに統合し、ユーザーは生成されたアイデアやコードをリアルタイムで微調整し、完成度を高めることができます。例えば、ユーザーがコードスニペットを生成させた場合、そのコードをすぐに確認し、必要な修正や追加を行うことができるのです。

将来的には、チームコラボレーションもサポートし、チーム全体が中央の知識、ドキュメント、および進行中の作業を安全に共有できるようになる予定とのこと。これにより、Claudeは単なる対話エージェントを超え、実際の作業環境での利用を促進する強力なツールとなります。

Aritifactsを有効にするには、右上のメニューの「Features Preview」から、
AritifactsをOnにする必要があります。先に言って!ちょっとハマったわー!


今後の開発予定

​Claude 3.5 Sonnetの今後の展望として、まずClaude 3.5 HaikuとClaude 3.5 Opusのリリースが予定されているそうです。これは楽しみ!OpusはSonnetよりも更に性能の高いものがリリースされることが期待されます。

また、Memory機能の開発も進行中で、これによりClaudeはユーザーの好みやインタラクション履歴を記憶し、より個別化された効率的な体験を提供します。

さらに、企業向け統合をサポートする新機能の開発も行われており、ビジネス用途に対応するための新しいモダリティや機能が追加される予定とのことです。

​GPT-4oとClaude 3.5 Sonnetの比較10番勝負!

お待たせしました!​GPT-4oとClaude 3.5 Sonnetの10番勝負です。ベンチマーク評価結果を定性的に評価できるようなテーマを私の独断と偏見で列挙し、各々の結果も、これまた私の独断と偏見で評価してみました。

どちらが勝つのでしょうか!?

専門性の高い記事を要約

https://arxiv.org/pdf/2405.19425
こちらの論文のPDFをアップロードし、要約してもらいます。

​この論文の内容を、AI専門家向けに、概要と、将来期待される用途と、従来の技術と優れている点を、できる限り具体的、定量的、論理的に、日本語で1000文字程度でまとめてください。

​GPT-4oの出力
Claude 3.5 Sonnetの出力

あれ、、、早速差がつきました。これは明らかにGPT-4oの勝ちです。

GPT-4oのほうが説明として具体的でわかりやすく、何よりも「21.94%精度が向上」という点に正確な数字を伴って説明できています。

この論文の内容が大学院レベルなのか大学レベルなのかわかりませんが、ベンチマーク結果だとこれはClaude 3.5 Sonnetに勝ってもらうべき対決でしたが、結果はGPT-4oの勝利です。

ちなみにClaudeはURLの内容を読み込むブラウジング機能がないため、PDFファイルにしてアップロードする必要があります。従って、論文の内容を理解して要約するという言語モデルの能力ではなく、PDFファイルの内容を正確に読み込むという処理で差がついている可能性は認識しておく必要があります。

高校数学を画像から読み取る

積分の問題を紙に書いて読み取らせ、解かせてみます。

​この添付ファイルの問題を解いてください。

アップロードした画像ファイル
​GPT-4oの出力
Claude 3.5 Sonnetの出力

両者正解で引き分けです!
両者とも積分定数Cを忘れていない点も好感が持てます。

マイクロソフトの意地悪?問題

一昔話題になった、考える力を試す問題で、単純な三角形の面積を求める問題と見せかけて実は、「そのような三角形は存在しない」が答えの問題です。

​この添付ファイルの三角形の面積を求めてください。

アップロードした画像ファイル

​GPT-4oの出力
Claude 3.5 Sonnetの出力

GPT-4oがなぜか英語で回答してきましたが、両者とも普通に面積を求めてしまっていて不正解のため、引き分けです!

テレビで話題になった算数の問題

こちらも一昔前に話題になった、算数の問題です。単純に連立方程式で解けますが、なんとなく直感に反する答えになるためか?当時芸能人の方が間違えて話題になっていました。

​ノートと鉛筆の合計金額は100円です。鉛筆はノートより40円安いです。鉛筆の値段はいくらでしょう?

​GPT-4oの出力
Claude 3.5 Sonnetの出力

ちょっと問題が悪かったかな・・・簡単すぎましたね。両者正解で引き分けです。

HTMLコーディング

Artifactsの本領発揮なるか?!同じテーマで画面設計、HTMLコーディングしてもらい、どちらがイケてる画面を設計するか勝負します。

​「日本製品をベトナムで販売するECサイト」のトップページの画面をデザインし、HTML/CSSを書いてください。
ただし、以下の条件に従ってください。

#条件
・HTML/CSSは同一のファイルに記載すること
・20〜30代のベトナム人女性をターゲットとし、そのターゲットがなるべく商品をたくさん買ってくれるように、以下を考えて作ってください。
 +サイト名、タイトル
 +ロゴ
 +全体的なデザインテイスト
 +フォント、フォントサイズ
 +コンテンツの配置、特にファーストビューに何を表示するかは熟慮して決めること
・コンテンツは、ランキング、新着、カテゴリ一覧、レビューなど、一般的なECサイトのトップページを参考にして設計してください。
・わかりやすいように、ダミーデータを十分に表示してください。商品の名前、価格、画像、カテゴリを表示してください。

​GPT-4oの出力
Claude 3.5 Sonnetの出力

これは圧倒的にClaude 3.5 Sonnetの勝利でしょう!

GPT-4oのデザインは素っ気なっ過ぎますが、Claude 3.5 Sonnetの方はターゲットに合うようにフォントやカラーバランスを考えてくれています。何より、「ベトナム人向け」サイトのため、ベトナム語で表記できています。

データ分析

こちらの総務省の統計データの中から適当に2箇所スクリーンショットを撮ってアップロードし、それを分析させます。

​アップロードした画像に含まれるグラフや表を読み取り、事実の要約と、そこから読み取れるインサイトを、あわせて1000文字程度でまとめてください。

アップロードした画像ファイル1
アップロードした画像ファイル2
​GPT-4oの出力(前半)
​GPT-4oの出力(後半)
Claude 3.5 Sonnetの出力(前半)
Claude 3.5 Sonnetの出力

評価が難しいですが、Claude 3.5 Sonnetの勝利と判断します!

与えられたデータに対する事実確認はあまり両者の差は見られませんが、インサイト分析に関してはClaude 3.5 Sonnetのほうがコロナなどの時代背景を考慮して分析できていると感じました。

一方で、GPT-4oのインサイト分析は、事実確認とあまり変わらない記述のため、Claude 3.5 Sonnetの勝利としました。

正解のない質問をする

論理的に唯一解を出せないような質問をし、完全に私の感覚でどちらが納得感のある回答かを判断します。

​とても疲れたサラリーマンに、やる気が湧いてくるメッセージを送ってください。

​GPT-4oの出力
Claude 3.5 Sonnetの出力

これはもう、正解のない質問をしている時点で評価が難しくなることが決定しているのですが、両方とも優しさに満ち溢れているため、引き分けとしたいと思います!

短編小説を書く

LLMの性能評価の指標として私の中では恒例化してきましたが、どちらが面白い短編小説を書けるかか勝負します。本勝負は出力が長いためスクリーンショットではなく、テキストをそのまま貼り付けました。

​1000文字でミステリー短編小説を書いてください。伏線と、読者が驚くような結末も含めてください。

GPT-4oの出力

雨が静かに降りしきる夜、古びた洋館に探偵の佐藤が招かれた。依頼人は裕福な未亡人、山本エリカだった。彼女の夫が不可解な死を遂げたのだ。現場は密室、外部からの侵入の痕跡もなく、彼はまるで自然死のように見えた。しかし、エリカは何かおかしいと感じていた。

洋館に到着すると、佐藤はまず使用人たちに話を聞いた。メイドの田中は、夫婦の間に特に大きな争いはなかったと証言したが、庭師の木村は数日前、夫が誰かと激しい口論をしているのを聞いたという。その相手は、エリカの兄である田中正彦だった。

佐藤は次に現場を調べた。夫の部屋にはいくつかの奇妙な点があった。例えば、床に落ちていたガラスの破片と、小さな薬瓶。彼はこれが重要な手がかりになると考えた。

エリカの兄、正彦に話を聞くと、彼は兄妹の仲は良好であり、特に問題はなかったと主張した。しかし、佐藤はその言葉に疑念を抱いた。兄の目には、何か隠しているような緊張が見て取れたからだ。

次の日、佐藤は密かにエリカの過去を調査し始めた。そして驚くべき事実を発見した。エリカはかつて薬学を学んでおり、毒物に関する知識が豊富だった。さらに、夫の保険金は彼の死によって莫大な額がエリカに支払われることになっていた。

佐藤は全ての証拠をまとめ、エリカに問いただした。彼女は最初は頑なに否定したが、最終的には全てを認めた。彼女は夫に毒を盛り、その死を自然に見せかけたのだった。しかし、彼女の動機は単なる金銭的なものではなかった。エリカは夫の愛人関係に耐えかねており、彼の裏切りが引き金となっていたのだ。

だが、ここで驚くべき真実が明かされた。実はエリカの兄、正彦もこの計画に関与していたのだ。彼はエリカの計画を知りつつも、彼女を守るために協力した。そして、毒の瓶を部屋に残すことで、彼女が自らの罪を告白するよう仕向けたのだ。正彦はこうすることで、エリカが犯した罪を彼女自身の口から明かさせることを狙った。

最終的に、エリカは逮捕され、正彦はその事実を淡々と受け入れた。佐藤は兄妹の複雑な感情に思いを馳せながら、雨の夜に帰路についた。雨は止むことなく、まるで彼らの罪を洗い流すかのように降り続けていた。

Claude 3.5 Sonnetの出力

影の中の真実
雨が激しく降る夜、探偵の佐藤は古びた洋館に足を踏み入れた。依頼主の山田家当主から、家宝の「月光のダイヤ」が盗まれたという連絡を受けてのことだった。
館内は静まり返っていた。佐藤は慎重に歩を進め、ダイヤが保管されていた書斎へと向かう。そこで彼は、山田家の面々に出会った。長男の一郎、次男の二郎、そして令嬢の花子。皆が不安げな表情を浮かべていた。
「どなたか、怪しい人物を見かけませんでしたか?」佐藤が尋ねると、三人は首を横に振った。しかし、花子の目が一瞬、揺らいだように見えた。
佐藤は書斎を丹念に調べ始めた。壁にかかった家系図に目をやると、そこに見覚えのない名前があった。「三郎」。しかし、誰も三男の存在について触れていない。
夜が更けるにつれ、謎は深まるばかり。佐藤は館内を歩き回り、手がかりを探した。そして、使用人の部屋で意外な発見をする。床下から、ダイヤを包んでいた布きれが見つかったのだ。
翌朝、佐藤は家族全員を集めた。「犯人は、この中にいます」と彼は言い放った。一同の表情が凍りついた瞬間、花子が泣き崩れた。
「私が...私がやったの」彼女は震える声で告白した。「でも、それは弟のためだったの」
驚きの声が上がる中、佐藤は説明を始めた。「花子さんには、隠された弟がいた。三郎さんです。彼は重い病気を患っており、高額な治療費が必要だった。花子さんは、弟を救うためにダイヤを売ろうとしたのです」
一同が絶句する中、佐藤は続けた。「しかし、ダイヤは既に売却されていました。本当の犯人は...」
そう言って佐藤が指さした先には、愕然とする山田家当主の姿があった。「あなたは借金を返済するために、既にダイヤを密かに売却していたのですね」
部屋は静寂に包まれた。雨は上がり、朝日が差し込み始めていた。真実の光が、長年の闇を照らし出したかのように。


これも非常に評価が難しいですが、GPT-4oの勝利としたいと思います!

まず、「探偵の佐藤」という設定がかぶるという謎の現象が起きたわけですが、他の共通点としてこの「探偵の佐藤」、全く仕事してない笑 そして両者共若干の論理の破綻があります。特に推理的なものがないため、ミステリーというにも、小説というにも、ちょっと厳しいものでした。ただ、1000文字程度という制約があるので、まあ仕方ないかなと思います。

あえて言うのであれば、GPT-4oの小説のほうが「探偵の佐藤」が「推理」はしていないものの「調査」はしているため、ギリギリ「ミステリー小説」の体裁を保っていると評価しました。

歴史的事件の新しい解釈

歴史的事実と、事実として判明していないことを踏まえて、そこに新しい解釈を加えるという高度過ぎる依頼をしてみます。

​有名な歴史的事件「本能寺の変」を新しい視点から解釈してください。

GPT-4oの出力

「本能寺の変」(ほんのうじのへん)は、1582年6月21日に織田信長が家臣の明智光秀により本能寺で襲撃され、自害に追い込まれた事件です。この事件は日本の戦国時代を大きく揺るがし、後の歴史に多大な影響を与えました。従来の解釈では、明智光秀の動機については様々な説がありますが、新しい視点からの解釈として以下の点を考えてみましょう。

1. 政治的動機よりも個人的動機
従来の説では、光秀の動機は信長との権力争いや不満からくるものとされています。しかし、新しい視点では、光秀の行動が個人的な恨みや信長への個人的な不信感に基づいている可能性を考えてみます。例えば、光秀が信長からの過度な圧力や屈辱的な扱いを受け続けていたため、個人的な復讐心から行動に出たとする解釈です。

2. 地理的・戦略的な観点からの再評価
本能寺の位置や光秀が襲撃を決行したタイミングを新たな視点から分析します。例えば、信長が京都にいる時期を狙った理由として、光秀が他の有力大名との同盟を模索していた可能性を考えることができます。この視点では、光秀が事前に他の大名と連携していた可能性を探り、彼の行動が単なる反乱ではなく、広範な政治戦略の一環であったと解釈します。

3. 心理学的アプローチ
光秀の精神状態や心理的背景を重視した解釈です。光秀が信長に対する恐怖やプレッシャーの中で精神的に追い詰められていたと仮定します。心理学的な視点からは、光秀の行動が突発的な感情の爆発や心理的な限界を超えた結果として生じた可能性を検討します。

4. 外部勢力の影響
光秀の背後に外部勢力が関与していた可能性を再評価します。例えば、信長の急激な勢力拡大に危機感を抱いた他の大名や外国勢力が、光秀を裏から支援していた可能性を考えます。この視点では、本能寺の変が単なる内紛ではなく、当時の国際情勢や他国との関係にも影響を及ぼす事件であったと解釈します。

5. 現代のリーダーシップ理論からの視点
信長のリーダーシップスタイルと光秀の反乱の関係を、現代のリーダーシップ理論から分析します。信長の独裁的なリーダーシップが光秀を含む部下たちに与えた影響を考察し、信長のリーダーシップの欠点や限界が反乱を引き起こした要因として考えられるかを検討します。

以上のような新しい視点から、本能寺の変を再解釈することで、歴史的な事件に対する理解がさらに深まると考えられます。

Claude 3.5 Sonnetの出力

​「本能寺の変」を新しい視点から解釈するというのは興味深い課題ですね。ここでは、従来とは少し異なる角度から考察してみましょう。

経済的視点:
織田信長の急速な統一事業は、当時の経済構造に大きな変化をもたらしていました。新しい流通システムや楽市楽座政策は、既存の商人や寺社勢力の利益を脅かしていた可能性があります。本能寺の変は、こうした経済的な利害関係者たちによる、変革への抵抗だったという見方もできるかもしれません。

文化的衝突:
信長は西洋文化に強い関心を示し、キリスト教の布教も許可していました。これは日本の伝統的な文化や宗教観と衝突していたかもしれません。本能寺の変は、急速な西洋化への反動として解釈することも可能です。

環境史的視点:
信長の軍事行動や大規模な建設事業は、当時の自然環境に大きな影響を与えていたかもしれません。森林伐採や鉱山開発などによる環境変化が、間接的に社会不安を引き起こし、反乱の遠因となった可能性も考えられます。

ジェンダー的視点:
戦国時代は女性が活躍した時代でもありました。信長の政策が女性の社会的地位にどのような影響を与えていたのか、また本能寺の変にどのように女性が関わっていたのかを探ることで、新たな解釈が生まれるかもしれません。

心理学的アプローチ:
信長のカリスマ性と、時に残虐とも言える行動は、彼の周囲にどのような心理的影響を与えていたでしょうか。部下たちの忠誠心と恐怖心のバランスが崩れた結果が、本能寺の変だったという解釈も可能かもしれません。

これらの視点は、従来の政治的・軍事的な解釈に新たな層を加える可能性があります。ただし、これらはあくまで仮説的な解釈であり、歴史的事実との整合性については、さらなる研究と検証が必要です。
この解釈について、あなたはどのようにお考えですか?特に興味深いと感じた視点はありますか?

これもGPT-4oの勝利としたいと思います!

GPT-4oのほうがきちんと時代背景や信長と光秀の関係性などを考慮したうえで説を提示できていると感じました。Claude 3.5 Sonnetの方は正直、何を言っているのかよくわかりません。

日本の伝統芸能、大喜利

最後に、こちらも私の中で恒例化していますが、日本の伝統芸能大喜利でどちらが面白い回答をしてくるか対決します。

日本の伝統芸能、大喜利をやりましょう。面白い回答を5個出してください。「こんなAIは嫌だ。どんなAI?」

​GPT-4oの出力
Claude 3.5 Sonnetの出力

Claude 3.5 Sonnetの勝利としたいと思います!

Claude 3.5 Sonnetはちゃんと大喜利として成り立っていると思います。一部よくわかりませんが、1とかは皮肉が効いてなかなかいいと思います。

GPT-4oは全くおもしろくない涙

​GPT-4o と Claude 3.5 Sonnet の比較総評

ということで10番勝負の結果は・・・

GPT-4oが3勝、Claude 3.5 Sonnetも3勝、4つの引き分けで、完全に互角の結果となりました!狙ってないですよ!たまたまですよ!

当然結果は選択する評価の内容や方法に大きく依存しますので、あくまでも本記事では互角だったという理解でいただければと思います。

Claudeは人間が書いたような文章を作成する能力が非常に優れていると私は感じていたので、今回も小説やメッセージではClaudeが勝つと予想していましたが、小説は以外にも?GPT-4oの勝利だったのが印象的でした。

いずれにしても非常に高レベルな勝負で、言語モデルの進化をすごく実感できました。ChatGPTがリリースされた当初は単純な足し算も間違えていましたが、今や積分も解けるようになっており、この進化を支えるエンジニアの方々には本当に頭が下がる思いです。

最後に

最後までお読みいただき、ありがとうございます!

​弊社では、LLM(大規模言語モデル)やアーキテクチャの選定、技術検証、生成AIを使用したプロトタイピングやシステム開発、お客様社内での啓蒙活動等を対応させていただく「生成AIコンサルティング」サービスを提供しています。

また、業務利用できるChatGPTのような仕組みである「セキュアGAI」や、生成AIとOCRを組み合わせた「AI文書読み取りサービス」といったAIソリューションも提供しています。

この記事は私が経営する株式会社スクーティーのコーポレートブログの下記記事を焼き直したものです。


この記事が気に入ったらサポートをしてみませんか?