ChatGPT vs Gemini vs Claude　長文の日本語要約で対決！

2024年3月17日 17:17

「生成AIの法律実務と弁護士業務の未来」研修の開催

愛知県弁護士会の弁護士業務改革委員会リーガルテック部会で、「生成AIの法律実務と弁護士業務の未来」と題した研修会を開催しました。
講師には桃尾・松尾・難波法律事務所の松尾剛行先生をお迎えし、生成AIとは何かという点から、弁護士業務への影響等について、大変興味深いお話を伺うことができました。

このような研修を開催すると、愛知県弁護士会の会報に研修報告の記事を掲載することになりますが、今回は「生成AI」の研修ですので、生成AIで作ってみよう！ということになりました。
もちろん、講師の許可を得て行っています。

生成AIに課すタスク

会報記事の案の作り方として、研修のスライドデータや研修の録音の文字起こしデータを生成AIに要約してもらうことにしました。

研修スライドは75枚
文字起こしは約51,700文字
しかも内容には法律用語が含まれています。

これを1400文字くらいに要約する必要があります。

なかなかの分量です。さて、どうなったのでしょうか？

ChatGPTで挑戦

まずは生成AIの代表格であるChatGPTでチャレンジしました。

ChatGPTに文字起こしデータとスライドをアップロードし、要約を依頼してみましたが、プロンプトを工夫しても、出力される要約は極端に短く、研修の具体的な内容が全くわかりませんでした。
要約されすぎていて、叩き台にもなりません。

アップロードするファイルの文字数が多すぎるのが原因だろうと考え、時間をかけてファイルを分割しました。
これでうまくいってほしいという気持ちで、分割したファイルをアップロードして試しました。

が、残念ながら、同様の結果でした。要約されすぎていて、叩き台にもなりません。

ClassicモードでChatGPTにコンテンツを直接入力して要約を求めても、状況は改善されませんでした。

さらに、研修で触れられていない内容が書かれる「ハルシネーション」の問題も発生しました。

この時点で、ChatGPTでは要約記事の作成は一旦諦めました。

Geminiで挑戦

そこで他のAIにも挑戦してみました。
まずはGeminiですが、こちらも箇条書き形式の要約しか出力されず、ハルシネーションの問題も残っていました。
（意外と言っては失礼かもしれませんが、）意外だったのは、ChatGPTよりも長い要約を出力してくれたという点です。
この点はGeminiの方が良かったです。

しかし、基本的に箇条書きで出力されているので、研修の報告記事としてそのままでは使えません。
そこで、文章形式で出力を依頼すると、文章形式で出力してくれました。
箇条書きで出力される点は結果としてクリアできました。

ハルシネーションの問題はありましたが、ChatGPTで作成したものよりは、叩き台としての価値があるように感じました。

が、まだまだ文章量が足りませんし、叩き台にするにしても十分ではありません。

Claudeで挑戦

最後にClaudeで挑戦しました。
ちょうどClaude3にアップデートされたタイミングでした。離席して戻ってきたら画面が変わっていたので驚きました。
使用したのは、中間のモデルのSonnetです。

研修スライドをすべてアップロードしましたが、問題なく認識してくれました。
参考文例として与えた文章（私が過去に執筆した別の研修の報告記事）の文体を踏まえて、800文字弱の報告記事の案を出力してくれました。

明らかなハルシネーションはなし。
項目立ても、正確。
叩き台として十分に使える内容でした。
正直驚きました。

ChatGPTに再チャレンジ

Claudeの結果を踏まえ、ChatGPTにも研修スライドを読み込ませて再チャレンジしてみました。プロンプトを細かく調整したところ、前回よりは文章量が多く、ある程度の叩き台としての価値はありました。

しかし、講師が強調していた「AIは能力拡張の用途ではなく、支援ツールとして位置付けるべき」というメッセージを、ChatGPTは逆に能力拡張として捉えるなど、重要なポイントを誤認識していました。
一方でClaudeは正確に理解していました。

結果　Claudeの圧勝

今回のタスクとの関係では、次の結果となりました（私の主観です）。

認識できる文字数
Claude3(Sonnet)　＞　ChatGPT(GPT-4)、Gemini(Pro1.0)
＊ChatGPT(GPT-4)、Geminiに有意な差はなし

アップロードしたファイルの理解の正確性
Claude3(Sonnet)　＞　ChatGPT(GPT-4)、Gemini(Pro1.0)
＊ChatGPT(GPT-4)、Geminiに有意な差はなし

叩き台としての価値
Claude3(Sonnet)　＞　ChatGPT(GPT-4)、Gemini(Pro1.0)
内容の正確性、出力される文章の量や日本語の自然さ、どの点をとってもClaude3(Sonnet)の勝利でした。
＊最終的には、ChatGPT(GPT-4)、Geminiに有意な差はなしですが、参考文例を与えていたにもかかわらず無視して非常に短い要約を出力する、参考文例自体を再度要約することを繰り返していたChatGPT(GPT-4)には若干不満が残りました。この点においてもClaude3(Sonnet)は同じプロンプトでも、私の意図を正しく汲み取って動いてくれたので、余計に差を感じました。

ということで、Claude3(Sonnet)の圧勝でした。
面倒なファイル分割することなくそのままアップロードして、要約してと依頼したら、十分叩き台として使えるものが出てきたためです。
最初からClaude3(Sonnet)でチャレンジしていたら、文字通り時短になりました。
しかも今回は中間モデルのSonnetでの結果なので、最上位モデルのOpusへの期待は大きくなりました。

まとめ

相当な量の日本語データを読み取り、要約するという今回の研修報告記事作成のタスクとの関係では、Claude3(Sonnet)の勝利でした。

しかし、おそらくどの生成AIが最も良い働きをしてくれるかは、タスクによって異なるのでしょう。
その意味では、同じプロンプトを複数の生成AIに入力してみて、その結果を見比べるという使い方も現状は有効なものだと考えられます。

様々な方が性能比較をしてくれており、私も参考にさせていただいていますが、皆さんもご自身で複数の生成AIを触ってみると自分なりに生の感触を掴むことができて面白いと思います。

＊このnoteは生成AIの支援を受けて作成しました。

この記事が気に入ったらサポートをしてみませんか？