見出し画像

GPT-4o、Gemini1.5 Pro、Claude3 Opusのどれを小説執筆に使うべきか?

今回は、マガジン「かもめAI小説塾」の収録記事です。AI執筆のテクニックを基本的に無料でオープンにしていく取り組みをしておりますので、ご興味があれば他の記事もご覧ください。気が向いたらメンバーシップにてご支援いただけると、大変うれしいです。


この一週間は、今月発表されたGPT-4o、その次の日にアップデートされたGemini1.5 Pro、3月に発表されて人気のClaude3 Opusをそれぞれ使って短編小説を生成させてみる検証をしていました。

本記事では、現時点での検証結果をまとめておきます。

料金・機能比較

参考までに各モデルの主要な比較を載せておきます。全て2024年5月18日現在の情報です。どうせこの記事も、すぐに古文書になります。より正確な情報は、各サービスの公式情報を参照してください。

ブラウザ版アプリ

ChatGPT

  • ChatGPT Plus: 20ドル/月(約3,113円/月)

  • 有料ユーザーの場合、3時間に最大80メッセージ利用可能。利用状況によって制限されることがあります。

  • 無料でもGPT-4oを利用可能。有料ユーザーよりも利用可能なメッセージ数は少なくなります。

  • (参考:https://help.openai.com/en/articles/7102672-how-can-i-access-gpt-4-gpt-4-turbo-and-gpt-4o

  • 画像生成もできます。

  • 画像、文書ファイルを入力できます。

https://chatgpt.com/

Gemini1.5 Pro

  • Gemini Advanced: 2900円/月(最初の2ヶ月間無料)

  • 使用量に上限がありますが、具体的な数は明言されていません。

  • Google One AI Premium プランの一環として提供されているため、GmailとかGogle driveのストレージが2 TBに増えるのも地味にうれしい。

  • 無料版あり。ただしスペックの低いGemini1.0 Proしか使えない。

  • 画像生成機能は一時的に停止されています。(https://www.itmedia.co.jp/news/articles/2402/23/news056.html

  • 画像、文書ファイルを入力できます。

Claude3 Opus

  • Claude Pro: 20ドル/月(約3,113円/月)

  • 有料版は、無料ユーザーよりも使用可能な量が5倍多い。(https://support.anthropic.com/en/articles/8324991-about-claude-pro-usage

  • 無料版あり。ただしスペックの低いClaude3 sonnetしか使えない。

  • 画像生成機能は2024年5月18日現在、実装されていません。

  • 画像、文書ファイルを入力できます。

API

GPT-4o
input: $5.00 / 1M tokens
output: $15.00 / 1M tokens

https://openai.com/api/pricing/

Gemini1.5 Pro
・128,000 トークンまで
input: $3.50 / 1M tokens
output: $10.50 / 1M tokens

・128,000トークン以上
input: $7.00 / 1M tokens
output: $21.00 / 1M tokens

Claude3 Opus
input: $15 / 1M tokens
output: $75 / 1M tokens

どれが小説執筆に向いているか?

結論からいうと、どれも使えないということはなさそうです。むしろそれぞれに特徴があるので、目的に応じて使い分けるとよいのではないかと感じました。

3つのモデルの特徴をざっくりまとめると、以下のようになりそうです。

  • UXのGPT-4o

  • ストーリーのGemini1.5 Pro

  • ユーモアのClaude3 Opus

UXのGPT-4o

GPT-4oは、他と比較しても、価格はブラウザ版ではあまり変わらず、APIもGemini1.5 Proの方が安いです。今のところ、ストーリー性やユーモア性などとがった性能は見当たりません。

そもそもリリース時のイベントで紹介されたように、GPT-4oはリアルタイムに自然に対話するためのモデルという位置付けでしょう。返答の声も自然ですし、その場の映像を入力して何が何をしているのかを回答できます。

つまりOpenAIはGPT-4oによってUX(ユーザー体験)を向上させることを目指しています。

こうした特徴は、小説執筆にも活用できるはずです。例えば、アイディアを壁打ちする際には会話するように相談できますし、ホワイトボードに雑に書いた構想をベースに議論できます。

少なくとも、相談相手の体調が悪かったり集中力が切れたりして適当な答えが返ってくることはありませんし、相手と意見が異なってケンカになってしまうこともありません。

タイピングが苦手な人にとっても朗報でしょう。事故で下半身不随になってしまった人でも、会話さえできれば操作可能です。皿洗いをしている時でも、ゲームをしている時でも、口頭で指示をするだけで動いてくれるのは便利ですね。

あるいは小説という表現形式に囚われず、ドローンやロボットに搭載して、カメラに映った光景をリアルタイムで物語にするという吟遊詩人ボットを作ることもできそうです。ドローンは資格とかが難しそうなので、まずはスタックチャンみたいな小型で多機能なロボットを使うと良さそうだなと思っています。やってみたいなと思っていますが、実際にやるとは言っていません。

落語は高座に上がってから少し雑談をしてその日その時のお客さんの空気を読むことによって、どんな噺をするかを決めるといいますが、それと同じことがGPT-4oにできるかもしれません。GPT-4o同士の漫才もできそうですし、GPT-4oを相方にして漫才する人も出てくるでしょう。

夢の国のおしゃべりな亀みたいなこともできそう。AITuber同士のコラボもやりやすくなりそうですね。

プラモデルでブンドドしたり、お人形でごっこ遊びしている様子を撮影して、その場で物語にすることもできるでしょう。チャンバラごっこも、かっこいい時代劇や壮大なファンタジーになるかもしれません。そういった自由な使い方は子供の方が大得意でしょうから、新しい表現が生まれてくることに期待したいですね。

ストーリーのGemini1.5 Pro

大規模言語モデルには、コンテキスト・ウインドウ(コンテキスト長)というパラメータがあります。コンテキスト・ウインドウとは、大規模言語モデルが文章を生成する際に参照できるテキストの量です。

つまり、このコンテキスト・ウインドウから換算した文章量を文脈として把握して文章を生成できる、と考えることができます。しかし実際にやってみると、もっと短い文章量で文脈が破綻します。その点については、また別の機会に検証する予定です。

単位はトークンで表されます。日本語の場合、1トークン約1文字程度と考えるとよいです。最近は改善されてきているので、1トークン約3文字くらいになっているかもしれません。

コンテキスト・ウインドウを比較すると、以下のようになります。

  • GPT-4o / GPT-4: 12万8000トークン

  • Gemini1.5 Pro: 200万トークン

  • Claude3 Opus: 20万トークン

このように、どのモデルでも文庫本1冊程度の文章量を文脈として把握することがスペック上は可能です。

その中でも特にGemini1.5 Proは、スペック上は約200万文字を把握できるはずです。実際には短くなるかもしれませんが、文庫本一冊程度なら文脈が破綻しないかもしれないと期待しています。要するに、序盤の伏線を最後に回収できる可能性があるのです。

このコンテキスト・ウインドウの強みが、出力される文章のストーリー面の質の高さにつながっているのでしょう。本文を最初にざっと全部出力するようなケースで活躍してくれそうです。

また把握できる文脈量が多いという意味では、キャラクター性の担保やRAGで与えた情報をうまく組み込むこともやりやすそうです。

RAGとは「Retrieval-Augmented Generation」の略で、検索拡張生成と訳されます。用意した知識データを与えておくことで、その内容に沿った回答をしやすくなるという技術です。

よく生成AIのデメリットとしてハルシネーションによって誤った回答が出力される点が挙げられますが、RAGを使うことでハルシネーションを抑えられます。

コンテキスト・ウインドウが大きければ、あらかじめ設定資料集を作り込んでおき、それをRAGとして渡せば作品にできるかもしれません。作品の設定資料を作るのが好きな人は一定数いるので、そういう作品づくりがしやすくなりそうです。

もちろん日進月歩で技術が発展しているので、Gemini1.5 Pro以外にもコンテキスト・ウインドウが大きい他のモデルもいずれ出てくるでしょう。

ユーモアのClaude3 Opus

Claude3 Opusは、料金と機能を比較するとやや見劣りしてしまいますが、気の利いた言い回しには見過ごせないものがあります。

個別の記事でも書きましたが、「私はペンギンですが、タキシードを着ているからってウェイターと間違えないでくださいよ」とか「ペンギンは、海を泳ぎ、陸を歩く。二つの世界を生きる生き物です」から多様性の話につなげる言い回しは、他のモデルではなかなか出力できません。Gemini1.5 Proでステーキを無理やり食べておどけるとか、川で泳ぐパフォーマンスをするなどがありましたが、ユーモアという点ではClaude3 Opusが一枚上手です。

APIがやや割高なことを考慮すると、例えばGemini1.5 Proで出力した本文中の会話をいい感じの言い回しに直してもらう、みたいな使い方をするといいかもしれません。

ユーモア性に関しては、他のモデルがより高性能になる可能性もなくはないと思います。しかし意図してユーモアのある回答をしやすいように学習させるのは、学習データの準備とアノテーションの観点から難しそうなので、このClaude3 Opusの優位性は比較的長く続くかもしれません。

おわりに

ざっと各モデルの特徴をまとめてみました。長編を執筆する際にどうなるかというのも気になるので、近いうちに検証して追記できればと思います。

こうして各モデルを検証して公表できるのは、今月からフリーランスになったことが大きいですね。それまでは会社の縛りがあったので知っていても公表できないケースがあり、もやもやする部分がありました。

フリーランスになることでお金と人生の不安が増えましたが、自分らしく生きられているなと感じています。お世話になっている方々には感謝しかありません。

原稿執筆などお仕事のご依頼も受け付けておりますので、どうぞお気軽にご相談ください。お問い合わせは以下からお願いします。


この記事が気に入ったらサポートをしてみませんか?