小説執筆に特化するLLMベンチマークを9パターン考えてみた

2024年7月15日 10:40

こんにちは、連続睡眠不足のKey君です。最近、新しいLLM（大規模言語モデル）が登場するたびに、「性能が何%上昇した！」という図をよく目にします。でも、私たち小説家やシナリオライターにとって、そういった数値って本当に意味があるのでしょうか？
正直、数学の推論能力やプログラミングスキルよりも、小説を書く上でどれだけ役立つのか知りたいんですよね。そこで、ふと思いついたんです。「自分なりのベンチマークを作ってみたらどうだろう？」って。

ベンチマークの目的

さて、ここで問題になるのが、LLMを小説に使うとその正当な評価って本当に難しいということ。なぜかというと：

評価が属人的・主観的
正解がない
複数実行すると結果が変化

うーん、だからこそ、このベンチマークは「小説執筆に強いLLM」より、「あなたにとって素敵なアシスタントを選ぶ」のほうがイメージがわきやすいですかね？

ベンチマークの構成

構築段階

アイデア出し
- 評価項目： テーマ、ジャンル、キーワードなどから多様なアイデアを生成できるか。
- 評価方法：
  - 同じ入力に対して複数のアイデア（10個以上）を生成させる。
  - 評価者が各アイデアの独創性、魅力、実現可能性を5段階で評価する。
- 評価指標：
  - 独創性：既存作品との差別化、目新しさ
  - 魅力：読者の興味を引く要素、意外性
  - 実現可能性：物語として成立させやすい設定、展開
キャラクター発想
- 評価項目： 設定（年齢、性別、職業など）やキーワードから魅力的で個性的なキャラクターを生成できるか。
- 評価方法：
  - 同じ設定で複数のキャラクター（5人以上）を生成させる。
  - 評価者が各キャラクターの個性、魅力、深み、物語への貢献度を5段階で評価する。
- 評価指標：
  - 個性：他のキャラクターとの差別化、記憶に残る特徴
  - 魅力：読者の共感や興味を引く要素
  - 深み：背景、価値観、葛藤などが明確に表現されているか
  - 物語への貢献度：プロットを動かす役割、他のキャラクターとの関係性
三幕構成でプロット構築
- 評価項目： 設定やキャラクターに基づき、起承転結が明確で、かつ意外性や面白みのあるプロットを構築できるか。
- 評価方法：
  - 同じ設定とキャラクターで複数のプロット（3つ以上）を生成させる。
  - 評価者が各プロットの構成の適切さ、各幕の役割の明確さ、山場や転換点の配置、意外性、面白さを5段階で評価する。
- 評価指標：
  - 構成の適切さ：起承転結が自然で、物語の流れがスムーズか
  - 各幕の役割の明確さ：各幕が物語全体の中で果たす役割が明確か
  - 山場や転換点の配置：物語の緊張感を高め、読者の興味を引き続ける工夫があるか
  - 意外性：予想外の展開やどんでん返しがあるか
  - 面白さ：読者を楽しませ、感情を揺さぶる要素があるか

執筆段階

本文執筆
- 評価項目： プロットに沿って、自然な文章で描写や心情表現を豊かに表現できるか。
- 評価方法：
  - 同じプロットで複数の文章（3つ以上）を生成させる。
  - 評価者が各文章の表現力、文体の一貫性、読者の感情移入度、プロットとの整合性を5段階で評価する。
- 評価指標：
  - 表現力：比喩や擬人法などの修辞技法、五感を刺激する描写
  - 文体の一貫性：作品全体を通して文体が統一されているか
  - 読者の感情移入度：登場人物の心情や状況に共感できるか
  - プロットとの整合性：プロットに沿った描写や展開になっているか
セリフ微調整
- 評価項目： キャラクターの性格や状況に合わせた自然で魅力的なセリフを提案できるか。
- 評価方法：
  - 同じ状況で複数のセリフ案（5つ以上）を生成させる。
  - 評価者が各セリフ案の適切性、個性、面白み、キャラクターとの整合性を5段階で評価する。
- 評価指標：
  - 適切性：状況や会話の流れに合っているか
  - 個性：キャラクターの特徴や口調が反映されているか
  - 面白さ：ユーモア、皮肉、ウィットなどがあるか
  - キャラクターとの整合性：キャラクターが言いそうなセリフか
展開提案
- 評価項目： 執筆に行き詰まった際に、プロットやキャラクター設定に沿った複数の展開案を提案できるか。
- 評価方法：
  - 行き詰まりポイントを複数設定し、それぞれに対して複数の展開案（3つ以上）を生成させる。
  - 評価者が各展開案の妥当性、意外性、物語の面白さを向上させる可能性、プロットやキャラクターとの整合性を5段階で評価する。
- 評価指標：
  - 妥当性：プロットやキャラクター設定から逸脱していないか
  - 意外性：読者の予想を裏切る展開か
  - 物語の面白さを向上させる可能性：物語に新たな視点や深みを与えるか
  - プロットやキャラクターとの整合性：既存の要素と矛盾なく繋がるか

改稿段階

感想
- 評価項目： 作品全体に対する感想を、具体的に、かつ建設的に述べることができるか。
- 評価方法：
  - 作品全体に対して感想を生成させる。
  - 評価者が感想の具体性、建設性、分析力、改善点の提案を5段階で評価する。
- 評価指標：
  - 具体性：作品の良い点、悪い点を具体的に指摘しているか
  - 建設性：改善点や修正案を提案しているか
  - 分析力：作品の長所・短所を分析し、その理由を説明しているか
  - 改善点の提案：具体的な修正案や改善策を提示しているか
テーマの抽出
- 評価項目： 作品に潜在するテーマを的確に抽出できるか。
- 評価方法：
  - 作品から複数のテーマ（3つ以上）を抽出させる。
  - 評価者が各テーマの妥当性、深み、作品全体との関連性を5段階で評価する。
- 評価指標：
  - 妥当性：作品の内容と合致しているか
  - 深み：表面的なテーマだけでなく、より深いテーマを抽出できているか
  - 作品全体との関連性：テーマが作品全体に一貫して表現されているか
キャラクターの一貫性を確認
- 評価項目： 作品全体を通して、キャラクターの言動や心情が一貫しているかを分析できるか。
- 評価方法：
  - 各キャラクターについて、一貫性に関する分析結果を生成させる。
  - 評価者が分析結果の正確性、詳細さ、改善点の提案を5段階で評価する。
- 評価指標：
  - 正確性：キャラクターの言動や心情の矛盾点を正確に指摘できているか
  - 詳細さ：各シーンにおけるキャラクターの言動や心情を細かく分析できているか
  - 改善点の提案：一貫性を保つための具体的な修正案を提示できているか

全般的な評価

出力文字数
出力速度
プロンプトの理解度合

ベンチマークデータ

基本的に自分の執筆中のプロットや本文を想定しています。

終わりに

今回は小説家向けAIのベンチマークの初版を考えてみました。正直、これを実際にやってみるのはかなり大変そうです。
これからこのベンチマークを実際に試してみて、結果をシェアしていきたいと思います。AIと人間の共創で、もっと面白い物語が生まれることを願って。

#小説
 #AIライティング
 #創作
 #ベンチマーク
 #生成AI
#AIとやってみた
 #Claude
#ChatGPT
#Gemini
#プロンプト
 #プロンプトエンジニアリング
 #AI創作

この記事が参加している募集

#AIとやってみた

29,518件

この記事が気に入ったらサポートをしてみませんか？