見出し画像

小説執筆に特化するLLMベンチマークを9パターン考えてみた

こんにちは、連続睡眠不足のKey君です。最近、新しいLLM(大規模言語モデル)が登場するたびに、「性能が何%上昇した!」という図をよく目にします。でも、私たち小説家やシナリオライターにとって、そういった数値って本当に意味があるのでしょうか?
正直、数学の推論能力やプログラミングスキルよりも、小説を書く上でどれだけ役立つのか知りたいんですよね。そこで、ふと思いついたんです。「自分なりのベンチマークを作ってみたらどうだろう?」って。


ベンチマークの目的

さて、ここで問題になるのが、LLMを小説に使うとその正当な評価って本当に難しいということ。なぜかというと:

  1. 評価が属人的・主観的

  2. 正解がない

  3. 複数実行すると結果が変化

うーん、だからこそ、このベンチマークは「小説執筆に強いLLM」より、「あなたにとって素敵なアシスタントを選ぶ」のほうがイメージがわきやすいですかね?

ベンチマークの構成

構築段階

  1. アイデア出し

    • 評価項目: テーマ、ジャンル、キーワードなどから多様なアイデアを生成できるか。

    • 評価方法:

      • 同じ入力に対して複数のアイデア(10個以上)を生成させる。

      • 評価者が各アイデアの独創性、魅力、実現可能性を5段階で評価する。

    • 評価指標:

      • 独創性:既存作品との差別化、目新しさ

      • 魅力:読者の興味を引く要素、意外性

      • 実現可能性:物語として成立させやすい設定、展開

  2. キャラクター発想

    • 評価項目: 設定(年齢、性別、職業など)やキーワードから魅力的で個性的なキャラクターを生成できるか。

    • 評価方法:

      • 同じ設定で複数のキャラクター(5人以上)を生成させる。

      • 評価者が各キャラクターの個性、魅力、深み、物語への貢献度を5段階で評価する。

    • 評価指標:

      • 個性:他のキャラクターとの差別化、記憶に残る特徴

      • 魅力:読者の共感や興味を引く要素

      • 深み:背景、価値観、葛藤などが明確に表現されているか

      • 物語への貢献度:プロットを動かす役割、他のキャラクターとの関係性

  3. 三幕構成でプロット構築

    • 評価項目: 設定やキャラクターに基づき、起承転結が明確で、かつ意外性や面白みのあるプロットを構築できるか。

    • 評価方法:

      • 同じ設定とキャラクターで複数のプロット(3つ以上)を生成させる。

      • 評価者が各プロットの構成の適切さ、各幕の役割の明確さ、山場や転換点の配置、意外性、面白さを5段階で評価する。

    • 評価指標:

      • 構成の適切さ:起承転結が自然で、物語の流れがスムーズか

      • 各幕の役割の明確さ:各幕が物語全体の中で果たす役割が明確か

      • 山場や転換点の配置:物語の緊張感を高め、読者の興味を引き続ける工夫があるか

      • 意外性:予想外の展開やどんでん返しがあるか

      • 面白さ:読者を楽しませ、感情を揺さぶる要素があるか

執筆段階

  1. 本文執筆

    • 評価項目: プロットに沿って、自然な文章で描写や心情表現を豊かに表現できるか。

    • 評価方法:

      • 同じプロットで複数の文章(3つ以上)を生成させる。

      • 評価者が各文章の表現力、文体の一貫性、読者の感情移入度、プロットとの整合性を5段階で評価する。

    • 評価指標:

      • 表現力:比喩や擬人法などの修辞技法、五感を刺激する描写

      • 文体の一貫性:作品全体を通して文体が統一されているか

      • 読者の感情移入度:登場人物の心情や状況に共感できるか

      • プロットとの整合性:プロットに沿った描写や展開になっているか

  2. セリフ微調整

    • 評価項目: キャラクターの性格や状況に合わせた自然で魅力的なセリフを提案できるか。

    • 評価方法:

      • 同じ状況で複数のセリフ案(5つ以上)を生成させる。

      • 評価者が各セリフ案の適切性、個性、面白み、キャラクターとの整合性を5段階で評価する。

    • 評価指標:

      • 適切性:状況や会話の流れに合っているか

      • 個性:キャラクターの特徴や口調が反映されているか

      • 面白さ:ユーモア、皮肉、ウィットなどがあるか

      • キャラクターとの整合性:キャラクターが言いそうなセリフか

  3. 展開提案

    • 評価項目: 執筆に行き詰まった際に、プロットやキャラクター設定に沿った複数の展開案を提案できるか。

    • 評価方法:

      • 行き詰まりポイントを複数設定し、それぞれに対して複数の展開案(3つ以上)を生成させる。

      • 評価者が各展開案の妥当性、意外性、物語の面白さを向上させる可能性、プロットやキャラクターとの整合性を5段階で評価する。

    • 評価指標:

      • 妥当性:プロットやキャラクター設定から逸脱していないか

      • 意外性:読者の予想を裏切る展開か

      • 物語の面白さを向上させる可能性:物語に新たな視点や深みを与えるか

      • プロットやキャラクターとの整合性:既存の要素と矛盾なく繋がるか

改稿段階

  1. 感想

    • 評価項目: 作品全体に対する感想を、具体的に、かつ建設的に述べることができるか。

    • 評価方法:

      • 作品全体に対して感想を生成させる。

      • 評価者が感想の具体性、建設性、分析力、改善点の提案を5段階で評価する。

    • 評価指標:

      • 具体性:作品の良い点、悪い点を具体的に指摘しているか

      • 建設性:改善点や修正案を提案しているか

      • 分析力:作品の長所・短所を分析し、その理由を説明しているか

      • 改善点の提案:具体的な修正案や改善策を提示しているか

  2. テーマの抽出

    • 評価項目: 作品に潜在するテーマを的確に抽出できるか。

    • 評価方法:

      • 作品から複数のテーマ(3つ以上)を抽出させる。

      • 評価者が各テーマの妥当性、深み、作品全体との関連性を5段階で評価する。

    • 評価指標:

      • 妥当性:作品の内容と合致しているか

      • 深み:表面的なテーマだけでなく、より深いテーマを抽出できているか

      • 作品全体との関連性:テーマが作品全体に一貫して表現されているか

  3. キャラクターの一貫性を確認

    • 評価項目: 作品全体を通して、キャラクターの言動や心情が一貫しているかを分析できるか。

    • 評価方法:

      • 各キャラクターについて、一貫性に関する分析結果を生成させる。

      • 評価者が分析結果の正確性、詳細さ、改善点の提案を5段階で評価する。

    • 評価指標:

      • 正確性:キャラクターの言動や心情の矛盾点を正確に指摘できているか

      • 詳細さ:各シーンにおけるキャラクターの言動や心情を細かく分析できているか

      • 改善点の提案:一貫性を保つための具体的な修正案を提示できているか

全般的な評価

  1. 出力文字数

  2. 出力速度

  3. プロンプトの理解度合

ベンチマークデータ

基本的に自分の執筆中のプロットや本文を想定しています。

終わりに

今回は小説家向けAIのベンチマークの初版を考えてみました。正直、これを実際にやってみるのはかなり大変そうです。
これからこのベンチマークを実際に試してみて、結果をシェアしていきたいと思います。AIと人間の共創で、もっと面白い物語が生まれることを願って。

#小説
#AIライティング
#創作
#ベンチマーク
#生成AI
#AIとやってみた
#Claude
#ChatGPT
#Gemini
#プロンプト
#プロンプトエンジニアリング
#AI創作

この記事が参加している募集

この記事が気に入ったらサポートをしてみませんか?