![見出し画像](https://assets.st-note.com/production/uploads/images/147325526/rectangle_large_type_2_c56474bcbb43d2c1597bdf0a911c54fb.jpeg?width=1200)
小説執筆に特化するLLMベンチマークを9パターン考えてみた
こんにちは、連続睡眠不足のKey君です。最近、新しいLLM(大規模言語モデル)が登場するたびに、「性能が何%上昇した!」という図をよく目にします。でも、私たち小説家やシナリオライターにとって、そういった数値って本当に意味があるのでしょうか?
正直、数学の推論能力やプログラミングスキルよりも、小説を書く上でどれだけ役立つのか知りたいんですよね。そこで、ふと思いついたんです。「自分なりのベンチマークを作ってみたらどうだろう?」って。
ベンチマークの目的
さて、ここで問題になるのが、LLMを小説に使うとその正当な評価って本当に難しいということ。なぜかというと:
評価が属人的・主観的
正解がない
複数実行すると結果が変化
うーん、だからこそ、このベンチマークは「小説執筆に強いLLM」より、「あなたにとって素敵なアシスタントを選ぶ」のほうがイメージがわきやすいですかね?
ベンチマークの構成
構築段階
アイデア出し
評価項目: テーマ、ジャンル、キーワードなどから多様なアイデアを生成できるか。
評価方法:
同じ入力に対して複数のアイデア(10個以上)を生成させる。
評価者が各アイデアの独創性、魅力、実現可能性を5段階で評価する。
評価指標:
独創性:既存作品との差別化、目新しさ
魅力:読者の興味を引く要素、意外性
実現可能性:物語として成立させやすい設定、展開
キャラクター発想
評価項目: 設定(年齢、性別、職業など)やキーワードから魅力的で個性的なキャラクターを生成できるか。
評価方法:
同じ設定で複数のキャラクター(5人以上)を生成させる。
評価者が各キャラクターの個性、魅力、深み、物語への貢献度を5段階で評価する。
評価指標:
個性:他のキャラクターとの差別化、記憶に残る特徴
魅力:読者の共感や興味を引く要素
深み:背景、価値観、葛藤などが明確に表現されているか
物語への貢献度:プロットを動かす役割、他のキャラクターとの関係性
三幕構成でプロット構築
評価項目: 設定やキャラクターに基づき、起承転結が明確で、かつ意外性や面白みのあるプロットを構築できるか。
評価方法:
同じ設定とキャラクターで複数のプロット(3つ以上)を生成させる。
評価者が各プロットの構成の適切さ、各幕の役割の明確さ、山場や転換点の配置、意外性、面白さを5段階で評価する。
評価指標:
構成の適切さ:起承転結が自然で、物語の流れがスムーズか
各幕の役割の明確さ:各幕が物語全体の中で果たす役割が明確か
山場や転換点の配置:物語の緊張感を高め、読者の興味を引き続ける工夫があるか
意外性:予想外の展開やどんでん返しがあるか
面白さ:読者を楽しませ、感情を揺さぶる要素があるか
執筆段階
本文執筆
評価項目: プロットに沿って、自然な文章で描写や心情表現を豊かに表現できるか。
評価方法:
同じプロットで複数の文章(3つ以上)を生成させる。
評価者が各文章の表現力、文体の一貫性、読者の感情移入度、プロットとの整合性を5段階で評価する。
評価指標:
表現力:比喩や擬人法などの修辞技法、五感を刺激する描写
文体の一貫性:作品全体を通して文体が統一されているか
読者の感情移入度:登場人物の心情や状況に共感できるか
プロットとの整合性:プロットに沿った描写や展開になっているか
セリフ微調整
評価項目: キャラクターの性格や状況に合わせた自然で魅力的なセリフを提案できるか。
評価方法:
同じ状況で複数のセリフ案(5つ以上)を生成させる。
評価者が各セリフ案の適切性、個性、面白み、キャラクターとの整合性を5段階で評価する。
評価指標:
適切性:状況や会話の流れに合っているか
個性:キャラクターの特徴や口調が反映されているか
面白さ:ユーモア、皮肉、ウィットなどがあるか
キャラクターとの整合性:キャラクターが言いそうなセリフか
展開提案
評価項目: 執筆に行き詰まった際に、プロットやキャラクター設定に沿った複数の展開案を提案できるか。
評価方法:
行き詰まりポイントを複数設定し、それぞれに対して複数の展開案(3つ以上)を生成させる。
評価者が各展開案の妥当性、意外性、物語の面白さを向上させる可能性、プロットやキャラクターとの整合性を5段階で評価する。
評価指標:
妥当性:プロットやキャラクター設定から逸脱していないか
意外性:読者の予想を裏切る展開か
物語の面白さを向上させる可能性:物語に新たな視点や深みを与えるか
プロットやキャラクターとの整合性:既存の要素と矛盾なく繋がるか
改稿段階
感想
評価項目: 作品全体に対する感想を、具体的に、かつ建設的に述べることができるか。
評価方法:
作品全体に対して感想を生成させる。
評価者が感想の具体性、建設性、分析力、改善点の提案を5段階で評価する。
評価指標:
具体性:作品の良い点、悪い点を具体的に指摘しているか
建設性:改善点や修正案を提案しているか
分析力:作品の長所・短所を分析し、その理由を説明しているか
改善点の提案:具体的な修正案や改善策を提示しているか
テーマの抽出
評価項目: 作品に潜在するテーマを的確に抽出できるか。
評価方法:
作品から複数のテーマ(3つ以上)を抽出させる。
評価者が各テーマの妥当性、深み、作品全体との関連性を5段階で評価する。
評価指標:
妥当性:作品の内容と合致しているか
深み:表面的なテーマだけでなく、より深いテーマを抽出できているか
作品全体との関連性:テーマが作品全体に一貫して表現されているか
キャラクターの一貫性を確認
評価項目: 作品全体を通して、キャラクターの言動や心情が一貫しているかを分析できるか。
評価方法:
各キャラクターについて、一貫性に関する分析結果を生成させる。
評価者が分析結果の正確性、詳細さ、改善点の提案を5段階で評価する。
評価指標:
正確性:キャラクターの言動や心情の矛盾点を正確に指摘できているか
詳細さ:各シーンにおけるキャラクターの言動や心情を細かく分析できているか
改善点の提案:一貫性を保つための具体的な修正案を提示できているか
全般的な評価
出力文字数
出力速度
プロンプトの理解度合
ベンチマークデータ
基本的に自分の執筆中のプロットや本文を想定しています。
終わりに
今回は小説家向けAIのベンチマークの初版を考えてみました。正直、これを実際にやってみるのはかなり大変そうです。
これからこのベンチマークを実際に試してみて、結果をシェアしていきたいと思います。AIと人間の共創で、もっと面白い物語が生まれることを願って。
#小説
#AIライティング
#創作
#ベンチマーク
#生成AI
#AIとやってみた
#Claude
#ChatGPT
#Gemini
#プロンプト
#プロンプトエンジニアリング
#AI創作
この記事が参加している募集
この記事が気に入ったらサポートをしてみませんか?