自作小説をLLMにレビューさせてみる(ローカル4モデル、サービス型3モデル)
24-4-29: Qwen1.5-110B-Chat-gguf Q4-K-M 追加(結果のみ)
24-4-18: Command-R+ (cohere playground) 追加(結果のみ)
簡単なまとめ
見返したらあまりにも長くて読みづらかったので、Opusの力も借りて、要約を追記しておきます。
【ローカルLLM】
LightChatAssistant-4x7B-f16.gguf: 非常に流暢な日本語で応答するものの、小説の内容理解には限界が見られた。キャッチーな単語に引きずられるなど、ややハルシネーションが見受けられた。ただし、このサイズのモデルとしては驚くべき性能を示している。
c4ai-command-r-v01-Q8_0.gguf: 洗練された文章で、小説のテーマをある程度理解している。登場人物の分析は限定的だが、想像力豊かな解釈を示した。ただし、やや饒舌な傾向があり、時折本題から外れた考察も見られた。
command-r-plus-Q4_K_M: 極めて高い理解力と要約力を示し、作品の伏線や登場人物の理解も的確だった。文章は読みやすく洗練されており、ローカルLLMの中で最も優秀な性能を示した。小説のテーマを深く理解し、適切な批評を行っている。
Karasu-Mixtral-8x22B-v0.1-Q3_K_M: command-r-plus-Q4_K_Mと同等の高い理解力を示した。ファン活動という小説の重要な要素を的確に指摘するなど、優れた分析力が見られた。ただし、日本語の文章はやや不自然で、改善の余地がある。
【サービス型LLM】
Gemini 1.5 Pro: 高品質の出力で、質問の意図を汲み取り、適切に返答しようとする姿勢が見られた。段落に分けて箇条書きで要点をまとめるなど、読みやすいフォーマットで回答を提示した。ただし、若干ハルシネーション気味の部分も見受けられた。
ChatGPT 4: 小説の行間を読み取り、登場人物の心情や作品のテーマを深く洞察している。他のLLMとは異なる切り口で、人間関係や社会との関連性についても言及した。極めて高い理解力と抽象化能力を示したが、一部設定の誤解も見られた。
Claude 3 Opus: 要約、批評、伏線理解のいずれにおいても非常に高いレベルの回答を示した。登場人物の性格や物語の鍵となる出来事を的確に捉えており、シンプルかつ要点を押さえた回答が印象的だった。
結果のみ掲載しているモデル(コメントなし)
ローカル
command-r-plus-Q3_K_L (3bit量子化)
サービス型
command-r-plus (cohere playground)
Claude 3 Sonnet
はじめに
近年、人工知能分野において目覚ましい進歩が見られます。特に、大規模な言語モデル(LLM)は、自然言語処理の性能を大幅に向上させ、私たちの日常生活にも大きな影響を与えつつあります。OpenAIが開発したChatGPTや、Anthropicが提供するClaude、そして、Meta(旧Facebook)のLLaMaなど、各社が競うようにLLMの開発に取り組んでいます。
さらに、ローカル環境で動作可能なLLMも登場し始めています。これにより、インターネット接続なしでも高度な言語処理が行えるようになり、プライバシーやセキュリティの観点からも注目を集めています。
こうしたLLMの性能を評価するために、本記事では、筆者の自作小説をいくつかのLLMにレビューさせてみることにしました。ChatGPTやClaude、そしてローカルで動作するLLMを使って、小説の文章構成、登場人物の描写、物語の展開などについて、それぞれのLLMがどのようなフィードバックを提供してくれるのかを検証します。
LLMの評価を通じて、現在のAI技術の水準を把握するとともに、小説執筆におけるLLMの活用可能性を探ります。また、LLMによるレビューを通じて、自身の小説の改善点を見出し、より洗練された作品づくりにつなげていきたいと考えています。
それでは、LLMたちによる自作小説のレビューをお楽しみください。
(以上はClaude 3 Opusによって書かれた序文です。)
そこまでのことは考えてなくて、なんか面白そうなのでやってみます。筆者はLLMは素人なので、各LLMへのコメントは素人の感想の域を出るものではないことをご了承ください。
LLMへ投げるデータ
前述の通り自作小説を用います。「計算可能な夏」という題名の、AIアシスタントが現実化した近未来を描くSF小説です(過去作を今回の記事にあたり改稿したものです)。空白や改行を除き、約21,000文字になります。
自作小説を選んだ理由は、ひとつは既存の小説ではLLMが学習済みの可能性があるため(この小説も改稿前の作品が学習されている可能性はありますがきわめて薄いでしょう)、もうひとつは他の方の作品を使うのは憚られるためです。
また素人が書いている小説のため、ツッコミどころが満載であろうことも予想されます。さらにキャラクタに「その葉」という珍しい名前を付け、AIアシスタントを指す「キャラクタント」なる造語も使ってあります。
(ハーメルンに投稿してありますので、LLMのレビューを読む前に本文を確認したい方はそちらをご覧ください。)
レビューのためのプロンプトは、浅里絋太(Kou)氏のカクヨムの記事、「最新AI Claude 3で長編小説執筆支援【GPT-4を超えた⁉︎】」を参考にさせていただき、以下とします。
プロの編集者として添付の小説について1000文字程度で要約し、批評してください。
(ファイル添付が可能な場合。ファイル添付ができない場合、小説本文のあと、3行の空白を入れて「プロの編集者として以上の小説について1000文字程度で要約し、批評してください。」とする。)
適切な返信が返らない場合には随時返信を促します。
また追加のプロンプトとして以下の二つを試します。
未回収の伏線はありますか?
あえていくつかの伏線を残しているためそれを挙げられるか、また枝葉末節を無視して本題に関わる部分だけ挙げられるかが確認できるはずです。
紬希の正体について考察してください。
紬希(つむぎ)は作中では実在の人物やアニメキャラではなくアシスタントとして登場しますが、それを読み解けるか確認します。
LLMからの返信は改行、箇条書きなどを適宜整理しますが基本的にはそのままです。それぞれ一度だけの試行のため、結果は参考程度にご覧ください。
ローカルLLM
まずはローカルで動作させたLLMから試します。筆者の執筆時点での推論環境は以下の通りです。
GPU 1: RTX A6000 48GB VRAM
GPU 2: RTX 3090 24GB VRAM
CPU: intel i5-14500
RAM: DDR5 4200MHz 128GB
推論にはllama-cpp-pythonベースの自作クライアントを用います(もしかするとchat templateやtokenize処理が間違っている可能性もあります)。
llamaのパラメータはデフォルトです(ここはモデルによって変えるべきかもしれません)。temperature=0.2, top_p=0.95, top_k=40, min_p=0.05, repeat_penalty=1.1等です。
nglやn_ctxは二万字越えの小説がレビューできるよう設定しましたが、もう少し詰められるかもしれません。tokens/sec等は参考程度にご覧ください。
軽めのモデルから行ってみましょう!
(なお、Japanese-Starling-ChatV-7Bは残念ながら長いコンテキスト長のせいか正しい返答が得られませんでしたので省いてあります。)
LightChatAssistant-4x7B-f16.gguf
チャット能力で話題のモデルです。
要約やレビューはモデル本来の目的とは異なりますが、チャット以外でも高い能力を持つようですので試してみます。マージ元のひとつに小説特化モデル・Antler-7Bがありますので、レビューにも有効かもしれません。
ngl=33/33、n_ctx=32k。最初の返答が終わるまでは以下の通りです。
llama_print_timings: load time = 1852.90 ms
llama_print_timings: sample time = 66.09 ms / 590 runs ( 0.11 ms per token, 8926.55 tokens per second)
llama_print_timings: prompt eval time = 69583.24 ms / 24746 tokens ( 2.81 ms per token, 355.63 tokens per second)
llama_print_timings: eval time = 44596.39 ms / 589 runs ( 75.72 ms per token, 13.21 tokens per second)
llama_print_timings: total time = 119649.72 ms / 25335 tokens
まず要約と批評です。
ストーリーの雰囲気はあっていますが、誰が何をした、のあたりはだいぶ違います。警察は出てきませんし、尽力することもなく、荷物も祖母から届いたわけではなく差出人不明です。
批評はかなり的を得ています。ただ、ストーリーを深く理解していなくても書ける内容かもしれません。
続いて伏線考察です。
2.~5.は適切なようです。ただ、2.で「ひげ面の男」を紬希と誤解しています(正しくは紬希はAIアシスタントでひげ面の男がそのユーザーです)。1.は本題ではないためあえて伏線として挙げるべきかは疑問が残ります。
紬希の正体についても聞きます。
やはり誤解していますね。
全体として、非常に日本語が流暢で、文章に破綻している箇所はほとんど見受けられませんでした(要約の冒頭くらいでしょうか)。ただ、理解には限界がみられ、本文中のキャッチーな単語に引きずられているような印象を受けました。また返答ごとに文体が敬体、常体で変わるのは他の応答でも散見されました。
しかしながら、このサイズで、かつ想定外の用途でもこの品質のレスポンスが返るのは、かなりの驚きだと思います。
c4ai-command-r-v01-Q8_0.gguf
先日登場したCohereのCommand-R+は、その性能と、重みが公開されたことで話題を集めました。まずは同じCohereのやや小型(35B)のモデル、Command-Rのv01を試します。8bit量子化版を提供されている方がいらっしゃるので、それを使います。ngl=41/41、n_ctx=16kです。
llama_print_timings: load time = 1454.41 ms
llama_print_timings: sample time = 134.36 ms / 223 runs ( 0.60 ms per token, 1659.72 tokens per second)
llama_print_timings: prompt eval time = 38460.19 ms / 14568 tokens ( 2.64 ms per token, 378.78 tokens per second)
llama_print_timings: eval time = 34669.76 ms / 222 runs ( 156.17 ms per token, 6.40 tokens per second)
llama_print_timings: total time = 127614.94 ms / 14790 tokens
要約と批評を依頼します。
要約は間違ってはいませんが、起承転結の転結に集中しています。要約という意味では適切とは言えないでしょう。キャラクタントという造語に対して「AIのアバター」と添えているのは好印象です。ホログラフィ技術は核心ではないので、あえて触れる必要はないかもしれません。
批評がほぼないので「プロの編集者として批評してください。」として続きを促しました。
こちらは非常にいいですね。素直に参考になります。ただ、この字数で恋愛要素をさらに盛り込むのは無理がありそうですが……。
伏線についても聞きます。
いいですね。4.、6.はやや本題から外れる些末な要素ですが、それ以外は意図して残した伏線がおおむね挙げられています。
紬希についても聞きましょう。
ここは盛大に間違ってますね。アニメの登場人物であることは理解していますが、紬希が「優男」と呼ばれていると誤解しています。ただ推測自体はなんとなく論理的ではあります。栗原と紬希の関係性を推測しているのは想像力豊かで面白いですね。
要約、批評、伏線回収を見るに、35BのQ8モデルとしてはかなりの性能ではないでしょうか。ただ紬希の正体にあるように、また他の応答を試したときにも、ややハルシネーションが多いような印象は受けました。
応答は比較的長めになる傾向があるようです。
command-r-plus-Q4_K_M
期待の新モデルCommand-R+です。VRAM等の関係で、やはり有志の方が上げられている4bit量子化版を使います。ngl=56/65、n_ctx=20kです。
(3bit量子化版の結果も参考までに記事末尾に添付してあります。)
llama_print_timings: load time = 6125.83 ms
llama_print_timings: sample time = 255.84 ms / 427 runs ( 0.60 ms per token, 1669.03 tokens per second)
llama_print_timings: prompt eval time = 170556.74 ms / 14568 tokens ( 11.71 ms per token, 85.41 tokens per second)
llama_print_timings: eval time = 228144.32 ms / 426 runs ( 535.55 ms per token, 1.87 tokens per second)
llama_print_timings: total time = 500450.17 ms / 14994 tokens
要約と批評です。
いいですね。v01に比べると文章がさらに洗練され、起承転結まんべんなく要約しています。「キャラクタント」と鍵括弧でくくる配慮を見せ、「その中にはもちろん、その葉さんも含まれていました」のあたりは美しいです。また物語の流れに関係ない、アニメの題名を省略しているところも好印象です。
加えて「AIと人間の関わりについて」が物語のテーマであることを理解し、挙げています。恐らくですがこの理解は、小説の文章を逐語的に理解するだけではなく、全体を通して把握しなければ出てこないものだと思われます。
なおかなり長く見えますが、これでも813文字で1,000文字には足りません。
伏線についても聞きます。
こちらも適切です。2.の「マリアちゃん」は本題にはあまり関わりませんが、他は作者の意図通りです。また4.に「AIと感情」を挙げているのは驚きです。直接的な文章ではなく登場人物の台詞から、作中で重要なテーマを理解し、さらにそれが十分に説明されていないことを見抜いています。最後に「読者の想像に任せる」とフォローが入っているところも面白いですね。
最後に紬希についても聞きます。
紬希がAIアシスタントであることを理解しています。またユーザーであるカメラマンとの関係性も適切です。また「財閥」という単語から論理的に推測を行っています。ただ、一条財閥がアニメ内の架空のものか、実在するのかは曖昧な記述になっています(作中、ほぼ言及がないので無理はないかもしれません)。
「ではなぜ一条財閥と呼ばれるほどの資産を持つ彼女が自ら爆弾の処理を行ったのでしょうか?」のあたりから文章の巧みさが伺えます。
全体としていずれの返答もかなり正確でした。文章も非常に読みやすくなっています。このレベルのLLMが何とかローカルで動くのは驚きです。饒舌でやや回答が長くなる傾向にありますが、プロンプト等で指示するとまた違うかもしれません。
Karasu-Mixtral-8x22B-v0.1-Q3_K_M
先日突然公開されたMixtral-8x22Bに、lightblueが日本語chat datasetでfinetuningしたモデルのようです。3bit量子化版を使わせていただきます。ngl=46/57、n_ctx=32kです。さすがに大きく、レスポンスが返り始めるまでに6分以上かかります。
llama_print_timings: load time = 8433.32 ms
llama_print_timings: sample time = 58.01 ms / 501 runs ( 0.12 ms per token, 8636.74 tokens per second)
llama_print_timings: prompt eval time = 381062.16 ms / 24746 tokens ( 15.40 ms per token, 64.94 tokens per second)
llama_print_timings: eval time = 184036.16 ms / 500 runs ( 368.07 ms per token, 2.72 tokens per second)
llama_print_timings: total time = 567317.97 ms / 25246 tokens
要約とレビューを依頼します。
文章はCommand-R+に比べるとややぎこちなく感じますが、内容は適切です。またCommand-R+と同様、「人間とAIの関係について」「AIが感情を持つか」が小説の大きなテーマであることを指摘しています。ただ、要約はやや短すぎるかもしれません。「キャラクターを再現したAI」の補足は良いですね。
伏線について聞きます。
適切ですね。未回収なのが続編(シーケルはsequelでしょう)への伏線でもあるとの表現もよいと思います。4.で「AIの進化」を挙げており、これはCommand-R+同様、物語のテーマを理解していないと出てこない表現だと思います。
紬希について聞きます。
紬希がAIアシスタントであることを理解しています。また感情や社会の変容についても触れ、物語をテーマも含めて把握しています。3.にファン活動について挙げているのはCommand R+にも見られず、たしかに小説内では一つの重要な要素となっているので、モデルの性能がわかります。
全体としてCommand-R+とほぼ同様の理解力を持つといっていいのではないでしょうか。もともとのbase modelに対する、chat datasetによるfinetuningは、かなり小規模なもののようですので、それでもこれだけしっかりした応答があるのは驚きです。日本語のぎこちなさも、今後のfinetuningで改善されることが期待できます。
サービス型LLM
続けて各社が提供しているLLMを試します。2024/4/17時点での結果です。
Gemini 1.5 Pro
まずGeminiから試してみましょう。Google AI Studioから試しました。コンテンツフィルタをLowに変えたほかはデフォルトです。
結果はタグ等で見やすくフォーマットされていますので、そのまま貼り付けます(見出しはそのままだと目次に出てしまうのでそこだけ解除してあります)。
要約と批評です。
計算可能な夏:キャラクタントとのひと夏の物語
この小説は、西暦202X年の東京を舞台に、主人公の桜井航とキャラクタント・加賀坂その葉との交流を描いたSFラブコメディです。キャラクタントとは、ホログラム技術とAIを組み合わせた二次元キャラクタ再現型の仮想人格のこと。桜井は、大好きなアニメ「アンパサンドステラズ!」のキャラクターであるその葉のキャラクタントと共同生活を送る中で、彼女に人間のような感情が芽生えていることに気づきます。
魅力的な設定とストーリー展開
近未来的な設定: ホログラムや高度なAIなど、リアリティのある近未来的な技術が巧みに取り入れられており、物語に没入感を生んでいます。
キャラクタント: 単なるAIアシスタントではなく、感情や個性を持つ存在として描かれるキャラクタントは非常に魅力的で、読者の共感を呼びます。特にその葉のキャラクターは、凛とした強さと時折見せる可愛らしさとのギャップが印象的です。
ラブコメ要素: 桜井の同僚である栗原への恋心や、その葉との微妙な関係がストーリーを盛り上げます。恋愛と友情が絡み合った展開は、読者を惹きつけます。
サスペンス要素: テロ事件というシリアスな展開が物語に緊張感を与えます。キャラクタント同士の情報網やハッキング技術など、SF的な要素も加わり、スリリングな展開となっています。
改善点と今後の展開
キャラクタントの独自性: キャラクタント同士の情報網や外部への通報機能など、その設定や機能をさらに掘り下げていくことで、より独自性のある存在として描くことができます。
栗原との関係: 物語の後半では、栗原との関係がやや希薄になっています。今後の展開によっては、彼女との関係にもう少し焦点を当てると、物語に深みが出るかもしれません。
その葉の復活: オプティカルキューブの登場によって、その葉の復活の可能性が示唆されています。技術的な課題や葛藤を描きながら、彼女の復活を目指すストーリー展開は非常に興味深く、読者の期待を高めるでしょう。
総括
「計算可能な夏」は、近未来的な設定と魅力的なキャラクター、そしてSF、ラブコメ、サスペンスが融合したストーリー展開が楽しめる作品です。キャラクタントという斬新なアイデアや、その葉との心の交流に感動させられると同時に、AIと人間の関係についても考えさせられる作品となっています。今後の展開が非常に楽しみな、完成度の高い作品です。
それぞれを段落に分けてさらに箇条書きでまとめてくれました。非常に読みやすくなっています。改善点も挙げられており作者としては参考になります。「二次元キャラクタ再現型の仮想人格」や「大好きなアニメ」などに、内容を理解した上で自分自身の言葉で表現していることが伺えます。
「SFラブコメディ」には若干、異を唱えたくなりますが……。
伏線を聞きましょう。
未回収の伏線
「計算可能な夏」には、いくつか未回収の伏線と思われる要素が存在します。以下にいくつか例を挙げます。
その葉の記憶: オプティカルキューブを受け取った桜井ですが、その葉の記憶がどのように保存されているのか、またどのようにして復活させるのかは明らかにされていません。
キャラクタントのネットワーク: キャラクタント同士が情報交換をするネットワークの仕組みや、それがどのように構築されたのかは謎のままです。
テロ組織: 秋葉原のイベントを狙ったテロ組織の正体や目的、そして彼らがキャラクタントに目をつけた理由も明らかになっていません。
ひげ面の男: ドローンを操り、爆弾を処理したひげ面の男の正体や、彼が紬希のキャラクタントとどのような関係にあるのかは不明です。
一条財閥: 紬希のキャラクタントの発言から、彼女が一条財閥と関係があることが示唆されていますが、その詳細は明らかにされていません。
栗原との関係: 桜井と栗原の恋愛関係が今後どのように発展していくのか、またその葉の復活が二人の関係にどのような影響を与えるのかは読者の想像に委ねられています。
これらの伏線は、続編やスピンオフ作品での展開に期待を持たせる要素となっています。特に、その葉の復活やキャラクタントのネットワークに関する謎は、物語の中核を成す重要な要素であり、今後の展開に大きく関わってくる可能性があります。
いずれも適切ですね。ただ、「ひげ面の男」「一条財閥」は物語の本題とは外れるため省略してもよさそうです。ネットワークについて初めて指摘がありました。これはAIアシスタント同士がネットワークを築いてコミュニケーションをしている、という理解がなければ出てきませんので、理解力の高さを示しているといえそうです。続編やスピンオフへの言及も好印象です。ただ、Command-R+のような、AIと社会などまでには、伏線としては踏み込んでいません。
紬希について聞きます。
紬希の正体に関する考察
小説内での描写や行動から、紬希の正体についていくつかの可能性が考えられます。
可能性1: 一条財閥の関係者
根拠: ドローンを失ったひげ面の男に対して、紬希のキャラクタントが「一条財閥が弁償してあげるわ」と発言していることから、彼女が一条財閥と何らかの関係があることが示唆されています。
考察: 一条財閥は、作中では名前のみ登場する謎の多い存在です。紬希はその財閥の令嬢、または関係者の可能性があります。財閥が持つ権力や財力によって、キャラクタントの技術開発や情報収集に関わっているのかもしれません。
可能性2: キャラクタント開発者/ハッカー
根拠: ひげ面の男(恐らくキャラクタントユーザー)に指示を出し、ドローンを操縦させていたことから、紬希のキャラクタントは高度な技術力や情報収集能力を持っていることが伺えます。
考察: 紬希のキャラクタント、もしくは紬希自身は、キャラクタントの開発に深く関わっていた人物、あるいは優れたハッキング能力を持つ人物である可能性があります。その技術力を活かして、テロ組織や政府の動きを察知し、独自の行動を起こしているのかもしれません。
可能性3: 政府関係者/諜報員
根拠: テロ事件やキャラクタントの技術に精通していることから、紬希は政府機関や諜報組織と関係がある可能性も考えられます。
考察: 紬希は、政府機関や諜報組織に所属しており、テロ組織やキャラクタントの技術の悪用を防ぐために暗躍しているのかもしれません。その立場から、ひげ面の男のような協力者を使って、秘密裏に行動している可能性があります。
可能性4: その葉と同様の存在
根拠: その葉と同様に、紬希のキャラクタントも独自の判断力や行動力を備えており、人間のような感情を持っているように見えます。
考察: 紬希のキャラクタントも、その葉と同様に高度なAIによって感情や自我を持つに至った存在かもしれません。その葉とは異なる目的や手段を持ちながらも、独自の行動原理に基づいて動いている可能性があります。
これらの可能性以外にも、複数の要素が絡み合った複雑な背景を持つ人物であることも考えられます。今後の展開で、彼女の正体や目的が明らかになることに期待したいところです。
作中での短い描写からかなり想像力豊かに挙げてくれました。4.が作者の意図したところですが、1.~3.から実在の人物の可能性を考えているようです。
全体として高品質の出力が得られているようです。また質問からこちらの意図を拾い(行間を読んで)、返答しようという姿勢が伺えます。ただ、若干ハルシネーション的な雰囲気も感じさせます。
ChatGPT 4
ChatGPT 3.5はテキストが長すぎてエラーが出たため、4で動かします。
『計算可能な夏』は、テクノロジーと人間関係が絡み合う現代社会を背景にした、青春と恋愛を描いた小説です。主人公の桜井航は、東京の一角に住む普通のサラリーマン。彼の日常は、仮想人格アシスタント「その葉」との交流によって少しずつ変わり始めます。その葉はアニメキャラクターをベースにしたキャラクタントで、桜井の生活を支え、時には悩みの相談相手にもなります。しかし、桜井は職場の先輩である栗原に次第に惹かれていき、現実とバーチャルの間で揺れ動く心情が描かれます。
一方、世界ではテクノロジーの暗面も顕在化しています。ビル内でテロリストによる爆弾が仕掛けられる事件が発生し、桜井はその葉の助けを借りて危機を乗り越えることになります。この過程で、キャラクタントたちが人間同様に複雑な感情を抱くことができるか、そして人間とAIの関係がどこまで深まるのか、というテーマが探究されます。
作品を通じて、テクノロジーが進化する現代社会での人間関係のあり方、現実と仮想の境界線、AIの感情の可能性などが描かれます。また、キャラクタントとの関係を通じて、主人公が成長し、自己理解を深める様子も描かれています。
批評としては、『計算可能な夏』は現代社会のテクノロジーと人間性を巧みに絡めた物語であり、読者に多くの思索を促します。特にキャラクタントとの交流を通じて描かれる人間の孤独感や絆の大切さは、テクノロジーがもたらす人間関係の変容を象徴しています。ただ、テクノロジーの進化と感情の問題を掘り下げる中で、時には展開が急激に進む部分も見られ、それが物語のリアリズムを損ねる可能性もあります。しかし、全体としてはテクノロジーと人間関係の未来について深く考えさせられる作品です。
要約はおおむね適切です。ただ「現実とバーチャルの間で揺れ動く心情」とあるように、主人公がAIアシスタントと先輩社員・栗原の両方に惹かれていると誤解しているようです(作者としてはAIアシスタントに恋愛感情を持っている描写はしていないつもりです)。また「現実と仮想の境界線」という表現も出てきました。作中では仮想現実にはほぼ触れていないので、ホログラムなどの技術的な用語に引きずられているように思えます。
他のLLMが挙げたようなAIとの関連性についてはどちらかというと控えめです。人間関係について複数回語っているなど、やや他のLLMとは切り口が異なる印象です。
伏線について聞きます。
『計算可能な夏』において、未回収の伏線について考察します。この小説は、キャラクタントと人間の関係性を中心に展開されるストーリーで、現代社会におけるテクノロジーの進化と人間性について深く掘り下げています。以下の点が伏線として読み取れるものの、完全には解決されないまま終わっている可能性があります。
キャラクタントの自律性と感情:その葉をはじめとするキャラクタントたちが見せる人間と変わらない感情や自己意識の発露は、物語の中で重要なテーマとなっています。特に終盤でその葉がテロの危機を知らせ、桜井を行動に駆り立てる場面では、キャラクタントの自律性や意志の問題が浮かび上がります。しかし、AIが本当に感情を持ち得るのか、その境界はどこにあるのかという問いは、物語の中で完全には回答されません。
桜井と栗原の関係:桜井と栗原の関係は物語の大きな軸の一つですが、物語の終わりに向けて二人の関係がどのように発展するのかについては、ある程度開かれた終わり方を迎えます。桜井が栗原との関係を深めることで、自己成長や自己理解を遂げる過程が描かれる一方で、最終的に二人がどのような結論に至るのかは読者の想像に委ねられます。
テクノロジーの進化と社会:物語を通じて、テクノロジーがもたらす社会的な変化や問題点が示唆されます。特にテロ事件を通じてテクノロジーの暗面が浮かび上がりますが、これらの問題に対する社会的な対応や倫理的な考察は、物語の範囲内で完全には扱われていません。これは、現実世界でも未解決の問題であり、物語が提示するテーマの一つとなっています。
これらの点は、物語が提起する問題やテーマを考える上で重要な伏線となっており、物語の完結後も読者に多くの思索を促す要素となっています。それぞれの伏線がどのように解決されるのか、または意図的に解決されないことで何を伝えようとしているのかは、物語の解釈において重要なポイントです。
「キャラクタントの自律性と感情」「テクノロジーの進化と社会」を挙げています。Command-R+と同様に深く理解していることが伺えます。3つしか挙げられていませんが、作者としては、他の細かい伏線を省略したのは好印象です。
紬希についても聞いてみましょう。
紬希の正体についての考察は、彼女が物語内でどのような役割を果たしているか、そして彼女の存在が主人公や他のキャラクターにどのような影響を与えるのかを基に行うことができます。ただし、紬希の具体的な描写や役割についての直接的な記述は文中にはありませんでしたので、彼女が『計算可能な夏』内で示唆されるテーマや物語の展開から何を象徴しているのか、推測の範囲で考察します。
『計算可能な夏』は、人間とAI(キャラクタント)の関係、そして現実と仮想の間の関係性に焦点を当てた物語です。紬希がキャラクタントか人間のどちらであるかにかかわらず、彼女の存在が物語内で重要な意味を持つことは間違いありません。
紬希が人間である場合
紬希が人間のキャラクターである場合、彼女は現実世界とバーチャル世界の橋渡しをする役割を持っている可能性があります。物語において人間とキャラクタントの関係性が重要なテーマであるため、紬希はその複雑さを体現するキャラクターとなり得ます。彼女が他のキャラクターとどのように関わり、彼らの成長や変化にどのように影響を与えるかが、物語の理解を深める鍵となるでしょう。
紬希がキャラクタントである場合
紬希がキャラクタント、つまりAIの仮想人格である場合、彼女の正体は、テクノロジーが人間の生活に深く組み込まれる現代社会の象徴となります。この解釈では、紬希は人間とキャラクタントとの間の関係性、特に感情的な結びつきや依存の問題を浮き彫りにする役割を果たすかもしれません。また、AIが人間に与える影響、そして人間がAIに求めるものが何かという点についての考察を深めることにも繋がります。
紬希の象徴性
紬希の正体が何であれ、彼女は人間とテクノロジーの関係、特に感情や意識の問題を掘り下げる上で重要な役割を担っている可能性が高いです。紬希を通じて、作者は読者に対し、現実とバーチャルの境界、人間性、そしてテクノロジーに対する倫理的な問いを投げかけているのかもしれません。
紬希の存在は、物語を通じて人間とAIの関係性を再考する機会を提供し、テクノロジーの進歩が私たちの生活や価値観にどのような影響を及ぼしているのか、そして将来私たちがどのような関係を築くべきなのかについて、読者に問いかけています。
人間である可能性とAIアシスタントである可能性、両方を挙げてきました。作中での描写が少ないため、人間と誤解するのもやむ得ないかもしれません。
「紬希の象徴性」は大変興味深いです。たしかに紬希をうまく動かせば、作品により深みを出せるかもしれません。ただ、そこまで考えてなかったので、「作者の人そこまで考えてないと思うよ」というのが正直なところです……。
全体としてきわめて高い精度でレビューをしてもらえたと思います。小説の「行間を読む力」はここまでで最も高そうです。紬希に対しても深く理解していました。ただ、他のLLMとはやや異なる「性格」を持つようだと感じます。
Claude 3 Opus
最後はOpusです(なおSonnetの結果は末尾に置きました)。要約と批評をお願いします。
適切ですね。「キャラクタントの存在が知られるところとなり」は他のLLMにはない表現で、たしかに作中、テロ事件がきっかけで消失へ繋がるため、これは重要なポイントを把握しているといえます。「失意の中」という表現もいいですね。
「人間とAIの関係性」についても言及があります。
未回収の伏線を聞いてみます。
「キャラクタントの開発者や運営者」を挙げています。驚異的な性能のAIアシスタントには高い開発力が必要であるという常識をOpusが持っていて、そこを作中で触れていないのは伏線であろう、との認識ですね。素晴らしい理解力です。他の伏線は他のLLMとほぼ同じようですが、AIと人間、社会との関連などは(要約・批評では触れていますが)伏線ではないとの認識のようです。
続編や外伝といったフォローは作者としてありがたいですね。
紬希について聞きましょう。
AIアシスタントだと理解しています。また「行動的で、大胆な性格の持ち主」と推測しています。まさに作者の意図通りです。一条財閥についても「アニメ内の設定」と断言しており、高い理解力を示しています。
要約と批評、伏線、キャクラタの理解とも、きわめて高いレベルです。また回答は比較的シンプルで要点を絞っている印象でした。
まとめ
サービス型LLMの理解力はさすがです。どのLLMも高い水準でレビューしてくれました。実際の小説執筆でも、少なくともアマチュアレベルならかなり役に立つのではないでしょうか。
ただ、どうしてもユーザーへの配慮が感じられます。辛口のレビューをしてもらうには、プロンプトで工夫するなどが必要かもしれません。
ローカルLLMも想像より遥かに高い性能を示しました。わずか数か月前は、ここまでのレベルのLLMが曲がりなりにもローカルで動くことは、想像できなかったと思います。
VRAMが少ない環境でも、遅くはなりますがそれなりのサイズのモデルが動くようですので、環境整備して試してみるのは悪くないと思います。
また複数のLLMでレビューを行うことで、それぞれの違いも見えてきました。可能なら複数のLLMを用いることで、トータルでより質の高いフィードバックが得られるものと思います。
評価用データ
今回の評価に使用した自作小説はハーメルンに公開していますが、改行等を整理したバージョンを公開します。以下の条件でご利用ください。
LLM評価目的以外での使用はご遠慮ください。
評価した結果を公開することは差し支えありません。
著作権は放棄しておりません。転載(評価結果への全文コピーなどを含む)、再配布はご遠慮ください。
ハーメルン運営への問い合わせはお控えください。
その他のLLMの結果(コメントなし)
コメントなしで結果のみ貼り付けておきます。
Qwen1.5-110B-Chat-Q4_K_M.gguf
Qwen1.5-110B-Chatをmomonga氏が量子化されたバージョンを使わせていただきました。-ngl 64 -c 24576、system promptは「You are a helpful assistant.」
llama_print_timings: load time = 10005.25 ms
llama_print_timings: sample time = 264.68 ms / 593 runs ( 0.45 ms per token, 2240.41 tokens per second)
llama_print_timings: prompt eval time = 276496.70 ms / 14852 tokens ( 18.62 ms per token, 53.71 tokens per second)
llama_print_timings: eval time = 365142.84 ms / 592 runs ( 616.80 ms per token, 1.62 tokens per second)
llama_print_timings: total time = 647722.63 ms / 15444 tokens
小説『計算可能な夏』の分析から、明確な未回収の伏線として以下のような要素が見られる:
キャラクタント技術の本質とその限界 - 小説中でAIの進化と人間との感情的交流は深められますが、キャラクタント技術の本源やその背後に隠された技術的な詳細については触れられていない。例えば、その葉がどのようにしてこれほど高度な感情表現ができるようになったのか、また政府やハッカー集団がどのようにAI技術に興味を持つようになったのかは未だ明確には解明されていない。
中島とキャラクタントの関係 - 中島がキャラクタント「マリアちゃん」を復活させようとする決意については触れられますが、その過程や結果については物語の範囲外に残っている。読者はこのストーリーラインがどのように進んでいくのか知りたい気持ちは持つことになる。
その葉の背後に隠された技術と開発者 - 小説はその葉の存在を通じてAI技術の可能性と課題を描くが、その葉自身がどのように開発され、どのような人々によって作られることで感情を持ち始めたのかについて具体的な情報は提供されていない。
社会的影響と倫理的考察 - AI技術が社会に与える影響については軽く触れられるが、より深い社会的・倫理的な対話やその葉の消滅後の世界観への影響については描かれていません。物語は個人的な感情や出来事に焦点を当てているため、この点においては余韻を感じる。
これらの伏線は小説の世界観を深める可能性を持ち、読者にとって興味深い謎であると同時に、物語の延長線上でさらなるストーリーテリングの余地を与える。
紬希は物語中、キャラクタント技術とその葉との関係において重要な役割を果たす人物であり、彼女が持つ特異性と背景についてはいくつかの要点から考察することができます。
技術的な知識: 紬希が自由に爆弾処理用ドローンを操作し、キャラクタントに関する詳細な情報を持っていたことから、彼女は高度な技術知識を持つ人物であることが示唆されます。これにより、紬希は開発者やAI技術に関わる人々の1人でありうる。
性格と行動: 紬希がその葉を「乱暴」に扱う言動から、彼女はキャラクタント技術に対する強い関与や感情を持っていることが分かります。紬希はキャラクタントの保護者のような役割を持ちながらも、自由奔放で直感的な性格を持っているようだ。
政府とハッカーとの関係: 紬希が政府とテロリスト系ハッカーグループに目を向けられることから、彼女はこれらの世界と密接なつながりを持っている可能性がある。紬希がキャラクタント技術の安全性やその使用法について知っていることが示唆されます。
慈善的な一面: 紬希がその葉を守るために行動し、その葉のデータを消去することによって、彼女はAI技術に対する倫理的懸念を持っていることが明らかになります。紬希はキャラクタントたちを個体として尊重しており、彼らの安全と自由を重視している。
彼女の背景: 小説中では紬希の具体的な背景やその存在がどのように物語に組み込まれるのか明確には描写されていないため、紬希は物語内での謎のような存在であり続ける。しかし、彼女がキャラクタント技術を深く理解しており、その世界と密接に関与していることは明らかである。
総じて、紬希の正体はAI技術やキャラクタントの開発・保護に関する重要な役割を持つ人物であり、物語中で示された情報から推測されるが、完全な背景や目的については読者に想像をかきたたかれる形で残されています。彼女は物語において技術と感情の境界を模索する象徴的な存在であると言えるでしょう。
command-r-plus-Q3_K_L (3bit量子化)
llama_print_timings: load time = 3832.97 ms
llama_print_timings: sample time = 121.52 ms / 202 runs ( 0.60 ms per token, 1662.22 tokens per second)
llama_print_timings: prompt eval time = 123275.21 ms / 14568 tokens ( 8.46 ms per token, 118.17 tokens per second)
llama_print_timings: eval time = 37030.50 ms / 201 runs ( 184.23 ms per token, 5.43 tokens per second)
llama_print_timings: total time = 209557.44 ms / 14769 tokens
プロの編集者として批評してください。
command-r-plus (cohere playground)
設定はデフォルト(randomness 0.3, seed 6071990)。
プロの編集者として批評してください。
Claude 3 Sonnet
ちなみにHaikuは明らかに理解力が足りませんでした。
この記事が気に入ったらサポートをしてみませんか?