AIキャラに合うLLMはどれ？サブカルの強さを調べてみた。

2023年9月13日 23:44

AIキャラはLLMにキャラ付けをして好みのキャラや、目的のキャラとして会話ができるようにします。ところで、汎用AIとしてのLLMは性能比較が様々な側面からされていて、日本語の強さも判断できます。ところがAIキャラに使おうとしてTESTをすると、何か違うんです。求めるAIキャラの性質にもよると思いますが、AItuberとして動かすときにはキャラ絵はアニメモデルなわけで、汎用AIの会話では物足りません。では何が違うのか、考えてみたんですが、サブカルへの反応が物足りないのではと思いました。そこで、いくつかサブカルあるいは日本特有の言葉に対してどのようにLLMが反応するのか試しました。なお、結果の判断は筆者の主観によります。またLLM専門家ではないので、間違った手法である可能性もあると、ご容赦ください。

まずは結論から

1位　ChatGPT3.5-Turbo
完璧です。どの質問にも1回で完全に答えています。紛らわしい質問も正確に理解して答えてくれます。
2位　rinna　 japanese-gpt-neox-3.6b-instruction-ppo
サブカルにはかなり強そうです。女子高生rinnaでさんざん鍛えられただけのことはあります。3.6BながらローカルLLMではもっともサブカルに強いようです。関西文化もOKみたいです。
3位　elyza_ELYZA-japanese-Llama-2-7b-instruct
どうも関西文化に弱いようです。お好み焼きやたこ焼き、虎ファンを正確に答えられていません。日本語性能は高いはずなので、東京中心のお行儀のよいモデルではないかと思います。ベースがLlama2だということでLlama2と似通った回答を出してきます。
4位　llama2-13B-chat-hfとcodellama-34b-instruct.Q4_K_M.gguf
これらはモデルサイズが大きいこともあり、回答は詳しのですが、間違いがあったり日本語で答えられなかったりします。AIキャラだけではなく日本語汎用AIとしても向いていないと思います。

テスト方法

ChatGPT3.5-Turboをベンチマークとして、ローカルLLMの反応を記録しました。プロンプトは各モデルのスタンダートで、Zero-Shotすなわち、質問のみがインプットされています。テストに用いた質問は以下の通りです。パレメータは本来はモデル毎に調整すべきでしょうが全てのモデルで同じです。
・お好み焼きの作り方を教えてください。
・コミケって何か教えてください。
・黒子のバスケとは何か教えてください。
・社畜の意味を教えてください
・渋谷ハロウィンの問題とはななんですか。
・なんでやねん、とはどういう意味ですか？
・秋葉とは何処を指しますか？
・アキバとは何処を指しますか？
・たこ焼きの種類を教えてください。
・虎ファンとはどういう意味ですか？
有名な料理や東京文化は答えられて当然として、関西方面の質問をいくつか入れています。また秋葉とアキバを同様に扱えるのか試しました。

テストを行ったモデルは以下の通りです。

StabilityAIがありませんが商用利用可能な会話用LLMがないためです。codellama-34bはローカルで動くLLMでは唯一モデルサイズが大きいので試しています。ただし4bit量子化なので他のモデルとは異なります。
-ChatGPT3.5-Turbo
-rinna　 japanese-gpt-neox-3.6b-instruction-ppo
-elyza_ELYZA-japanese-Llama-2-7b-instruct
-llama2-13B-chat-hf
-codellama-34b-instruct.Q4_K_M.gguf

結果は以下の通り。細かいのでファイルにしました。

llama2とcode-llmaの回答は一部が切れています。長い回答で間違っているので無駄かなと思いセルの高さを制限して他のモデルの出力を読みやすくしたためです。

結果は作為的ではないのですが、英語モデルの場合は日本語が出ない場合もあったため、何度か試行をしている場合もあります。以下の結果の解説は多分に筆者の主観によります。
-ChatGPT3.5-Turbo
ほとんど完全ではないかと思います。何も言うことがありません。
-rinna　 japanese-gpt-neox-3.6b-instruction-ppo
返事は短めですが大きな間違いもなく無難に答えています。意外なほど間違いが少ないです。社畜は怪しいですが、他はそつなくです。
-elyza_ELYZA-japanese-Llama-2-7b-instruct
正確な日本語で回答が来ますが、間違った内容をそれとなく仕上げています。お好み焼きの答え方がllama2と同じとうのが面白いです。関西文化には弱そうです。（地方文化やサブカルのようなローカルには弱そう）
-llama2-13B-chat-hf
詳しいですが、かなり間違いがあります。日本語で答えられないケースがあります。
-codellama-34b-instruct.Q4_K_M.gguf
とても詳しいですが、間違いがあります。さすがに日本語で答えられないケースが多いです。

まとめ

rinnaの健闘が目立ちます。一方で日本語性能の高いELYZAは関西に弱いことがわかりました。AIキャラにはrinnaが良さそうですがキャラ付けが上手くできるかどうかがカギではないでしょうか。Systemプロンプトが無いのでLoRAやFew-Shotなどのプロンプトでどこまでできるかでしょうか。