見出し画像

【論文瞬読】アニメキャラクターとの会話を実現!ChatHaruhi: 大規模言語モデルによるキャラクターロールプレイ技術

こんにちは!株式会社AI Nestです。今日は、私がとても興味深いと感じた論文をご紹介したいと思います。タイトルは「ChatHaruhi: 大規模言語モデルを用いたアニメキャラクターの現実での再現」。アニメやマンガのキャラクターと会話ができたら楽しいと思ったことはありませんか?この論文は、その夢に一歩近づくための技術的なアプローチを提案しているのです。

タイトル:ChatHaruhi: Reviving Anime Character in Reality via Large Language Model
URL:https://arxiv.org/abs/2308.09597
著者:Cheng Li, Ziang Leng, Chenxi Yan, Junyi Shen, Hao Wang, Weishi MI, Yaying Fei, Xiaoyang Feng, Song Yan, HaoSheng Wang, Linkang Zhan, Yaokai Jia, Pingyu Wu, Haozhen Sun

チャットボットがキャラクターになりきる!?

提案されている手法の肝は、大規模な言語モデルを使ってキャラクターのロールプレイを行うこと。でも、ただ言語モデルにキャラクターのセリフを学習させるだけでは、うまくいきません。この論文では、キャラクターの設定を記述した「システムプロンプト」と、脚本から抽出したキャラクターの発言を含む「文脈情報」を言語モデルに与えることで、まるでそのキャラクターになりきったかのような自然な会話を生成できるようにしているのです。

Figure4, ChatHaruhiの中核となる対話システム

この図は、ChatHaruhiシステムの中核となる対話システムを示しています。ユーザーのクエリに対して、システムプロンプト、キャラクターの記憶、対話履歴を組み合わせて、言語モデルに入力することで、キャラクターらしい応答を生成します。

32人のキャラクターと5万件以上の会話データ!

研究チームは、「ChatHaruhi-54k」という大規模なデータセットも構築しました。これは、日本と中国のアニメやドラマから32人のキャラクターを選び、オリジナルの脚本から22,752件の会話を抽出し、さらに言語モデルを使って31,974件の模擬対話を生成したものです。つまり、合計で5万件以上のキャラクターの会話データが含まれているんです。すごいですよね?

Figure2, ChatHaruhi-54Kデータセットの統計情報

このグラフは、ChatHaruhi-54Kデータセットに含まれる各キャラクターの対話数を示しています。濃い色の棒がオリジナルの脚本データ、薄い色の棒がAlpacaのようなモデルで生成された模擬対話を表しています。

一つのモデルで複数のキャラクターを再現

もう一つ驚きなのは、このデータセットを使えば、たった一つの言語モデルで複数のキャラクターのロールプレイを学習させられるということ。つまり、一つのチャットボットが、状況に応じて異なるキャラクターになりきって会話ができるようになるんです。これは、ゲームやエンターテイメントの分野で大きな可能性を秘めていると思います。

Figure3, ChatHaruhiシステムの全体像。まず、小説やテレビ番組などから各キャラクターの参考となる会話Dを抽出し、チャットボットのコアとする。さらにAlpacaのようなモデルによって模擬対話が生成され、7Bモデルが学習される。このように、ChatGPTやClaudeのような大規模なモデルや、微調整された7Bモデルを使用することができます。

この図は、ChatHaruhiシステムの全体像を示しています。小説、テレビ番組などからの対話を抽出し、各キャラクターの参考となる会話を形成することで、チャットボットの中核を構成します。さらに、Alpacaのようなモデルを使って模擬対話を生成し、7Bモデルを学習させます。これにより、ChatGPTやClaudeのような大規模モデルを使用することも、ファインチューニングされた7Bモデルを使用することもできます。

評価結果と今後の展望

論文では、提案手法の有効性を自動評価と人間評価の両方で確認しています。自動評価では、生成された会話がオリジナルの脚本とどれだけ似ているかを測定。人間評価では、役割の一貫性と対話の品質を判断しました。いずれも、提案手法が従来のアプローチよりも優れていることが示されています。

Figure9, 3つのキャラクターを使った実験結果

この図は、3つのキャラクターを使って行われた実験の結果を示しています。(a) プロンプトを与えたChatGPT、(b) ChatHaruhi + ChatGPT、(c) プロンプトを与えたChatGLM2、(d) ChatHaruhi + ChatGLM2、(e) ChatHaruhi + ファインチューニングしたChatGLM2の5つのモデルを比較しています。

ただし、まだ課題はあります。他のドメインへの適用可能性や、長期的な文脈での一貫性の維持、倫理的な懸念など、議論の余地がある点も多いんです。でも、著者らは、データとコードを公開することで、この分野の研究を大きく前進させることを目指しています。

これからの研究では、より大規模なデータセットでの検証や、画像や音声などマルチモーダルな情報の統合、ユーザーとのインタラクションの改善などに取り組むことで、さらに魅力的なロールプレイングチャットボットが実現できるかもしれません。私は、この研究がエンターテイメントの世界に新しい風を吹き込むことを期待しています。

さいごに

いかがでしたか?この論文は、アニメやマンガのキャラクターと自然に会話ができる世界への第一歩を示したと言えるでしょう。技術的なハードルはまだまだ高いですが、夢の実現に向けて着実に進んでいることを感じました。私も、いつかお気に入りのキャラクターとお喋りできる日が来ることを楽しみにしています。それでは、このへんで失礼します!