AIキャラをより“自然に”感じさせるために考えていること～AITuberの課題～

2024年12月12日 19:38

　最近は、AIキャラクターを活用したデジタルサイネージの実証実験が進んでいるので、来年は日常生活の中でもAIキャラを見かける機会がますます増えそうですね。最近は様々な要素技術の進化スピードも目覚ましく要所要所でAITuberも取り上げられるので、「自分でAIキャラを作ってみたい」と考える方も増えているのではないでしょうか？

　実際にAIキャラ制作に取り組んでみると「自然に感じさせるには、まだまだ課題が多いな」と痛感させられるのも事実です。私自身、この1年間はAITuberづくりを一番の趣味として楽しみつつ試行錯誤してきましたが「もっと自然に見せたい」「もっと可愛くしたい」「せっかくなら多くの人に観てもらいたい」という欲も少し出てきたり。そしてテスト配信の度に色々と課題を痛感すると言った連続でした。ただ、その課題が技術的に不可能なのか、現時点でも工夫すれば克服できるのか考える事は大事です。

　そこで今回は、AIキャラの自然に見せるための課題を「音声・感情表現」「モーション・表情制御」「記憶想起や情報管理」「長時間運用」「コンテンツ面」の5つに分けて、私なりに現状と考えをまとめてみたいと思います。最終的な目標は、技術を詰め込むだけではなく、キャラクターの存在感そのものをトータルで自然に感じられるようにすること。そのための取り組みや、今抱いている課題感をシェアできれば幸いです。

　ちなみに今回の記事を「ユメミ」という少し毒舌の関西弁のキャラクタープロンプトと記事内容をAIでプレゼン資料に変換した動画はこちらです。言い回しの柔らかい部分が削ぎ落され、なかなかズバッと物申す感じになっているので、ソフトな言い回しがお好みなら動画を飛ばして、続きのテキストベースで読んで頂く事をお勧めします（汗）

1. 音声合成と感情表現の課題

　AIキャラの声が自然に聞こえるかと言う部分は、キャラクターの魅力に大きく影響します。正直、声さえ自然に聞こえればポッドキャストなどのコンテンツも作れてしまうくらいです。

　最近は高精度の日本語の音声合成サービス「にじボイス（DMMボイス）」や「AivisSpeech」が立て続けに登場し、人間に近いイントネーションや感情表現が可能になってきました。しかし、リアルに近づくほどにわずかなアクセントのズレや漢字の読み間違いなど、ごく小さな不自然さがかえって目立ってしまう状況にもなっています。いわゆる「不気味の谷」現象と言うやつですね。

　特に日本語は微妙なニュアンスが難しく、ほんの少しの違和感が「機械っぽさ」を際立たせてしまいます。現状では、ボイスモデル制作時の学習データの選び方や発話テキスト（プロンプト）の調整で不自然さを減らすこと（軽減措置）はできるものの、根本的な解決にはさらなる技術の進歩が必要だと感じています。また感情表現も1つのボイスモデルでの表現は難しく、実際に人間の表現と同じような声の感情表現の幅を増やそうとすると、その数だけボイスモデルが必要となります。現実的な運用としては難しい。

　数年後には、ほぼ工夫なしで自然な発話が可能になるモデルが登場するかもしれませんが、それまでは手持ちのツールとデータを駆使して自然な部分を強調する、いわば自然に聞かせるための「職人的な工夫」も求められそうです。出来るだけ不自然に感じさせないための工夫、ボイスモデルの苦手な発話をさせないのも大事になりそうです。

2. モーション・表情制御の難しさ

　音声がどれだけ自然でも、動きや表情が単調だと「自然な動き」からは遠ざかってしまいます。現在の多くのAIキャラクターは感情解析（もしくはトリガーワード）に基づいて「あらかじめ用意したモーションファイル」を再生していると思いますが、1つの感情につき1パターンしかなければ、すぐに動きがワンパターン化してしまい、見ている人に「単調だな」と感じられてしまう可能性があります。

　これを解消するには、同じ感情でも複数のモーションパターンを用意し、ランダムに再生したり、2つのモーションを組み合わせたりするなどバリエーションを増やす工夫が必要かなと考えています。たとえば、笑顔一つとっても、笑いの角度や頭の傾け方、肩の揺れ方を変えるだけで、表現は格段に豊かになります。ただし、これには多くのモーションファイルを準備する手間が掛かるため、私自身まだ着手できておらず、来年以降の実装を目標にしています。この辺はAI技術を使ってサッと簡単に実装と言う訳には行きませんね。8つの基本感情×3種類ずつなんかが現実的でしょうか。表情とモーションを掛け合わせるとかなりの数になります。

　また、今後のテクノロジーの進化に伴い、会話内容からモーションをAIで自動生成するような先進的な手法も期待できるかもしれませんが（既にText to Motionの技術自体はありますし）まだ実際に活用できる（自然に見える）ようなものは出てきていないようです。

3. 記憶想起とコンテキスト対応

　AIキャラの対話を自然にする上で重要なのが、「これまでの会話をどれだけ記憶し、それに応じて応答できるか」ですね。ただ、大量の記憶データを保持することは可能ですが、情報が増えすぎると処理が遅くなり、結果的にタイムラグを生み会話がぎこちなくなってしまう可能性もあります。

　現在、私はYouTube配信を想定している為、視聴者コメント内のシンプルなキーワード抽出による記憶想起を行い、プロンプトに必要最低限の情報を付与して比較的正確な返答を得るようにしています。スキル不足で複雑なRAGシステムの実装が出来ないのも理由の一つですが。これによりキャラクターに背景設定や「思い出」を持たせることで発言に一貫性を持たせられるかなと感じています。この方法（簡易的なRAG）を選んでいる理由として、そもそもの大元のシステムプロンプトに全ての記憶を入れる事も可能ですが（最近はロングコンテキストに対応しているので）細かい設定や記憶をシステムプロンプトに盛り込みすぎると、キャラが勝手に会話内で「自己開示」しすぎて逆に会話が不自然になる場合があるんですね。普通の人間は自己紹介レベルの話でいきなり自己開示しまくったりしませんので。この辺りのさじ加減が難しいなと感じています。自然さと不自然さの境界線ですね。

　ただ、都度で記憶を渡すと通常の会話時には、他の記憶や価値判断となる思い出など会話を生成する際に含まれていない為、キャラの「発言の深み」としてはどうなんだろうと言う悩みも。どの段階でどの情報を与えるか、いまだに試行錯誤中です。そもそも人間ってどうなっているでしょうね。

4. 長時間運用における安定性

　AIキャラを長時間動かしていると、思わぬ不具合が発生します。数時間稼働するとコメント抽出がうまくいかなくなったり、動作が遅くなったりすることがあります。こうした問題は、実際に長時間運用を行わなければ見えにくく、トライ＆エラーを繰り返しながら改善していくしかありません。このエラー内容が原因不明だったりするとまた厄介。同じ条件で動かしてもエラーが起きなかったり謎な事も多々あります。

5. コンテンツとして成立させる難しさ

　最後に、最も頭を悩ませるのが「コンテンツとして成立させること」の難しさです。高度な音声合成や豊かな表情制御で自然な存在感を出せても、視聴者が「面白い」と感じ、継続して見たいと思うかは別問題。ハッキリ言って技術的な部分とは違う脳みそを使う部分です。AIキャラ開発とコンテンツ制作は全く別ベクトルの能力が必要な気すらします。

　これは自分のAIキャラを「人気者にしたい」と考えるか、「作って満足でOK」なのかと言う部分でもありますが、やはり何かを作ると少しは人に見てもらいたくなるものですよね（笑）

　多くの人がAITuberでの成功事例として「VTuberで言うキズナアイ」のような存在をイメージすると思いますが、まだ実質、AITuberとして大成功を収めたと言えるキャラクターは日本には居ないのではないでしょうか。

　私はベンチマークとして企業系のAITuber「AIりんな」と「紡ネン」を確認しています。最近は「ケツアゴ姉さん」も気になってチェックしてます。この辺りの再生回数を確認すると、YouTubeでは1動画あたり1,000～3,000再生なんですね。企業系のAITuberトッププレイヤーのYouTube動画のライブ配信で駆け出しVTuberくらいの再生数なので、まだAITuberは世の中から認知されていない状態と言っても良いかと思います。これがブルーオーシャンだからなのか。それとも、そもそもAIキャラクター配信の需要が少ないのかはわかりません。TikTokだとYouTubeの数倍の再生数になると言う話も聞くので、その辺りもリサーチすると良いかもですね。継続して開発・配信するには折れない強いマインドも必要です。

　なにはともあれ、コンテンツ産業は年々、可処分時間の奪い合いが激化しています。その中で、AITuberの一番の比較対象となりやすい人間のVTuber市場は既に飽和状態。無給で良いからVTuberをやりたいと、毎日のように新人がデビューしており無料で多彩なコンテンツが供給されています。その中でAIキャラがVTuberと同じ土俵で戦うのは至難の業かなとも思います。少なくとも同じことをやって同じように人気を獲得するのはハードルが高そうです。今年は色々な方と、この部分について話をする機会もありましたが、当たり前ですが誰も答えがわからない部分。とにかく考えて、トライしてを繰り返すしかないですね。まあAI技術と共にAITuberは進化するので、何処かでブレイクスルーもあるかもですし。これは作りながら考えましょう。

　逆に「自分で作って、自分で育てる」、プラモデルやレゴ感覚で楽しむホビー的、あるいはプログラミング教育的な使い方は非常に相性が良いなと感じています。私自身もAITuber制作において、マネタイズは考えず「自分の手で作るのが楽しい」と言う動機だけ、趣味として1年間のAIキャラ制作を続けてきました。制作・改造する過程でAIの活用やプログラミングスキルを磨くなど創作性や学習面での価値は十分にあると思います。

　また現状で一番、AIキャラクターの社会実装・マネタイズと言う所では冒頭で触れた「デジタルサイネージ」かなと。この辺りは長時間駆動での安定した案内や多言語対応などわかりやすいメリットがありますね。

　あとは、パーソナライズされた（スマホを使った）高齢者の会話相手、占いアプリでユーザーに寄り添ったり、メンタルケアのパートナー、日本でもようやく認知されてきたコーチングサービスなど、ユーザーに寄り添うサービスを提供する形で、社会実装が進む可能性は高そうですね。

終わりに

　今回は、AIキャラを「より自然に」感じさせるために乗り越えるべき課題をまとめてみました。どれも一筋縄ではいかない難題ですが、技術は日進月歩で進化し続けています。数年後には今より格段に自然な発話・動き・人間と同様（それ以上）の表現が実現できるでしょう。なんだかこの1～2年の進化速度を考えると、思いつく課題は直ぐに解決してしまいそうですが（笑）

　この試行錯誤の過程そのものを楽しむのも、AIキャラ制作の醍醐味ではないでしょうか。特に人類史に残るAIによる大きな変化を、リアルタイムに体験するには自分で最新のツールに触れるのが一番ですからね。

　もしこの記事が、AIキャラづくりを考えている方のヒントになれば幸いです。今後も新たなチャレンジやノウハウを見つけながら、より自然なAITuberづくりに励んでいきたいと思います。

　今回も読んで頂きありがとうございました。良いお年を。