【企画】音声認識による指示をLLMが実行するAI×RTS

2024年5月23日 16:11

はじめに

こんにちは、助六です。
今回はAIを使用したRTS (RealTimeStrategy)のゲーム企画です。
RTSとは双方がリアルタイムに進行する時間に対応しつつ、プランを立てながら敵と戦う戦略型ゲームです。
これは特に音声で操作する楽しさがあるゲームになりそうなので楽しみです！今回は企画段階ですが、簡単な検証を既にしているのでそちらも合わせてご紹介いたします。

ゲームの企画

ざっくりと相手の陣営と自陣営の軍隊で削り合うゲームです。
音声で陣形を指示します。自軍はその陣形の名前に応じて実際に陣形を組みます。この音声認識による文字起こしと名前から陣形を考える部分にAIを使用します。
ゲームのイメージは「Cossacks 3」というゲームです。

軽く検証した内容

今はまだ音声入力は実装していないので、インプットフィールドで陣形名を指示しています。そこからどのように陣形を組むかをGPT-4oに考えてもらって、その情報から実際に陣形を組むテストしました。
ブログでは画像になりますが、実際の動きの動画はXで投稿しています。

まだ陣形が崩れていたり、あまり指示した陣形名にあった形になっていないのでプロンプトの調整が必要です。
フューショットによる陣形名とその結果の例をいくつかプロンプトに入れて精度を上げようと思います。RAG等を使うと毎回同じような結果になるのでゲーム性として面白くないかもしれないんので、とりあえずはシンプルなLLMの推論だけでやってみようと思います。

使用技術

Faster Whisper：音声入力で指示を出す際に指示した陣形を文字起こしする際に使用。リアルタイム性が求められるゲームなので速さが重要。もFaster-Whisperは登場から１年以上経っているので、もしかしたらもっと速いモデルがあるかもしれないので調査します。
Llama3-Grok：Meta社のOSのLLMで、Grokのチップを使用しているのでとても高速に動くモデルです。こちらもリアルタイム性を求めるゲームですので、文字起こしされた陣形を取るためにどのような陣形にするべきかを推論する際に使用します。
GPT-4o：最近OpenAIから出たマルチモーダルな言語モデル。今はAPIで音声入力が対応していません。そこそこ速く動作します。対応した際には「Faster-Whisper + Llama3-Grok」の組み合わせよりも速いかを検証して速ければこちらを採用します。やっぱり２回通信よりも一個のモデルで完結する方が早いのかな。。。？

最後に

ここまで読んでいただきありがとうございます☀️
開発過程や成果物、技術的な発見も発信していきます！
Xで情報発信も始めました。
「AI×ゲーム開発」にご興味ある方はフォローしていただけると嬉しいです！

Tweets by sukeroku_rhythm

この記事が気に入ったらサポートをしてみませんか？

【企画】 音声認識による指示をLLMが実行するAI×RTS

はじめに

ゲームの企画

軽く検証した内容

使用技術

最後に

【企画】音声認識による指示をLLMが実行するAI×RTS