【モック完成】 Whisperで名前を言うナンジャモンジャ
はじめに
こんにちは〜!
少し遅くなりました、Whisperで名前を言うナンジャモンジャゲームのモックが完成したので紹介させてもらいます。
おさらいになりますが、「なんじゃもんじゃ」とは実際のボードゲームで、順番に山札をめくっていき、初めて出た絵柄であればそれに名前をつけ、既に出た絵柄であればつけられた名前を正しく先に言えたプレイヤーのポイントになるというものです。ざっくり!
今回はモックということで同機による複数人プレイはできませんが、とりあえず一人で進められる状態のものにはなりました。
各キャラクターのデザインも紹介しています、可愛いので見てもらえると嬉しいです!
キャラクターデザイン
24体のキャラデザはMidjourneyで行いました。
実際のなんじゃもんじゃぽくしてみたつもりです。
スタイル参照(--sref)を使用してデザインのタッチを合わせました。
次から次へ可愛い個性的なデザインが出来たので楽しかったです😊
ゲームのモック
見た目に関しては何も言わないでください笑
最近「VISUALIZE 60」というデザインが紹介された本を図書館で借りて見ています。それでもダメならデザイナーと仲良くなるか有料アセット買うので何も言わないで、、、笑
今後の改善予定
速くて精度の高いWhisper/派生系モデルを使う
色々調べて見て「stable-ts」とか出てたけど、結局は「faster-whisper」が一番良さそう。「GENIEE Speech AI」ていうワードも検索の結果出てきたけどどれくらいいいものなのかあまり分からなかった。
Whisperモデルの精度をはかる方法に関してはいい方法を思いついたのでまた今度展開します!
通信を一回にする(困ってます)
これ沼ったところで、今は応急処置をしているのですが、
WhisperAPIのlanguageリクエストて言語指定できませんでしたっけ!?
あと、promptリクエストに従う率低過ぎません!?というものです。
言語指定に関しては「"ja"」を指定すると400のリクエストエラーになります。「"en"」しか無理って。なので、promptリクエストで「カタカナにしろ+句読点取り除け」と優しく指示したのですが守りません。やむおえず、ChatGPTAPI通信を入れて整形しています。そのせいで遅い、もうgpt-4oAPIが音声入力できるの待つしかない。
で、多分言語指定に関しては多分これ、「English-only-model」になってるぽい。解決策求む。pythonやったら「large」とか指定できた。
見た目のダサさ
もうね、、はい。今後のですから、いつまでにとかはないので、はい。
BGM / SE つける
まだ組み込みしてないけど、Stable Audio AudioSparx 2.0で作って見ました。「ポップ調、森の中のイメージ、不思議な雰囲気、落ち着いたテンポ」にしてというプロンプトにしました。
最後に
ここまで読んでいただきありがとうございます!
引き続き、AI機能を取り入れたゲームやシステムの開発を発信していきます。成果物の動画や日々の開発中の小さな発見などはXで発信しています〜!
この記事が気に入ったらサポートをしてみませんか?