見出し画像

【モック完成】 Whisperで名前を言うナンジャモンジャ


はじめに

こんにちは〜!
少し遅くなりました、Whisperで名前を言うナンジャモンジャゲームのモックが完成したので紹介させてもらいます。

おさらいになりますが、「なんじゃもんじゃ」とは実際のボードゲームで、順番に山札をめくっていき、初めて出た絵柄であればそれに名前をつけ、既に出た絵柄であればつけられた名前を正しく先に言えたプレイヤーのポイントになるというものです。ざっくり!

今回はモックということで同機による複数人プレイはできませんが、とりあえず一人で進められる状態のものにはなりました。
各キャラクターのデザインも紹介しています、可愛いので見てもらえると嬉しいです!


キャラクターデザイン

24体のキャラデザはMidjourneyで行いました。
実際のなんじゃもんじゃぽくしてみたつもりです。
スタイル参照(--sref)を使用してデザインのタッチを合わせました。
次から次へ可愛い個性的なデザインが出来たので楽しかったです😊


ゲームのモック

見た目に関しては何も言わないでください笑
最近「VISUALIZE 60」というデザインが紹介された本を図書館で借りて見ています。それでもダメならデザイナーと仲良くなるか有料アセット買うので何も言わないで、、、笑

こんな感じの画面です。画面左上のタイトル横の菊の花がポイント。
画面左の青ぽい部分がカードの裏面でそこをタップすると山札がめくられます。
山札をめくるとランダムでキャラクターが出てきます。
初めて登場するキャラクターには「NEW」と表示。
マイクボタンを押して名前をマイクに言います。
もう一度マイクボタンを押すと、名前が文字起こしされます。
ここでWhisperを使っています。
紙飛行機みたいなアイコンのボタンを押すと名前が登録されます。
既に登場し名前が付けられているキャラクターが出た場合はつけた名前をもう一度言います。
思い出せなかったり、少しでも違うとポイントが引かれます。
正解するとポイントが加算されます。
大体こんな流れです。


今後の改善予定

速くて精度の高いWhisper/派生系モデルを使う
色々調べて見て「stable-ts」とか出てたけど、結局は「faster-whisper」が一番良さそう。「GENIEE Speech AI」ていうワードも検索の結果出てきたけどどれくらいいいものなのかあまり分からなかった。
Whisperモデルの精度をはかる方法に関してはいい方法を思いついたのでまた今度展開します!

通信を一回にする(困ってます)
これ沼ったところで、今は応急処置をしているのですが、
WhisperAPIのlanguageリクエストて言語指定できませんでしたっけ!?
あと、promptリクエストに従う率低過ぎません!?というものです。
言語指定に関しては「"ja"」を指定すると400のリクエストエラーになります。「"en"」しか無理って。なので、promptリクエストで「カタカナにしろ+句読点取り除け」と優しく指示したのですが守りません。やむおえず、ChatGPTAPI通信を入れて整形しています。そのせいで遅い、もうgpt-4oAPIが音声入力できるの待つしかない。
で、多分言語指定に関しては多分これ、「English-only-model」になってるぽい。解決策求む。pythonやったら「large」とか指定できた。

見た目のダサさ
もうね、、はい。今後のですから、いつまでにとかはないので、はい。

BGM / SE つける
まだ組み込みしてないけど、Stable Audio AudioSparx 2.0で作って見ました。「ポップ調、森の中のイメージ、不思議な雰囲気、落ち着いたテンポ」にしてというプロンプトにしました。


最後に

ここまで読んでいただきありがとうございます!
引き続き、AI機能を取り入れたゲームやシステムの開発を発信していきます。成果物の動画や日々の開発中の小さな発見などはXで発信しています〜!

この記事が気に入ったらサポートをしてみませんか?