- 運営しているクリエイター
#冬休みの宿題
Gemini Pro APIの活用 : Hey Gemini! 音声起動による対話型マルチモーダルAIアプリ開発
プログラムの概要このプログラムは、音声入力の録音とテキストへの変換、AIによる応答生成、生成されたテキストの音声への変換、画像処理を組み合わせた複合的な機能を提供します。目的は、ユーザーからの音声入力に対して、AIが適切に応答し、その応答を音声として出力することです。最終的にはDeepmindのDemoを目指しています。
こちらの記事の続きです。
プログラムの主要機能ウェイクワードの検出: