マガジンのカバー画像

気になる生成AI記事まとめ

4
運営しているクリエイター

#AIとやってみた

Gemini Pro APIの活用 : Hey Gemini! 音声起動による対話型マルチモーダルAIアプリ開発

Gemini Pro APIの活用 : Hey Gemini! 音声起動による対話型マルチモーダルAIアプリ開発

プログラムの概要このプログラムは、音声入力の録音とテキストへの変換、AIによる応答生成、生成されたテキストの音声への変換、画像処理を組み合わせた複合的な機能を提供します。目的は、ユーザーからの音声入力に対して、AIが適切に応答し、その応答を音声として出力することです。最終的にはDeepmindのDemoを目指しています。

こちらの記事の続きです。

プログラムの主要機能ウェイクワードの検出:

もっとみる