![見出し画像](https://assets.st-note.com/production/uploads/images/118162755/rectangle_large_type_2_4b59f480e5becaf4598dc080f4a05c39.jpeg?width=800)
音声認識と生成AI
Googleが「AudioPaLM」を発表、音声認識と生成に特化した大規模言語モデルを発表した。
![](https://assets.st-note.com/img/1696576168897-CXvhmjDayG.jpg?width=800)
AudioPaLMはテキストと音声を単一のモデルで処理・生成することが可能となる。
音声を入力すると、声色やイントネーションといったパラ言語情報を抽出し保持できるAudioLMの機能と、大量の多言語データセットで学習したPaLM-2の言語知識を活かしている。これにより、音声翻訳タスクにおいて既存のシステムを大幅に上回る結果が得られ、ゼロショット(初見)の音声テキスト翻訳が可能になったという。
短い音声データを元に話者の声を別の言語に変換することも可能だ。これが進化すれば、音声チャットなどで発言する際、その声のトーンや抑揚を保ったまま別の言語に変換することが可能になる。
![](https://assets.st-note.com/img/1696576168868-DiXYdNL4RD.jpg?width=800)
いままでボイスAIの活用方法はシナリオを作成し、定型文でのやりとりが主流となっていた。
そのためボイスAIを活用した受付などは、シナリオに当てはまらない音声回答は、コールセンターで人間にて対処する必要があった。
これが今後は音声の処理能力の向上とともにLLMが進化していくことで、シナリオに当てはまらないユーザーの回答にたいしても、LLMで考え、回答することができるようになり、まさに人間のかわりのような役割をすることができるようになると考えております。
ブルーキャピタルマネジメントとしても注視していきたいと考えております
この記事が気に入ったらサポートをしてみませんか?