ChatGPTを音声の分野に拡張する「AudioGPT」

論文:https://doi.org/10.48550/arXiv.2304.12995

北京大学やカーネギーメロン大学などによる研究。
音声や音楽を理解・生成する能力をLLMに与えるシステムが開発されたとのこと。

研究者らは一貫性、能力、およびロバスト性(安定性)の観点からAudioGPTをテストし、高い性能を確認しています。

論文では、AudioGPTは人間の意図を理解し、複雑な推論を行うと主張されています。
これにより、オーディオコンテンツの生成・編集が容易になったり、音声アシスタントの性能が向上すると期待されています。

より良質な記事をお届けするための取材費に使います!