マガジンのカバー画像

LLMの活用

44
運営しているクリエイター

#音声認識

日本語を含む多様な音声入力に対応したLLM: Qwen-Audio-Chatを試す

アリババクラウドが、音声入力に対応したLLMであるQwen-Audioを公開していたので早速デモを試してみました。 Qwen-Audioの概要Qwen-Audioは、異なる種類のオーディオ入力やタスクに対応するユニバーサルオーディオ理解モデルを目指して開発されています。主な目的は、既存の音声モデルが持つ限定的なインタラクション能力の問題を解決し、人間の発話、自然音、音楽、歌などを含む幅広いオーディオタイプに対応することです。このモデルは、複数のタスクにわたる知識共有と協調学