OpenAIのストリーミングAPIについて調べたメモ
GPT-4oはマルチモーダルが売りで、発表では音声や動画を用いて人とリアルタイムコミュニケーションをしていたが、現状、Chat Completion APIは音声の入出力・動画入力をサポートしていない。(フレーム画像を送る方式はサポートしているが)
マルチモーダルなリアルタイムコミュニケーションについてあれだけアピールしたのだから、これからそういうAPIも公開されると思われる。どんな感じのAPIになるのか想像するために、既存のWhisperモデル、TTSモデルを用いた音声入出力APIについて調べたメモ。
整理
まずは用語とか概念とかの整理。
"Whisper" や "TTS" はモデル名
エンドポイントとしては"Audio"
これが以下の機能を兼ねる
Create speech(音声合成)
Create transcription(書き起こし)
Create translation(翻訳)
ガイドには"CAPABILITIES"として Text-to-speech と Speech-to-text それぞれ項目がある
最後まで読んでいただきありがとうございます!もし参考になる部分があれば、スキを押していただけると励みになります。 Twitterもフォローしていただけたら嬉しいです。 https://twitter.com/shu223/