![見出し画像](https://assets.st-note.com/production/uploads/images/141360744/rectangle_large_type_2_4fde058f8b0f9ec6dd133739bb3ec37a.jpeg?width=800)
OpenAIのストリーミングAPIについて調べたメモ
GPT-4oはマルチモーダルが売りで、発表では音声や動画を用いて人とリアルタイムコミュニケーションをしていたが、現状、Chat Completion APIは音声の入出力・動画入力をサポートしていない。(フレーム画像を送る方式はサポートしているが)
マルチモーダルなリアルタイムコミュニケーションについてあれだけアピールしたのだから、これからそういうAPIも公開されると思われる。どんな感じのAPIになるのか想像するために、既存のWhisperモデル、TTSモデルを用いた音声入出力APIについて調べたメモ。
整理
まずは用語とか概念とかの整理。
"Whisper" や "TTS" はモデル名
エンドポイントとしては"Audio"
これが以下の機能を兼ねる
Create speech(音声合成)
Create transcription(書き起こし)
Create translation(翻訳)
ガイドには"CAPABILITIES"として Text-to-speech と Speech-to-text それぞれ項目がある
最後まで読んでいただきありがとうございます!もし参考になる部分があれば、スキを押していただけると励みになります。 Twitterもフォローしていただけたら嬉しいです。 https://twitter.com/shu223/