OpenAIのストリーミングAPIについて調べたメモ
GPT-4oはマルチモーダルが売りで、発表では音声や動画を用いて人とリアルタイムコミュニケーションをしていたが、現状、Chat Completion APIは音声の入出力・動画入力をサポートしていない。(フレーム画像を送る方式はサポートしているが)
マルチモーダルなリアルタイムコミュニケーションについてあれだけアピールしたのだから、これからそういうAPIも公開されると思われる。どんな感じのAPIになるのか想像するために、既存のWhisperモデル、TTSモデルを用いた音声入