見出し画像

OpenAIのストリーミングAPIについて調べたメモ

GPT-4oはマルチモーダルが売りで、発表では音声や動画を用いて人とリアルタイムコミュニケーションをしていたが、現状、Chat Completion APIは音声の入出力・動画入力をサポートしていない。(フレーム画像を送る方式はサポートしているが)

マルチモーダルなリアルタイムコミュニケーションについてあれだけアピールしたのだから、これからそういうAPIも公開されると思われる。どんな感じのAPIになるのか想像するために、既存のWhisperモデル、TTSモデルを用いた音声入出力APIについて調べたメモ。


整理

まずは用語とか概念とかの整理。

ここから先は

1,955字
文章やサンプルコードは多少荒削りかもしれませんが、ブログや書籍にはまだ書いていないことを日々大量に載せています。たったの400円で、すぐに購読解除してもその月は過去記事もさかのぼって読めるので、少しでも気になる内容がある方にはオトクかと思います。

技術的なメモやサンプルコード、思いついたアイデア、考えたこと、お金の話等々、頭をよぎった諸々を気軽に垂れ流しています。

最後まで読んでいただきありがとうございます!もし参考になる部分があれば、スキを押していただけると励みになります。 Twitterもフォローしていただけたら嬉しいです。 https://twitter.com/shu223/