OpenAIのストリーミングAPIについて調べたメモ

2024年5月21日 21:15

GPT-4oはマルチモーダルが売りで、発表では音声や動画を用いて人とリアルタイムコミュニケーションをしていたが、現状、Chat Completion APIは音声の入出力・動画入力をサポートしていない。（フレーム画像を送る方式はサポートしているが）

マルチモーダルなリアルタイムコミュニケーションについてあれだけアピールしたのだから、これからそういうAPIも公開されると思われる。どんな感じのAPIになるのか想像するために、既存のWhisperモデル、TTSモデルを用いた音声入出力APIについて調べたメモ。

整理

まずは用語とか概念とかの整理。

"Whisper" や "TTS" はモデル名
エンドポイントとしては"Audio"
- https://platform.openai.com/docs/api-reference/audio
- これが以下の機能を兼ねる
  - Create speech（音声合成）
  - Create transcription（書き起こし）
  - Create translation（翻訳）
ガイドには"CAPABILITIES"として Text-to-speech と Speech-to-text それぞれ項目がある
- https://platform.openai.com/docs/guides/text-to-speech
- https://platform.openai.com/docs/guides/speech-to-text

1,955字

文章やサンプルコードは多少荒削りかもしれませんが、ブログや書籍にはまだ書いていないことを日々大量に載せています。たったの400円で、すぐに購読解除してもその月は過去記事もさかのぼって読めるので、少しでも気になる内容がある方にはオトクかと思います。

¥400 / 月

技術的なメモやサンプルコード、思いついたアイデア、考えたこと、お金の話等々、頭をよぎった諸々を気軽に垂れ流しています。

最後まで読んでいただきありがとうございます！もし参考になる部分があれば、スキを押していただけると励みになります。 Twitterもフォローしていただけたら嬉しいです。 https://twitter.com/shu223/