見出し画像

GPTによる動画理解のOpenAI公式ガイドを読む

OpenAIのAPIドキュメントを読んでいたら "Video understanding with vision" と題されたリンクを発見。

https://platform.openai.com/docs/guides/vision より

こちらのページ。

タイトルは "Processing and narrating a video with GPT's visual capabilities and the TTS API" (GPTのビジュアル機能とTTS APIを使ったビデオの加工とナレーション)。

ちょうどiOSから動画フレームを渡して要約させることに成功して、もっとこのあたりを深堀りしたいなと思っていたところだったので、読んでみることにした。


ここから先は

5,202字
文章やサンプルコードは多少荒削りかもしれませんが、ブログや書籍にはまだ書いていないことを日々大量に載せています。たったの400円で、すぐに購読解除してもその月は過去記事もさかのぼって読めるので、少しでも気になる内容がある方にはオトクかと思います。

技術的なメモやサンプルコード、思いついたアイデア、考えたこと、お金の話等々、頭をよぎった諸々を気軽に垂れ流しています。

最後まで読んでいただきありがとうございます!もし参考になる部分があれば、スキを押していただけると励みになります。 Twitterもフォローしていただけたら嬉しいです。 https://twitter.com/shu223/