GPTによる動画理解のOpenAI公式ガイドを読む
OpenAIのAPIドキュメントを読んでいたら "Video understanding with vision" と題されたリンクを発見。
こちらのページ。
タイトルは "Processing and narrating a video with GPT's visual capabilities and the TTS API" (GPTのビジュアル機能とTTS APIを使ったビデオの加工とナレーション)。
ちょうどiOSから動画フレームを渡して要約させることに成功して、もっとこのあたりを深堀りしたいなと思っていたところだったので、読んでみることにした。
最後まで読んでいただきありがとうございます!もし参考になる部分があれば、スキを押していただけると励みになります。 Twitterもフォローしていただけたら嬉しいです。 https://twitter.com/shu223/