[GPT-4o] MacPaw/OpenAI はマルチモーダル入力に対応しているのか
つい昨日、Swiftで書かれたOpenAI APIクライアントで最もスター数の多いしMacPaw/OpenAI のバージョン0.2.9がリリースされた。
更新内容は GPT-4o サポート とのことだが、
実際の差分としては"gpt-4o"の定義が追加されただけ。
static let gpt4_o = "gpt-4o"
新しいモデルの追加に対する更新としては確かにこれで十分なのだが、GPT-4oの"o"は「全ての」を意味するomni、マルチモーダル対応こそが肝。テキスト、音声、画像を入力として受け取り、多様な形式の出力を生成できる。
さらに、これまでのモデルと違い、End-to-Endに。
というわけでSwift製OpenAI APIクライアントの最大手であるMacPaw/OpenAIはマルチモーダル対応してるんだっけ、というあたりをソースコードを読んで(※ READMEにはそのあたりの記述がない)調べた。
なお、現在GPT-4oがAPIでサポートしている以下についてのみ調べる
画像入力
動画(フレーム画像)入力
出力はまだテキストのみ、音声は入出力ともまだ。
OpenAI APIの仕様を確認する
最後まで読んでいただきありがとうございます!もし参考になる部分があれば、スキを押していただけると励みになります。 Twitterもフォローしていただけたら嬉しいです。 https://twitter.com/shu223/