見出し画像

[GPT-4o] MacPaw/OpenAI はマルチモーダル入力に対応しているのか

つい昨日、Swiftで書かれたOpenAI APIクライアントで最もスター数の多いしMacPaw/OpenAI のバージョン0.2.9がリリースされた。

更新内容は GPT-4o サポート とのことだが、

実際の差分としては"gpt-4o"の定義が追加されただけ。

static let gpt4_o = "gpt-4o"

新しいモデルの追加に対する更新としては確かにこれで十分なのだが、GPT-4oの"o"は「全ての」を意味するomni、マルチモーダル対応こそが肝。テキスト、音声、画像を入力として受け取り、多様な形式の出力を生成できる。

さらに、これまでのモデルと違い、End-to-Endに。

「GPT-4o」では、テキスト、ビジョン、オーディオにわたって単一の新しいモデルをエンドツーエンドで学習しました。これは、すべての入力と出力が同じニューラルネットワークによって処理されることを意味します。

https://note.com/npaka/n/n02331040d8c2

というわけでSwift製OpenAI APIクライアントの最大手であるMacPaw/OpenAIはマルチモーダル対応してるんだっけ、というあたりをソースコードを読んで(※ READMEにはそのあたりの記述がない)調べた。

なお、現在GPT-4oがAPIでサポートしている以下についてのみ調べる

  • 画像入力

  • 動画(フレーム画像)入力

出力はまだテキストのみ、音声は入出力ともまだ。

OpenAI APIの仕様を確認する

ここから先は

6,311字 / 1画像
文章やサンプルコードは多少荒削りかもしれませんが、ブログや書籍にはまだ書いていないことを日々大量に載せています。たったの400円で、すぐに購読解除してもその月は過去記事もさかのぼって読めるので、少しでも気になる内容がある方にはオトクかと思います。

技術的なメモやサンプルコード、思いついたアイデア、考えたこと、お金の話等々、頭をよぎった諸々を気軽に垂れ流しています。

最後まで読んでいただきありがとうございます!もし参考になる部分があれば、スキを押していただけると励みになります。 Twitterもフォローしていただけたら嬉しいです。 https://twitter.com/shu223/