[GPT-4o] MacPaw/OpenAI はマルチモーダル入力に対応しているのか

2024年5月16日 20:16

つい昨日、Swiftで書かれたOpenAI APIクライアントで最もスター数の多いしMacPaw/OpenAI のバージョン0.2.9がリリースされた。

更新内容は GPT-4o サポート とのことだが、

実際の差分としては"gpt-4o"の定義が追加されただけ。

static let gpt4_o = "gpt-4o"

新しいモデルの追加に対する更新としては確かにこれで十分なのだが、GPT-4oの"o"は「全ての」を意味するomni、マルチモーダル対応こそが肝。テキスト、音声、画像を入力として受け取り、多様な形式の出力を生成できる。

さらに、これまでのモデルと違い、End-to-Endに。

GPT-4o、オーディオもビジョンもEnd-to-Endになったのか。

> 「GPT-4o」以前は、音声モードを使用して、平均2.8秒 (GPT-3.5) および5.4秒 (GPT-4) の遅延で「ChatGPT」と会話できました。…
— 堤修一 / Shuichi Tsutsumi (@shu223) May 14, 2024

「GPT-4o」では、テキスト、ビジョン、オーディオにわたって単一の新しいモデルをエンドツーエンドで学習しました。これは、すべての入力と出力が同じニューラルネットワークによって処理されることを意味します。

https://note.com/npaka/n/n02331040d8c2

というわけでSwift製OpenAI APIクライアントの最大手であるMacPaw/OpenAIはマルチモーダル対応してるんだっけ、というあたりをソースコードを読んで（※ READMEにはそのあたりの記述がない）調べた。

なお、現在GPT-4oがAPIでサポートしている以下についてのみ調べる

画像入力
動画（フレーム画像）入力

出力はまだテキストのみ、音声は入出力ともまだ。

OpenAI APIの仕様を確認する

ここから先は

6,311字 / 1画像

文章やサンプルコードは多少荒削りかもしれませんが、ブログや書籍にはまだ書いていないことを日々大量に載せています。たったの400円で、すぐに購読解除してもその月は過去記事もさかのぼって読めるので、少しでも気になる内容がある方にはオトクかと思います。

日々の学びメモ

¥400 / 月

技術的なメモやサンプルコード、思いついたアイデア、考えたこと、お金の話等々、頭をよぎった諸々を気軽に垂れ流しています。

ログイン

最後まで読んでいただきありがとうございます！もし参考になる部分があれば、スキを押していただけると励みになります。 Twitterもフォローしていただけたら嬉しいです。 https://twitter.com/shu223/