見出し画像

ChatGPTのSpring Updateを眺めてみる

新しいモデルGPT-4oの紹介

2024年5月13日にOpenAIは新しいフラッグシップモデル、GPT-4oを発表しました。GPT-4oは、テキスト、音声、画像をリアルタイムで処理できる統合AIモデルです。このモデルは、人間の応答速度に匹敵する232ミリ秒の音声応答速度を実現し、非英語のテキスト処理においても大幅な向上を示しています。また、GPT-4 Turboと同等の性能を持ちながら、速度が2倍速く、コストが半分であることが特徴です


モデルの評価とセーフティ
GPT-4oは多言語、音声認識、音声翻訳、および視覚認識のベンチマークで新たな高得点を記録しています。また、音声出力のセーフティガードレールを設け、広範な外部の専門家によるリスク評価も行っています。


モデルの利用 GPT-4oのテキストと画像機能はChatGPTで利用可能となり、無料ユーザーやPlusユーザー向けに順次展開されます。


画像機能系が強化されているように見えます。

いくつかサンプルPromptを見つけましたので試してみます。


サンプルPrompt

今までは、文字を画像に取り込むことが出来なかったのに、取り込めています。ちなみに、日本語で試してみましたが、日本語はダメでした。恐らく時間の問題かと思いますが、そのうち日本語も対応されるのではないかと推測しています。


英語の文字の取り込み画像


日本語の文字の取り込みの場合


マンガ系画像



手紙画像

上記の手紙画像の場合は、サンプルだと綺麗な画像でしたがChatGPTだとうまく書かれていません。アルファベットは正しいと思うが、単語になっていないですね。


手紙画像



所感は、出力画像の精度が上がっているのは理解できたが、100%文字が正確に取り込まれていないようなので次回期待です。但し、gpt-4oの登場で出力速度が速くなったのは良いことです。人間の読むスピードくらい速くなると不便を感じなくなります。APIの価格がgpt-4-turboの半分ということなので、そのうちgpt-4oのAPIを使用してみたいです。

この記事が参加している募集

AIとやってみた

この記事が気に入ったらサポートをしてみませんか?