気になる生成AI備忘録-vol.19-OpenAI「GPT-4o」

2024年5月14日 10:54

■気になる生成AI備忘録とは
個人的に気になる生成AIのポスト(X)をまとめた・あるいは単発の備忘録を共有する連載シリーズです。

より気になるもの・深追いしたいトピックは当サイト『はじめての生成AI比較.com』にてUP予定ではありますが、サイトは生成AIはじめての方・初心者の方向け、こちらnoteでは、基本的には脱初心者目線で取り進めています。

今回は、「GPT-4o」について。

Say hello to GPT-4o, our new flagship model which can reason across audio, vision, and text in real time: https://t.co/MYHZB79UqN

Text and image input rolling out today in API and ChatGPT with voice and video in the coming weeks. pic.twitter.com/uuthKZyzYx
— OpenAI (@OpenAI) May 13, 2024

ChatGPTの開発元・OpenAIは、音声、画像、テキストをリアルタイムで処理できる画期的なAIモデル「GPT-4o（ジーピーティーフォーオー）」を発表しました。

ここでは、GPT-4oのプロジェクトページをざっと日本語でわかりやすく紹介したいと思います。

概要と特徴

GPT-4o (“o” for “omni”) is a step towards much more natural human-computer interaction—it accepts as input any combination of text, audio, and image and generates any combination of text, audio, and image outputs. It can respond to audio inputs in as little as 232 milliseconds, with an average of 320 milliseconds, which is similar to human response time(opens in a new window) in a conversation. It matches GPT-4 Turbo performance on text in English and code, with significant improvement on text in non-English languages, while also being much faster and 50% cheaper in the API. GPT-4o is especially better at vision and audio understanding compared to existing models.

【日本語】
GPT-4oは、「omni（全て）」を意味する"o"が付けられており、これは、人間とコンピュータのより自然なやり取りを目指していることを表しているとのことです。

テキスト、音声、画像のあらゆる組み合わせに対応し、出力も同様に、どんな組み合わせでも生成することができます。

音声入力への応答時間は、人間同士の会話の反応時間 (約232ミリ秒) に近い、平均320ミリ秒と高速。

英語やコードでのテキスト生成は、GPT-4 Turboと同等か、それ以上の性能を持ち、他の言語でのテキスト生成も大幅に向上しています。

また、APIでの処理速度は2倍速くなり、価格は半額、利用制限も5倍に引き上げられています。従来のモデルと比較して、GPT-4oは特に音声と画像の理解に優れています。

Prior to GPT-4o, you could use Voice Mode to talk to ChatGPT with latencies of 2.8 seconds (GPT-3.5) and 5.4 seconds (GPT-4) on average. To achieve this, Voice Mode is a pipeline of three separate models: one simple model transcribes audio to text, GPT-3.5 or GPT-4 takes in text and outputs text, and a third simple model converts that text back to audio. This process means that the main source of intelligence, GPT-4, loses a lot of information—it can’t directly observe tone, multiple speakers, or background noises, and it can’t output laughter, singing, or express emotion.

With GPT-4o, we trained a single new model end-to-end across text, vision, and audio, meaning that all inputs and outputs are processed by the same neural network. Because GPT-4o is our first model combining all of these modalities, we are still just scratching the surface of exploring what the model can do and its limitations.

【日本語】
GPT-4oが登場する以前は、Voice Modeを使用してChatGPTと会話することができました。

しかし、その際の待ち時間は平均で2.8秒（GPT-3.5）と5.4秒（GPT-4）と遅延がありました。このVoice Modeは、実は3つの別々のモデルからなるパイプラインでした。

1つ目のシンプルなモデルは音声をテキストに変換し、2つ目のGPT-3.5またはGPT-4はテキストを入力としてテキストを出力し、3つ目のシンプルなモデルはテキストを再び音声に変換します。

このプロセスでは、主要な知能源であるGPT-4は多くの情報を失ってしまいます。音声の調子、複数の話者、背景音などを直接認識できず、笑い声や歌、感情表現の出力ができません。

しかし、GPT-4oでは、テキスト、画像、音声のすべてをエンドツーエンドで単一の新しいモデルで学習させました。つまり、すべての入力と出力が同じニューラルネットワークによって処理されます。

GPT-4oは、これらすべてのモダリティを組み合わせた初めてのモデルであるため、モデルの能力と限界を探ることはまだ始まったばかりです。

モデル評価

Model evaluations As measured on traditional benchmarks, GPT-4o achieves GPT-4 Turbo-level performance on text, reasoning, and coding intelligence, while setting new high watermarks on multilingual, audio, and vision capabilities.

【日本語】
モデル評価
従来のベンチマークテストにおいて、GPT-4oはテキスト、論理、コーディングの知能においてGPT-4 Turboと同等の性能を達成し、多言語、音声、画像処理能力において新たな高水準を樹立しました。

Improved Reasoning - GPT-4o sets a new high-score of 88.7% on 0-shot COT MMLU (general knowledge questions). All these evals were gathered with our new simple evals(opens in a new window) library. In addition, on the traditional 5-shot no-CoT MMLU, GPT-4o sets a new high-score of 87.2%. (Note: Llama3 400b(opens in a new window) is still training)

【日本語】
論理能力
0-shot COT MMLU (一般知識に関する質問) で88.7%という高得点を記録しました。これらの評価は、OpenAIの新機能である「simple evals library」を使用して収集されました。さらに、従来の5-shot no-CoT MMLUでは、GPT-4oは87.2%という新たな高得点を記録しました。 (注: Llama3 400bはまだ訓練中です)

言語トークン化

Language tokenization

These 20 languages were chosen as representative of the new tokenizer’s compression across different language families:Afrikaans
Bengali
Chinese
Czech
Dutch
English
French
German
Greek
Hindi
Hungarian
Italian
Japanese
Korean
Polish
Portuguese
Russian
Spanish
Swahili
Turkish

【日本語】
言語トークン化
以下の20言語は、新しいトークナイザーの異なる言語ファミリーにおける圧縮能力を代表するものとして選ばれました。

アフリカーンス語
ベンガル語
中国語
チェコ語
オランダ語
英語
フランス語
ドイツ語
ギリシャ語
ヒンディー語
ハンガリー語
イタリア語
日本語
韓国語
ポーランド語
ポルトガル語
ロシア語
スペイン語
スワヒリ語
トルコ語

言語トークナイザー は、テキストを処理するために必要な基本的な単位であるトークンに分割するツールです。

GPT-4o の新しいトークナイザーは、従来のトークナイザーよりも効率的で、様々な言語に対応、この20言語は、新しいトークナイザーの圧縮能力を代表するものとして選ばれたそうです。

モデルの安全性

Model safety and limitations GPT-4o has safety built-in by design across modalities, through techniques such as filtering training data and refining the model’s behavior through post-training. We have also created new safety systems to provide guardrails on voice outputs. We’ve evaluated GPT-4o according to our Preparedness Framework and in line with our voluntary commitments. Our evaluations of cybersecurity, CBRN, persuasion, and model autonomy show that GPT-4o does not score above Medium risk in any of these categories. This assessment involved running a suite of automated and human evaluations throughout the model training process. We tested both pre-safety-mitigation and post-safety-mitigation versions of the model, using custom fine-tuning and prompts, to better elicit model capabilities. GPT-4o has also undergone extensive external red teaming with 70+ external experts in domains such as social psychology, bias and fairness, and misinformation to identify risks that are introduced or amplified by the newly added modalities. We used these learnings to build out our safety interventions in order to improve the safety of interacting with GPT-4o. We will continue to mitigate new risks as they’re discovered. We recognize that GPT-4o’s audio modalities present a variety of novel risks. Today we are publicly releasing text and image inputs and text outputs. Over the upcoming weeks and months, we’ll be working on the technical infrastructure, usability via post-training, and safety necessary to release the other modalities. For example, at launch, audio outputs will be limited to a selection of preset voices and will abide by our existing safety policies. We will share further details addressing the full range of GPT-4o’s modalities in the forthcoming system card. Through our testing and iteration with the model, we have observed several limitations that exist across all of the model’s modalities, a few of which are illustrated below. We would love feedback to help identify tasks where GPT-4 Turbo still outperforms GPT-4o, so we can continue to improve the model.

【日本語】
モデルの安全性
GPT-4oは、訓練データのフィルタリングや、訓練後のモデルの動作を調整するなどの手法により、最初から安全性に配慮した設計がされています。音声出力に対する新たな安全システムも構築されており、OpenAIの定めた安全性評価基準を満たしています。

モデルの悪用リスクを軽減するために、外部の専門家による徹底的な検証 (レッドチーム) も実施されました。

音声出力機能はまだ開発中で、公開時には安全上の理由から、あらかじめ設定された音声のみが利用可能となります。

モデルの利用方法
GPT-4oは、ChatGPTの無料版と有料版 (Plus) で、テキストと画像の入出力機能が利用開始されました。 Plus版では、メッセージの上限が最大5倍まで拡張されます。

音声入力機能は、今後数週間以内に、ChatGPT Plusのアルファ版としてリリースされる予定です。

開発者向けには、APIで GPT-4o のテキストと画像処理機能が利用開始されました。 GPT-4 Turboよりも処理速度が2倍速くなり、価格は半額、利用制限も5倍に引き上げられています。音声と動画処理機能については、今後数週間以内に少数の信頼できるパートナー企業向けにAPIでの提供が開始される予定です。

その他
GPT-4oは、OpenAIが過去2年間取り組んできた効率化研究の成果です。

GPT-4oは、今後も改良が続けられていく予定です。

ユーザーからのフィードバックは、GPT-4oの改善に役立てられます。

モデルの利用開始について

Model availability
GPT-4o is our latest step in pushing the boundaries of deep learning, this time in the direction of practical usability. We spent a lot of effort over the last two years working on efficiency improvements at every layer of the stack. As a first fruit of this research, we’re able to make a GPT-4 level model available much more broadly. GPT-4o’s capabilities will be rolled out iteratively (with extended red team access starting today).
GPT-4o’s text and image capabilities are starting to roll out today in ChatGPT. We are making GPT-4o available in the free tier, and to Plus users with up to 5x higher message limits. We'll roll out a new version of Voice Mode with GPT-4o in alpha within ChatGPT Plus in the coming weeks.
Developers can also now access GPT-4o in the API as a text and vision model. GPT-4o is 2x faster, half the price, and has 5x higher rate limits compared to GPT-4 Turbo. We plan to launch support for GPT-4o's new audio and video capabilities to a small group of trusted partners in the API in the coming weeks.

【日本語】
GPT-4oの利用開始について

OpenAIは、GPT-4oを「実用的な使いやすさ」という点で、深層学習の境界を広げる最新の成果としています。過去2年間、OpenAIはスタックの各レイヤーで効率化を向上させる研究に多大な労力を費やしました。その研究成果の第一弾として、GPT-4と同レベルのモデルをより幅広いユーザーに提供することが可能になりました。GPT-4oの機能は段階的にリリースされます (拡張されたレッドチームアクセスは本日開始)。

利用開始スケジュール

テキストと画像機能: すでにChatGPTの無料版と有料版 (Plus) で利用開始されています。 Plus版では、メッセージの上限が最大5倍まで拡張されます。
音声機能: 数週間以内に、ChatGPT Plusのアルファ版として、GPT-4oを搭載した新しい音声認識機能がリリースされる予定です。
開発者向けAPI: テキストと画像処理機能をGPT-4oで利用可能になりました。 GPT-4 Turboと比較して、処理速度が2倍速くなり、価格は半額、利用制限も5倍に引き上げられています。 音声と動画処理機能については、今後数週間以内に少数の信頼できるパートナー企業向けにAPIでの提供が開始される予定です。

※無料での利用と音声と動画処理機能については、今後数週間以内に少数の信頼できるパートナー企業向けにAPIでの提供が開始される予定ということは、日本で一般利用可能となるのは、それよりも先と考えるのが自然でしょう。（無料で制限有のGPT-4oの利用はもう少し早いかもですが）
↓
無料版で試そうとしたところ、無料ではGPT-4oは未だ使えませんでした。段階的なんでしょうけど、日本で現状使えている人、いるのかな？
※2024年5月14日現在

ChatGPTの無料ユーザーはGPT-3.5だったのを思うと、制限有りとはいえGPT-4oが無料で解放される仕様に切り替わっていくというのは大きいですね。

以上、GPT-4oのプロジェクトページをざっと日本語にしてわかりやすく説明しました。2024年5月14日現在、GPT-4oは日本でも利用可能です。

GPT-4oの処理速度の速さは目に見えて体感できる

例）
ファンタジー小説を書けと指示

左）GPT-4o
右GPT-4 pic.twitter.com/xiHhj6Htq5
— 木村修也【ChatGPT ✖ 最新AI情報】 (@syuyakimura) May 14, 2024

↑GPT-4oを使って、小説を書いてもらう指示出し例をポストしました。

処理速度は、目に見えてわかるほどGPT-4oは速いです。

入力したテキストプロンプトは以下の通りです。

ファンタジー小説を書きなさい。主人公は、魔法使いの卵を持つ少年です。彼は、魔法の学校に入学し、様々な困難を乗り越えながら成長していく。文章スタイルは、軽快でユーモラスなものにしてください。

GPT-4oはひとまず、テキストと画像の機能がロールアウト開始しているため、画像生成を1つ試してみました。

入力したのは以下です。

以下の画像を生成してください

産業背景を中心に、光る文字で「GPT-4o」と書かれたネオンサイン。周囲には爆弾の部品や工具が散乱しており、カオスや軍の秘密基地のような雰囲気を醸し出している。「GPT-4o」の文字の下にはボール状の物体が置かれ、ミステリアスな印象を添えている。この構図は、暗い質感に対する明るい色の明るさのコントラストを強調し、奥行きを生み出している。このシーンは匿名のアーティストの作風のように見える。

パッと見た感じ、GPT-4turboでの生成画像のほうが見栄え良く感じましたが、GPT-4o生成画像は、きっちり「GPT-4o」の「-（ハイフン）」も反映されています。

個人的には、今回GPT-4oのプロジェクトページを読んで、最も気になったのは、やはり動画入力の部分です。

前述の通り、GPT-4oは現在、テキストと画像の入出力のみ対応で、音声と動画の入出力は 今後数週間以内に少数の信頼できるパートナー企業向けにAPIでの提供が開始される予定となっているとのことですが、動画入力が可能になれば、翻訳は是非試してみたいところです。

具体的には、「この動画にフランス語の字幕をつけてください。」といったことが可能になるのではないかと考えられるからです。

動画入力が可能になれば、以下のようなことが可能になる可能性があります。（希望的観測含）

動画の自動要約：動画の内容をテキストで要約する
動画の翻訳：動画の音声を別の言語に翻訳し、字幕として表示する
動画の質問応答：動画の内容に関する質問に答える
動画の編集：動画を編集し、不要な部分をカットしたり、音楽を追加したり

また、動画といえば、OpenAIはGPT-4oに関する動画等、幾つか公開してくれています。↓ポストにはGPT-4oとは別件ですが、便利なAIツール（Chrome拡張追加）「Cici AI」についても触れています。

OpenAIはGPT-4oに関する動画等、幾つか公開してくれています

こちらの動画最後に、盲導犬を連れた方が、街中でGPT-4oの指示によってタクシーを停車させて乗り込むまで成功しているのがわかります

GPT-4oの導入により、従来のBe My Eyesアプリを超越https://t.co/mQW31P4LGZ
— 木村修也【ChatGPT ✖ 最新AI情報】 (@syuyakimura) May 14, 2024

GPT-4oが気になる方は、一度GPT-4oのプロジェクトページに目を通してみると良いでしょう。

GPT-4oのさまざまな活用例

いろんなユーザーさん・クリエイターさんたちのXのポストから、「GPT-4oはこんなことが出来る」という、面白いと感じたものや、わかりやすい活用例などをピックアップしてみました。

【悲報：ChatGPT新機能「リアルタイム翻訳」により語学学習事業を運営する会社の株価が急落】

これが残酷な現実。

語学学習事業を展開するDualingoの株価がChatGPTの新機能発表を受けて急落。… pic.twitter.com/bf7yWNt66W
— チャエン | 重要AIニュースを毎日発信⚡️ (@masahirochaen) May 14, 2024

GPT-4oの画像認識力と理解力をもってすればいけるやろと思ってやってみたら実際いけた。

ペーパープロトタイピングから最初のHTML書き起こすのにかなり使えるのでは。

つーか指示そのものを画像の中に書いたの読み取ってくれるの何か世界の壁を超えて対話してる感があって凄い#GPT4o pic.twitter.com/3XHMFg3yye
— kmizu (@kmizu) May 14, 2024

これは実用性高い

左:gpt-4o 右:gpt-4 pic.twitter.com/TSuorpLypY
— でょ (@Deyoyoyo) May 14, 2024

ChatGPT-4o
仕訳もきれました。
（仕訳の解説もしてくれました） pic.twitter.com/U9Rh8bJeW9
— 大野修平🤖公認会計士🤖GPT門下生 (@Shuhei_Ohno) May 13, 2024

などなど、さまざまな利活用が可能なChatGPT-4oです。

その処理速度の速さも、実際に試すと感じられます。

GPT-4oを使って、簡単STLファイル作成

4より生成速度が速く、プロンプトがわからなければGPT-4oに聞けば◎#GPT4o #STL pic.twitter.com/OWtL3Aivfu
— 木村修也【ChatGPT ✖ 最新AI情報】 (@syuyakimura) May 16, 2024

個人的所感では、やはり翻訳・通訳機能の能力がスゴイなぁと。

ChatGPT-4oの翻訳機能は海外旅行先でかなり使えそう

実例）
英語メニューの写真送って日本語化
↓
料理の概要も触れてくれる

数十種類の多言語対応、そもそも英語のまま音声読み上げも出来るし有能#GPT4o #翻訳 pic.twitter.com/4KqSCL72DI
— 木村修也【ChatGPT ✖ 最新AI情報】 (@syuyakimura) May 15, 2024

こういった使い方が出来るということは、海外で飲食店に入った時にも心強いですね。

また、翻訳かねて通訳に関しても、その能力は長けているのがわかります。

このように、テキストベース、そして近い将来、音声でもリアルタイム同時通訳が可能となることがわかります。

この記事が気に入ったらサポートをしてみませんか？