■気になる生成AI備忘録とは
個人的に気になる生成AIのポスト(X)をまとめた・あるいは単発の備忘録を共有する連載シリーズです。
より気になるもの・深追いしたいトピックは当サイト『はじめての生成AI比較.com』にてUP予定ではありますが、サイトは生成AIはじめての方・初心者の方向け、こちらnoteでは、基本的には脱初心者目線で取り進めています。
今回は、「GPT-4o」について。
ChatGPTの開発元・OpenAIは、音声、画像、テキストをリアルタイムで処理できる画期的なAIモデル「GPT-4o(ジーピーティーフォーオー)」を発表しました。
ここでは、GPT-4oのプロジェクトページをざっと日本語でわかりやすく紹介したいと思います。
概要と特徴
【日本語】
GPT-4oは、「omni(全て)」を意味する"o"が付けられており、これは、人間とコンピュータのより自然なやり取りを目指していることを表しているとのことです。
テキスト、音声、画像のあらゆる組み合わせに対応し、出力も同様に、どんな組み合わせでも生成することができます。
音声入力への応答時間は、人間同士の会話の反応時間 (約232ミリ秒) に近い、平均320ミリ秒と高速。
英語やコードでのテキスト生成は、GPT-4 Turboと同等か、それ以上の性能を持ち、他の言語でのテキスト生成も大幅に向上しています。
また、APIでの処理速度は2倍速くなり、価格は半額、利用制限も5倍に引き上げられています。 従来のモデルと比較して、GPT-4oは特に音声と画像の理解に優れています。
【日本語】
GPT-4oが登場する以前は、Voice Modeを使用してChatGPTと会話することができました。
しかし、その際の待ち時間は平均で2.8秒(GPT-3.5)と5.4秒(GPT-4)と遅延がありました。このVoice Modeは、実は3つの別々のモデルからなるパイプラインでした。
1つ目のシンプルなモデルは音声をテキストに変換し、2つ目のGPT-3.5またはGPT-4はテキストを入力としてテキストを出力し、3つ目のシンプルなモデルはテキストを再び音声に変換します。
このプロセスでは、主要な知能源であるGPT-4は多くの情報を失ってしまいます。音声の調子、複数の話者、背景音などを直接認識できず、笑い声や歌、感情表現の出力ができません。
しかし、GPT-4oでは、テキスト、画像、音声のすべてをエンドツーエンドで単一の新しいモデルで学習させました。つまり、すべての入力と出力が同じニューラルネットワークによって処理されます。
GPT-4oは、これらすべてのモダリティを組み合わせた初めてのモデルであるため、モデルの能力と限界を探ることはまだ始まったばかりです。
モデル評価
【日本語】
モデル評価
従来のベンチマークテストにおいて、GPT-4oはテキスト、論理、コーディングの知能においてGPT-4 Turboと同等の性能を達成し、多言語、音声、画像処理能力において新たな高水準を樹立しました。
【日本語】
論理能力
0-shot COT MMLU (一般知識に関する質問) で88.7%という高得点を記録しました。 これらの評価は、OpenAIの新機能である「simple evals library」を使用して収集されました。 さらに、従来の5-shot no-CoT MMLUでは、GPT-4oは87.2%という新たな高得点を記録しました。 (注: Llama3 400bはまだ訓練中です)
言語トークン化
【日本語】
言語トークン化
以下の20言語は、新しいトークナイザーの異なる言語ファミリーにおける圧縮能力を代表するものとして選ばれました。
アフリカーンス語
ベンガル語
中国語
チェコ語
オランダ語
英語
フランス語
ドイツ語
ギリシャ語
ヒンディー語
ハンガリー語
イタリア語
日本語
韓国語
ポーランド語
ポルトガル語
ロシア語
スペイン語
スワヒリ語
トルコ語
言語トークナイザー は、テキストを処理するために必要な基本的な単位であるトークンに分割するツールです。
GPT-4o の新しいトークナイザーは、従来のトークナイザーよりも効率的で、様々な言語に対応、この20言語は、新しいトークナイザーの圧縮能力を代表するものとして選ばれたそうです。
モデルの安全性
【日本語】
モデルの安全性
GPT-4oは、訓練データのフィルタリングや、訓練後のモデルの動作を調整するなどの手法により、最初から安全性に配慮した設計がされています。 音声出力に対する新たな安全システムも構築されており、OpenAIの定めた安全性評価基準を満たしています。
モデルの悪用リスクを軽減するために、外部の専門家による徹底的な検証 (レッドチーム) も実施されました。
音声出力機能はまだ開発中で、公開時には安全上の理由から、あらかじめ設定された音声のみが利用可能となります。
モデルの利用方法
GPT-4oは、ChatGPTの無料版と有料版 (Plus) で、テキストと画像の入出力機能が利用開始されました。 Plus版では、メッセージの上限が最大5倍まで拡張されます。
音声入力機能は、今後数週間以内に、ChatGPT Plusのアルファ版としてリリースされる予定です。
開発者向けには、APIで GPT-4o のテキストと画像処理機能が利用開始されました。 GPT-4 Turboよりも処理速度が2倍速くなり、価格は半額、利用制限も5倍に引き上げられています。 音声と動画処理機能については、今後数週間以内に少数の信頼できるパートナー企業向けにAPIでの提供が開始される予定です。
その他
GPT-4oは、OpenAIが過去2年間取り組んできた効率化研究の成果です。
GPT-4oは、今後も改良が続けられていく予定です。
ユーザーからのフィードバックは、GPT-4oの改善に役立てられます。
モデルの利用開始について
【日本語】
GPT-4oの利用開始について
OpenAIは、GPT-4oを「実用的な使いやすさ」という点で、深層学習の境界を広げる最新の成果としています。過去2年間、OpenAIはスタックの各レイヤーで効率化を向上させる研究に多大な労力を費やしました。その研究成果の第一弾として、GPT-4と同レベルのモデルをより幅広いユーザーに提供することが可能になりました。GPT-4oの機能は段階的にリリースされます (拡張されたレッドチームアクセスは本日開始)。
利用開始スケジュール
テキストと画像機能: すでにChatGPTの無料版と有料版 (Plus) で利用開始されています。 Plus版では、メッセージの上限が最大5倍まで拡張されます。
音声機能: 数週間以内に、ChatGPT Plusのアルファ版として、GPT-4oを搭載した新しい音声認識機能がリリースされる予定です。
開発者向けAPI: テキストと画像処理機能をGPT-4oで利用可能になりました。 GPT-4 Turboと比較して、処理速度が2倍速くなり、価格は半額、利用制限も5倍に引き上げられています。 音声と動画処理機能については、今後数週間以内に少数の信頼できるパートナー企業向けにAPIでの提供が開始される予定です。
※無料での利用と音声と動画処理機能については、今後数週間以内に少数の信頼できるパートナー企業向けにAPIでの提供が開始される予定ということは、日本で一般利用可能となるのは、それよりも先と考えるのが自然でしょう。(無料で制限有のGPT-4oの利用はもう少し早いかもですが)
↓
無料版で試そうとしたところ、無料ではGPT-4oは未だ使えませんでした。段階的なんでしょうけど、日本で現状使えている人、いるのかな?
※2024年5月14日現在
ChatGPTの無料ユーザーはGPT-3.5だったのを思うと、制限有りとはいえGPT-4oが無料で解放される仕様に切り替わっていくというのは大きいですね。
以上、GPT-4oのプロジェクトページをざっと日本語にしてわかりやすく説明しました。2024年5月14日現在、GPT-4oは日本でも利用可能です。
↑GPT-4oを使って、小説を書いてもらう指示出し例をポストしました。
処理速度は、目に見えてわかるほどGPT-4oは速いです。
入力したテキストプロンプトは以下の通りです。
ファンタジー小説を書きなさい。主人公は、魔法使いの卵を持つ少年です。彼は、魔法の学校に入学し、様々な困難を乗り越えながら成長していく。文章スタイルは、軽快でユーモラスなものにしてください。
GPT-4oはひとまず、テキストと画像の機能がロールアウト開始しているため、画像生成を1つ試してみました。
入力したのは以下です。
以下の画像を生成してください
産業背景を中心に、光る文字で「GPT-4o」と書かれたネオンサイン。周囲には爆弾の部品や工具が散乱しており、カオスや軍の秘密基地のような雰囲気を醸し出している。「GPT-4o」の文字の下にはボール状の物体が置かれ、ミステリアスな印象を添えている。この構図は、暗い質感に対する明るい色の明るさのコントラストを強調し、奥行きを生み出している。このシーンは匿名のアーティストの作風のように見える。
パッと見た感じ、GPT-4turboでの生成画像のほうが見栄え良く感じましたが、GPT-4o生成画像は、きっちり「GPT-4o」の「-(ハイフン)」も反映されています。
個人的には、今回GPT-4oのプロジェクトページを読んで、最も気になったのは、やはり動画入力の部分です。
前述の通り、GPT-4oは現在、テキストと画像の入出力のみ対応で、音声と動画の入出力は 今後数週間以内に少数の信頼できるパートナー企業向けにAPIでの提供が開始される予定となっているとのことですが、動画入力が可能になれば、翻訳は是非試してみたいところです。
具体的には、「この動画にフランス語の字幕をつけてください。」といったことが可能になるのではないかと考えられるからです。
動画入力が可能になれば、以下のようなことが可能になる可能性があります。(希望的観測含)
動画の自動要約:動画の内容をテキストで要約する
動画の翻訳:動画の音声を別の言語に翻訳し、字幕として表示する
動画の質問応答:動画の内容に関する質問に答える
動画の編集: 動画を編集し、不要な部分をカットしたり、音楽を追加したり
また、動画といえば、OpenAIはGPT-4oに関する動画等、幾つか公開してくれています。↓ポストにはGPT-4oとは別件ですが、便利なAIツール(Chrome拡張追加)「Cici AI」についても触れています。
GPT-4oが気になる方は、一度GPT-4oのプロジェクトページに目を通してみると良いでしょう。
GPT-4oのさまざまな活用例
いろんなユーザーさん・クリエイターさんたちのXのポストから、「GPT-4oはこんなことが出来る」という、面白いと感じたものや、わかりやすい活用例などをピックアップしてみました。
などなど、さまざまな利活用が可能なChatGPT-4oです。
その処理速度の速さも、実際に試すと感じられます。
個人的所感では、やはり翻訳・通訳機能の能力がスゴイなぁと。
こういった使い方が出来るということは、海外で飲食店に入った時にも心強いですね。
また、翻訳かねて通訳に関しても、その能力は長けているのがわかります。
このように、テキストベース、そして近い将来、音声でもリアルタイム同時通訳が可能となることがわかります。
ほか