見出し画像

GPT-4o (omni)とGPT-4の比較

この記事の要約
・概要: GPT-4o (omni)発表、使いやすさ向上
・速度: 英語で約2倍、日本語で約3倍速く
・音声: リアルタイムで感情豊かな応答
・画像認識: 日本語対応
・画像出力: クオリティ向上、キャラクターの一貫性が改善
・リアルタイム認識: 動画・音声対応
・データ分析: Google/OneDrive対応、表の特定箇所を選択して指示を出せる
・API料金: 画像入力を含むAPI利用料がGPT-4 Turboの半額に

GPT-4oによる要約

こんにちは、Martinです。GPT-4oを数日使ってみての印象を含めてGPT-4の違いを簡単にまとめました。

概要

OpenAIから発表されたGPT-4の新バージョン、GPT-4o (omni)が登場し、UI・UXがブラッシュアップされました。性能面での向上というよりは、体験のよさが格段に向上したという印象です。

主な改善点

1. テキストの出力速度

GPT-4oでは、英語のテキスト出力速度がGPT-4の約2倍に、日本語では約3倍にまで高速化されました。これは、Tokenizer(トークナイザ)が日本語に対応したことによる効果です。これまではChatGPTの応答が遅いので、仕事に組み込むことが難しかったですが、GPT-4oが出てからはたとえばミーティング中に聞いてもChatGPTによる回答が間に合うようになりました。

2. 音声レスポンス

音声でのレスポンスがほぼリアルタイムになり、感情豊かな応答が可能になりました。この機能は今後数週間で対応予定です。レスポンスが早くなるだけで、一気に実用的になる予感がします。リモートワークの人は話しながら作業ができるようになりそうです。

リアルタイムでの英会話の練習ができるようになりそうです。このデモはスペイン語の場合です。

音声機能がリリースされたら、以下の英会話用プロンプトの記事も更新します。

リアルタイム翻訳のデモもありました。

3. 画像認識の向上

GPT-4oは日本語の文字認識が可能になりました。前までは英語のみ可能でした。

また、データの構造を読み取る能力も向上したようです。日本語のパワポのスライドを読み取ってもらうことなども可能です。前まで無理だったマインドマップも行けました。これについては今後記事を書きたいです。

※無理だった頃の記事

4. 画像出力の改善

出力される画像のクオリティが上がり、特にキャラクターの一貫性などが改善されました。ただしこれに関しては公式からの発表はないようです。全体的にはMidjourneyやStable Diffusionの方がクオリティーが高いままですが、気軽に使えるという意味では便利になったと感じます。画像内への日本語の文字入れはまだできないようです。これはそのうち対応すると思います。

5. リアルタイムでの動画・音声認識への対応

近日中に、スマートフォンアプリやMac版アプリでカメラ映像、音声をリアルタイムで共有・認識できる機能が追加される予定です。

PCのリアルタイムの画面共有機能が実装されることも期待しています。これができると使い方がわからないソフトウェアの画面をChatGPTに共有して、教えてもらいながら画面をぽちぽちして作業を進めることができるようになりそうです。zoomなどのウェブ会議に参加させることも可能なようです。そうなると議事録も取ってもらえそうです。

音声認識のみであれば、ChatGPTアプリですでに使えるWhisperも十分な精度です。

音声での会話はすでにまあまあレスポンスが早いCotomoというアプリも出ています。ただこれはGPT-3.5なので性能自体がイマイチでした。APIをGPT-4oに入れ替えるとかなり中身のある会話もできるようになりそうです。

6. データ分析機能の強化

データの取り込みがGoogleドライブとOneDriveから可能になりました。データ分析機能自体も強化されて、たとえば、表の中の特定の箇所を選択して指示を出すことが可能になったようです。この機能はリリースされたばかりなので、少し使って様子を見たいと思います。

データ分析機能自体は前からありましたがイマイチ使われていない印象でした。

性能アップで以下の記事のようなことが現実味を帯びてきている気がします。高度なことは難しくても一般の事務レベルなら多くのことをこなすようになりそうです。

ChatGPTでのデータ分析はこの本がわかりやすいです。ただ、だいぶアップデートされたので古いと感じる内容もありそうです。

7. API利用料の改定

画像入力(GPT-4V)を含むAPI利用料が、GPT-4 Turboの半額に設定されました。ただGeminiよりはかなり高いままです。

その他

・数学を解く能力も上がっているようです。式や図を画像認識で読んでもらえるようです。

・人間の表情を理解する能力が上がったようです。(リンクを忘れた)

どのように使い分けるか

このようにOpenAIは進化していますが、Googleが追い上げてきています。特にGemini Flashが速度、価格、性能面でよいようです。タスクに応じて、GPT-4o、Gemini、Claudeを使い分けるのが賢明かもしれません。どのタスクで使うのがいいのかはこれから徐々にわかってくるでしょう。たとえば、日本語の自然さは相変わらずClaude 3 Opusの方がいいと感じます。


最後まで読んでいただき、ありがとうございます!もし気に入っていただけたら、ぜひスキとフォローをお願いします。みなさまからの反応は、わたしが質の高い記事を書き続けるためのモチベーションにつながります。

この記事を読んだ方が興味を持ちそうな記事


いつも読んでくださりありがとうございます!サポートは、お勉強代として活用させていただいております。