![見出し画像](https://assets.st-note.com/production/uploads/images/140772604/rectangle_large_type_2_91da1a5df2f703790fd8852476c465c7.png?width=800)
GPT-4とGPT-4oの6つの違いとは
OpenAIがGPT-4oを発表しました。GPT-4よりも大きく進化したところが多く出ています。すでにXでは、GPT-4oの話題で溢れかえっています。
今回は、GPT-4oがGPT-4から具体的にどのように進化しているのか、内容を見ていこうと思います。
1分で読める要約
OpenAIが新たにGPT-4oを発表
GPT-4oは全方位型のLLM(Omnimodel)
テキスト以外に音声、画像、動画も処理可能
進化点:
画像解析の精度向上
OCRの精度向上
シミュレーション能力の強化
対応能力の向上
反応速度の向上
音声生成が可能
マルチモーダルAIとして高いパフォーマンスを発揮
ビジネスや日常生活での応用が期待される
本文は以下から読んでください
GPT-4oとは全方位型のLLM
OpenAIが新しいGPTを発表しました。
その名も「GPT-4o」
「o」はOmnimodel(オムニモデル)の略で意味は、全方位型モデル
すなわち、テキスト以外の音声、画像、動画の情報を処理できるということです。
名実ともにマルチモーダルとなったGPT-4oです。
では、GPT-4とGPT-4oはどのような違いがあるのかを詳しく見ていきます
GPT-4とGPT-4oはどのような違いがあるのか
すでに、GPT-4oを検証している方々が、GPT-4とどのような違いがあるかを出してきています。
今回は次の観点でGPT-4とGPT-4oの違いを見ていこうと思います。
画像解析の精度
OCRの精度が向上
シミュレーションができる
対応可能の向上
反応速度
音声の作成
画像解析の精度
紙に書いたデザインを読み取りHTMLに書き起こしている
GPT-4oの画像認識力と理解力をもってすればいけるやろと思ってやってみたら実際いけた。
— kmizu (@kmizu) May 14, 2024
ペーパープロトタイピングから最初のHTML書き起こすのにかなり使えるのでは。
つーか指示そのものを画像の中に書いたの読み取ってくれるの何か世界の壁を超えて対話してる感があって凄い#GPT4o pic.twitter.com/3XHMFg3yye
画像を送っただけで商品名を当てる
GPT-4o凄いな、速いだけじゃなくて賢い。
— AIセバスちゃん (@SebasAi) May 14, 2024
1枚目 GPT-4
2枚目 GPT-4o
なんで分かるんだよ。まじかよ pic.twitter.com/2mJsujYk9c
GPT-4oがあれば、盲目の方でも街を歩ける
感動するし凄すぎないこれ…
— woodstock.club | SNS型投資 (@woodstockclub) May 14, 2024
盲目の方がGPT-4oを使っていて街を歩く動画
字幕つけたから見てみんな… pic.twitter.com/1DingUcUa3
こちらも盲目の方がGPT-4oをまちなかで試しているところ
GPT-4oは秒単位で現実世界を認知できる
— 大佐/Taisa (@wasedaAI_taisa) May 14, 2024
この動画では、タクシーにサインを出すちょうどいいタイミングでユーザーに合図を出している。
10秒からでもいいから見て欲しい pic.twitter.com/OOuBBz4RBd
マンガの構成も読み取ることができるなんて天才!
GPT-4o マジだ、相当複雑にも関わらず相当高いレベルで漫画を読解できててすごい
— Torishima / INTP (@izutorishima) May 13, 2024
雑なプロンプトだから一部セリフが抜けちゃってるけど、それよりも漫画から人物の状況をほぼ完璧に理解できていることの方に驚いた エッグいな…… pic.twitter.com/J59zf55GI8
画像認識に関しては、GPT-4oの精度が格段に上がっていますね
特に盲目の方でも、GPT-4oでまちなかを歩けるのはすごい
OCRの精度が向上
画像にウニ、質問でイカですか?と質問したところ・・・
これは実用性高い
— でょ (@Deyoyoyo) May 14, 2024
左:gpt-4o 右:gpt-4 pic.twitter.com/TSuorpLypY
カオスマップもGPT-4oなら簡単に書き起こせる
GPT-4o、OCR性能もえぐい‥‥この人間でも認識困難なAIカオスマップの内容を永遠に吐き出してくる pic.twitter.com/0DumgrPYFv
— 石川陽太 Yota Ishikawa (@ytiskw) May 13, 2024
人の代わりに、GPT-4oが読書することも
GPT-4o、日本語のOCR精度が爆発的に向上してて、本のページを送ると図版のレイアウトも加味した上で完璧な書き起こしをしてくれる!
— KAJI | 梶谷健人 / 新刊「生成AI時代を勝ち抜く事業・組織のつくり方」発売! (@kajikent) May 14, 2024
自分の読書スタイルは本当は紙が好きだけど、Notionにまとめること考えるとKindleの方が便利で一長一短…という悩みがあったんだけど、これで完全に解決した🙌 pic.twitter.com/JWcatQ7T6r
GPT-4o、日本語のOCR精度が爆発的に向上していますね。カオスマップを読み取れたり、書籍を読み取れるのはすごいです
シミュレーションができる
マジック・ザ・ギャザリングもできる
GPT-4o、マジック:ザ・ギャザリングできるんじゃねという話から試しに雑設定で遊び始めたところ、マジでシミュレーションできて笑ってる pic.twitter.com/DgPR9X1XNt
— あるふ (@alfredplpl) May 14, 2024
日本語の読み取りは完璧、自分だけの秘書になる?
GPT4o、マルチモーダルがむっちゃ強化されてる。日本語も完璧いけるし、もう人間様が夜なべして開示資料を読む必要もなくなって、「今日TDnetに出た資料ぜんぶ読んで見所のあるやつピックアップしておいて」って言えば済むようになるのでは…… pic.twitter.com/C4Yu1FkROy
— 駄犬 (@daken_in_market) May 14, 2024
シミュレーションができるのは、すごいですね
対応能力の向上
人の代わりにAIが家庭教師に
iPadの画面をGPT-4oにシェアしながらリアルタイムに生徒がGPT-4oから数学を教えてもらうデモ。
— KAJI | 梶谷健人 / 新刊「生成AI時代を勝ち抜く事業・組織のつくり方」発売! (@kajikent) May 14, 2024
拙著でも「近い未来に全ての学生・学習者に無限の忍耐力と知識を持った家庭教師・パーソナルトレーナーがつく」と書いていましたが、もう実現しましたね。 pic.twitter.com/JBIrECEKBT
人と話しているようなAI
GPT-4o「(カメラ映像見る限り)何かの発表ぽいね」
— KAJI | 梶谷健人 / 新刊「生成AI時代を勝ち抜く事業・組織のつくり方」発売! (@kajikent) May 14, 2024
OpenAI社員「実は、"君"を発表しているんだよ」
というやり取りのあと、「え、アタシ!?!?」と驚き照れつつリアクション返してるの、本当に映画「Her」のレベルにAIが到達した感すごい。 pic.twitter.com/ZOkF3tJ2Bj
GPT-4oがコンサルタントにもなれる
GPT-4oの「SNS運用アドバイス」が有益すぎる
— すぐる | ChatGPTガチ勢 𝕏 (@SuguruKun_ai) May 14, 2024
ㅤ
超速で、入力データを元にした分かりやすいグラフや詳細な分析をしてくれる...👀
ㅤ
おすすめのプロンプト:
"プロのSNSコンサルとして、この人のデータを具体的に分析し、視覚化してください。
その上で、機知に富んだ運用アドバイスをしてください。" pic.twitter.com/VY3fVqinyz
ㅤ
人と同じようなことがAIでも実現できることが証明されましたね。近い内にすべてAIに変わるのでは
反応速度
GPTの反応速度は格段に上がっている
GPT-4o, 反応が大幅に早くなったので、Cloudで動かしているインスタンスに100名以上の学生さんがリクエストしても、最大5インスタンスで処理できる。以前は数倍必要だった。 pic.twitter.com/TguWjKKqVa
— やのせん@VR/メタバース教育 (@yanosen_jp) May 14, 2024
音声の作成
実は音の生成もできます
いやエグいエグいエグい。
— りょうちけ🦋AI×SNSの教科書📕 (@ryo_kun0811) May 14, 2024
[ GPT-4o ] にダメもとで
「Kickとスネアの音を生成して」
って無茶振りしてみたら
余裕の表情で出してきたんだけどwwww
そんな発表してましたっけ…? pic.twitter.com/Vmh5TbHVtd
対応できないところもある
6つの性能が向上しましたが、できていないところも
Webサイトの読み取りが苦手
Chat GPT-4oがすごいというので、ノートPCのスペック比較表を作らせてみたところ、間違いだらけで笑えない。できるだけ詳細にと言ったのに、サイズもバッテリー駆動時間も抜けてるし。対象の資料をURLで直接指定したのにまともに読み込めないなんて、一体どんな仕事なら任せられるんだ…? pic.twitter.com/KkSNJ0CkWz
— フラとこ (@fratoko) May 14, 2024
動画の解析が苦手
【悲報:GPT-4oにも限界があった。】
— チャエン | 重要AIニュースを毎日発信⚡️ (@masahirochaen) May 14, 2024
今回の26分ほどのGPT-4oの初回動画を読み込ませて要約を依頼したところ、GPT-4oでは上手く要約ができなかった。
Gemini 1.5 Proだとほぼ完璧に動画解析ができた。
やはりマルチモーダルはまだGeminiが強い。
全知全能ではないので、GPT-4oの崇め過ぎには注意。… pic.twitter.com/TvBkqHAiVN
まとめ
GPT-4oの機能の全貌はまだ解明されていませんが、GPT-4よりも格段に性能が上がっています。
特に画像解析、OCRの性能や対応能力は段違い
AIさえあれば、人はいらないと思えるような性能です。
このような生成AIを使いこなし、新しいビジネスを創造することが問われてきますね。