見出し画像

GPT-4とGPT-4oの6つの違いとは

OpenAIがGPT-4oを発表しました。GPT-4よりも大きく進化したところが多く出ています。すでにXでは、GPT-4oの話題で溢れかえっています。

今回は、GPT-4oがGPT-4から具体的にどのように進化しているのか、内容を見ていこうと思います。

1分で読める要約

  • OpenAIが新たにGPT-4oを発表

  • GPT-4oは全方位型のLLM(Omnimodel)

  • テキスト以外に音声、画像、動画も処理可能

  • 進化点:

    • 画像解析の精度向上

    • OCRの精度向上

    • シミュレーション能力の強化

    • 対応能力の向上

    • 反応速度の向上

    • 音声生成が可能

  • マルチモーダルAIとして高いパフォーマンスを発揮

  • ビジネスや日常生活での応用が期待される

本文は以下から読んでください


GPT-4oとは全方位型のLLM

OpenAIが新しいGPTを発表しました。

その名も「GPT-4o」

「o」はOmnimodel(オムニモデル)の略で意味は、全方位型モデル

すなわち、テキスト以外の音声、画像、動画の情報を処理できるということです。

名実ともにマルチモーダルとなったGPT-4oです。

では、GPT-4とGPT-4oはどのような違いがあるのかを詳しく見ていきます

GPT-4とGPT-4oはどのような違いがあるのか

すでに、GPT-4oを検証している方々が、GPT-4とどのような違いがあるかを出してきています。

今回は次の観点でGPT-4とGPT-4oの違いを見ていこうと思います。

  • 画像解析の精度

  • OCRの精度が向上

  • シミュレーションができる

  • 対応可能の向上

  • 反応速度

  • 音声の作成

画像解析の精度

紙に書いたデザインを読み取りHTMLに書き起こしている


画像を送っただけで商品名を当てる


GPT-4oがあれば、盲目の方でも街を歩ける


こちらも盲目の方がGPT-4oをまちなかで試しているところ


マンガの構成も読み取ることができるなんて天才!

画像認識に関しては、GPT-4oの精度が格段に上がっていますね

特に盲目の方でも、GPT-4oでまちなかを歩けるのはすごい

OCRの精度が向上

画像にウニ、質問でイカですか?と質問したところ・・・


カオスマップもGPT-4oなら簡単に書き起こせる

人の代わりに、GPT-4oが読書することも

GPT-4o、日本語のOCR精度が爆発的に向上していますね。カオスマップを読み取れたり、書籍を読み取れるのはすごいです

シミュレーションができる

マジック・ザ・ギャザリングもできる

日本語の読み取りは完璧、自分だけの秘書になる?

シミュレーションができるのは、すごいですね

対応能力の向上

人の代わりにAIが家庭教師に

人と話しているようなAI


GPT-4oがコンサルタントにもなれる


人と同じようなことがAIでも実現できることが証明されましたね。近い内にすべてAIに変わるのでは

反応速度

GPTの反応速度は格段に上がっている


音声の作成

実は音の生成もできます


対応できないところもある

6つの性能が向上しましたが、できていないところも

Webサイトの読み取りが苦手


動画の解析が苦手

まとめ

GPT-4oの機能の全貌はまだ解明されていませんが、GPT-4よりも格段に性能が上がっています。

特に画像解析、OCRの性能や対応能力は段違い

AIさえあれば、人はいらないと思えるような性能です。

このような生成AIを使いこなし、新しいビジネスを創造することが問われてきますね。