見出し画像

GPT-4oという通過点

今回は興奮冷めやまぬところで、GPT-4oについて書いていこうと思います。

ChatGPTの発表があり、そのあとすぐに搭載されたWEB版、アプリが出てきました。今回のポイントはまったく新しい機能というわけではなく何か新しいことができるようになったわけでもないのですが、画像の認識や音声の認識がとてもよくなったことと、何よりも驚くのはGPT-4並みの機能でレスが速いことが何よりです。
また、GPT-4oは課金ユーザーだけではなくすべての人に解放されているためどんなものかと使用することもできます。

『僕』の肌感覚では、この速さ、そしてすべての人に機能を解放していくという点においてこれからの未来を感じるなぁというのが一番の感想です。



GPT-4oの主な変更点を次にまとめてみます。

GPT-4oは、OpenAIが開発した最新のAIモデルで、テキスト・音声・画像をシームレスに扱える高速応答が特徴です。
以下にGPT-4oの主な新機能をまとめました。

マルチモーダル対応
GPT-4oは、テキスト・音声(Voice)・視覚(Vision)のそれぞれの機能を向上させたマルチモーダルモデルです。ユーザーが共有する画像を理解し、会話・議論できます。例えば、異なる言語で書かれたメニューの写真を撮影し、GPT-4oに話しかけて翻訳したり、料理の歴史や意義について学んだり、おすすめの料理を教えてもらったりできます。

高速応答
音声入力に対して最短232ミリ秒、平均320ミリ秒で応答可能で、従来のGPT-4より大幅に高速化しました。これは人間の会話における応答時間とほぼ同等です。

性能向上と低コスト化
英語とコードのテキストでGPT-4 Turboの性能に匹敵し、非英語言語のテキストも大幅に改善されました。APIもはるかに高速で50%安価になっています。

新機能の段階的リリース
GPT-4oの新しい音声とビデオ機能は、今後利用可能になる予定です。まずはChatGPT PlusとTeamユーザー向けにmacOSアプリが提供開始され、その後エンタープライズへ拡大していきます。Windows版は2024年後半の予定]。

今後は、自然なリアルタイムの音声会話や、リアルタイムの動画でChatGPTと会話できるといった使い方にも対応する計画があります[11]。GPT-4oはテキスト・音声・画像の組み合わせを扱える初のモデルなので、その可能性はまだ未知数の部分が大きいようです。

Open AI要約


このように何か新しいことができるわけではありませんが、『僕』たち人がスマホ、パソコン上で行うアクションに関してはアシストして代わりにやってくれるような形になっていくでしょうし、この応答の速さと言葉の認識力は対話型のサービスやAGIなどの開発へ大きく関わることができるのではないでしょうか

この理由から今回、発表されたGPT-4oは通過点に過ぎませんが、これは次の大きな一歩につながるための通過点なのではないかというのが『僕』の第一印象です。

Open AIより

こんな数学を一緒に勉強しているところなどは鳥肌が立ちましたね

この記事が参加している募集

この記事が気に入ったらサポートをしてみませんか?