GPT-4o（オムニ）登場！教育関係者向けChatGPT アップデート情報

けいすけ

2024年5月16日 12:38

※ この note は、2024年5月16日付の情報をもとに作成しています。利用の際は、必ず公式の情報を確認してご利用ください。

2024年5月13日に、OpenAI が GPT-4o を発表しました！

これは、GPT-4 を超える性能を持つモデルになっています！
そして、無料版のユーザーでも使うことができるようになっており、画期的なアップデートです！

OpenAI が YouTube の再生リストでまとめてくれているので、こちらはチャンネル登録必須ですね！

さて、ここから概要からどんなところが変わったのか？？を解説していきたいと思います！

GPT-4o の概要

公式ページにはこのような記載があります。

GPT-4o (“o” for “omni”) is a step towards much more natural human-computer interaction—it accepts as input any combination of text, audio, image, and video and generates any combination of text, audio, and image outputs. It can respond to audio inputs in as little as 232 milliseconds, with an average of 320 milliseconds, which is similar to human response time(opens in a new window) in a conversation. It matches GPT-4 Turbo performance on text in English and code, with significant improvement on text in non-English languages, while also being much faster and 50% cheaper in the API. GPT-4o is especially better at vision and audio understanding compared to existing models.

May 13, 2024, Hello GPT-4o
https://openai.com/index/hello-gpt-4o/

GPT-4o（「o 」は「omni 」の意）は、より自然な人間とコンピュータの対話への一歩であり、テキスト、オーディオ、イメージ、ビデオのあらゆる組み合わせを入力として受け入れ、テキスト、オーディオ、イメージのあらゆる組み合わせを出力として生成する。音声入力に対して最短232ミリ秒、平均320ミリ秒で応答することができ、これは会話における人間の応答時間(新しいウィンドウで開きます)に似ています。GPT-4oは、英語とコードのテキストでGPT-4ターボの性能に匹敵し、非英語言語のテキストでは大幅に改善され、APIでははるかに高速で50％安価です。GPT-4oは、既存のモデルと比較して、特に視覚と音声理解に優れています。

www.DeepL.com/Translator（無料版）で翻訳しました。

あまり専門的すぎても難しいので、簡単にいうと、

有料版で使っていた GPT4 よりも性能と効率が上がったよ！

という感じですね笑
ざっくりしすぎか🤣笑

あんまり詳しい数値とかは、専門的に極めていきたい方はぜひご覧ください！

規約について

また、これによる規約の変更などは確認できませんでした。

これまで、GPT-4 を利用するには、Plus や Team プランの有料契約をしないといけませんでした。

そして、ユーザーが入力したデータを学習されるのは、無料版と Plus（有料版）で、Team プランは学習に利用されずに使うことができます。

GPT-4o もその基準は変わりません。

モデルが新しくなったからといって、何でも入力して良いわけではないので気をつけましょう！

ChatGPT との会話

Prior to GPT-4o, you could use Voice Mode to talk to ChatGPT with latencies of 2.8 seconds (GPT-3.5) and 5.4 seconds (GPT-4) on average. To achieve this, Voice Mode is a pipeline of three separate models: one simple model transcribes audio to text, GPT-3.5 or GPT-4 takes in text and outputs text, and a third simple model converts that text back to audio. This process means that the main source of intelligence, GPT-4, loses a lot of information—it can’t directly observe tone, multiple speakers, or background noises, and it can’t output laughter, singing, or express emotion.

May 13, 2024, Hello GPT-4o
https://openai.com/index/hello-gpt-4o/

GPT-4o以前は、ボイス・モードを使ってChatGPTと話すことができましたが、その待ち時間は平均2.8秒（GPT-3.5）、5.4秒（GPT-4）でした。これを実現するために、Voice Modeは3つの独立したモデルのパイプラインになっています。1つのシンプルなモデルが音声をテキストに書き起こし、GPT-3.5またはGPT-4がテキストを取り込んでテキストを出力し、3つ目のシンプルなモデルがそのテキストを音声に戻します。このプロセスは、知能の主な源であるGPT-4が多くの情報を失うことを意味する。つまり、トーン、複数の話者、背景ノイズを直接観察することができず、笑い、歌、感情を表現することを出力できないのだ。

www.DeepL.com/Translator（無料版）で翻訳しました。

何を言っているのか解説しますね！

実は、スマホ用の ChatGPT アプリで先行して音声を使ったやりとりがしやすくなっていました。

また、ブラウザ上からも、出力結果の左下にスピーカーアイコンができていました。

これは、音声入力した音声をテキストにして実行しているだけだったんですよね。

これによって、音声をテキストに変換する過程で多くの情報を失い、自然な会話が難しかったのに対して、GPT-4o はその制約を克服し、より自然でスムーズな対話を実現できるようになりました！

With GPT-4o, we trained a single new model end-to-end across text, vision, and audio, meaning that all inputs and outputs are processed by the same neural network. Because GPT-4o is our first model combining all of these modalities, we are still just scratching the surface of exploring what the model can do and its limitations.

May 13, 2024, Hello GPT-4o
https://openai.com/index/hello-gpt-4o/

GPT-4oでは、テキスト、視覚、音声にまたがる単一の新しいモデルをエンドツーエンドでトレーニングしました。GPT-4oは、これらすべてのモダリティを組み合わせた初めてのモデルであるため、私たちはまだ、このモデルで何ができるのか、またその限界について、表面だけを探っているに過ぎません。

www.DeepL.com/Translator（無料版）で翻訳しました。

これにより、GPT-4oは、テキスト、視覚、音声を統合的に処理する初めてのモデルであり、従来では達成できなかった自然で一貫した対話を実現できるという、、、

なんかすごそうですよね🤨笑

デモを見てもらった方が早かもですね笑

無料版の使用制限

ここからは原則無料版での利用シーンを想定しています！
学校で有料版の契約は、なかなか難しいですからね、、、😅

こちらに、モデルと価格の一覧があります

Pricing
https://openai.com/chatgpt/pricing/

これによると、GPT-4o は、無料版でも使えることがわかります。
（Plus は最大5回となっていますが、正確には5倍です）

公式ページにもこのようになっています。

GPT-4o’s text and image capabilities are starting to roll out today in ChatGPT. We are making GPT-4o available in the free tier, and to Plus users with up to 5x higher message limits. We'll roll out a new version of Voice Mode with GPT-4o in alpha within ChatGPT Plus in the coming weeks.

May 13, 2024, Hello GPT-4o
https://openai.com/index/hello-gpt-4o/

GPT-4o のテキストおよび画像機能は、ChatGPT で今日から展開され始めます。 GPT-4o は無料枠で利用できるほか、最大 5 倍のメッセージ制限を持つ Plus ユーザーも利用できるようにしています。今後数週間以内に、ChatGPT Plus 内でアルファ版の GPT-4o を使用した音声モードの新バージョンを公開する予定です。

www.DeepL.com/Translator（無料版）で翻訳しました。

あ、ちなみにUIが変更されているので気をつけてください！

左上にモデルがあるのは変わらないんですが、GPT-4o を選択するところはありません！

ではどこで確認できるかというと、、、？

↑のように何かしらの指示を与えて、出力させると、末尾のところに、🔸のアイコンができています。

このプルダウンから切り替えることができます。
GPT-3.5 をクリックすると、せっかく今出てきた出力を書き換えられてしまうので注意してください！

そう！自動的に GPT-4o になっているということです！

ちなみに、Plus （有料版）を契約している場合は、左上にモデルがあり、最新の GPT-4o （オムニ）を選択できるようになっています。

会話を続けていると、このように複数の回答を提案してくれたりもしますね！

そして、このくらいの会話で制限がかかります！

そして復活するのに24時間はかかるようですね、、、笑

まだ24時間経っていないと、新しい会話を作ってもこんな感じの表示となります。

ログイン後は、このような画面になり、若干変わっていますね。
**アカウントは右上にあります**👀

厳密な回数やトークン数の制限の記述を見つけることができませんでした。

でも、少しでも有料級の恩恵を受けることができるのは大きいですよね！
先ほどの記述にあったように、画像をアップロードもできるようになっています！

ただし、制限がかかるので注意をしましょう。
アップロードはできるけど、画像の生成はできなかったりします。

また、GPTs も作成はできないけど、公開されている GPTs は使えるようになる感じですかね？
これは段階的かと思います。
まだ確認はできていません！！

でもほら、画像の認識バッチリですね！
（すぐに制限がかかってしまいそうだけど笑）

データ分析については、テキストデータを与えたけど、ちゃんと認識してくれないですねー。

これも制限のうちに入っているってことかな？🧐
明確な公式ページの記載を確認できなかったので、今後も探していきたいと思います。

Mac 用のアプリ

まずは有料版の Plus のユーザーからアプリの提供を始めるそうです。

We're rolling out the macOS app to Plus users starting today, and we will make it more broadly available in the coming weeks. We also plan to launch a Windows version later this year.
For both free and paid users, we have launched a new ChatGPT desktop app for macOS that is designed to integrate seamlessly into anything you’re doing on your computer.

Using the ChatGPT MacOS App
https://help.openai.com/en/articles/9275200-using-the-chatgpt-macos-app

本日より、Plusユーザー向けにmacOSアプリの提供を開始し、今後数週間で広くご利用いただけるようになる予定です。また、今年後半にはWindows版もリリースする予定です。無料・有料ユーザーともに、お使いのコンピュータで行っているあらゆることにシームレスに統合できるよう設計された、新しいmacOS用ChatGPTデスクトップアプリをリリースしました。

www.DeepL.com/Translator（無料版）で翻訳しました。

記述の通り、無料ユーザーも使えるようになるそうなので楽しみですね！🚀

利用できる範囲が少ないにしろ、少しでも優秀な生成AIを使えるようになったのは良いことですね！

SNS

X

Tweets by keisuke_edu

Facebook

YouTube チャンネル

いちばんやさしい Google Apps Script

何かと０から１を作るのは大変だと思います。学校はどこも似たような問題課題に対応していると思います。それなのに、先生って自分だけで頑張ろうとするんですよね。ボクの資料やnoteが１になって、学校ごとの現状に合わせてカスタムしていただければと思います‼️