見出し画像

生成AI Topic|OpenAI Spring Update と Google I/O 2024 に関するサマリー解説

こんにちは。
株式会社エクスプラザが運営する、生成AI Weekly News の特集号「生成AI Topic」です。

今週、5/13 と 5/14 に OpenAI と Google から生成AI に関する発表がありました。
本記事では、それぞれの発表内容の要点をまとめ、解説をしております。


OpenAI Spring Update


5月13日、OpenAI より様々な発表がありました。
(詳細はコチラ

今回の発表は、大きく3つのポイントがあります。

  1. GPT-4o のリリース

  2. より自然な音声会話・マルチモーダル化

  3. 無料ユーザーへの解放(GPT-4o)

(デスクトップアプリも出てましたが、今回は上記3つに絞ってご紹介します。)


1. GPT-4o のリリース

GPT-4o とは、OpenAI から発表された新しいモデルで、より自然な対話が可能になる LLM モデルです。(GPT-4o の"o"は、"omini(すべて)")

omini といっているように、テキスト生成に閉じず、オーディオ、イメージ、ビデオのあらゆる組み合わせをもとに、入力/出力として生成できるようになる模様。

GPT-4o (“o” for “omni”) is a step towards much more natural human-computer interaction—it accepts as input any combination of text, audio, image, and video and generates any combination of text, audio, and image outputs.

https://openai.com/index/hello-gpt-4o

また、

  • GPT-4 Turbo と比較して、約2倍高速(API 利用で)

  • 約 50% のコスト削減

というように、より速く、より低コストになっています。

従来のベンチマークで測定したところ、GPT-4o は、テキスト、推論、コーディング・インテリジェンスで GPT-4 Turbo レベルの性能を達成しています。

他の性能テストについては、来週あたりに出てくるかと思いますので、また来週のニュースで取り上げる予定です。


2. より自然な音声会話・マルチモーダル化

GPT-4o のリリースに伴い、自然な音声会話ができるようになりました。
これの何が注目ポイントかというと、LLM の登場でユーザーインターフェースのありかたに変化が起きている中、このモデルの登場によって、よりユーザビリティの高い「会話」へとインターフェースが進化していくという点にあるかと思います。

実際にデモ動画を見ていただくとより実感できるかと思います。いくつかピックアップします。

▼ GPT-4o と一緒に会議

参加者の質問に対して、大きな遅延もなく回答をしています。部分で感情的に聞こえるようなイントネーション、会話内容もあります。

▼ GPT-4o とインタビュー

GPT-4o でインタビューをしている様子です。0:53 では、GPT-4o が笑って返答をしています。対話形式でも何ら不自然に感じません。

▼ 画面共有をすることで、数学の問題をティーチングしてくれる

数学の図形問題を画面共有で写して、それをもとに解き方を解説してくれています。

これらのように、より低コストで、高速に、そしてマルチモーダルに使えるようになったのが、GPT-4o です。

ちなみに Sam Altman 曰く、現在 ChatGPT のアプリで使用できるのは旧バージョンとのことです(GPT-4o は未搭載)。


3. 無料ユーザーへの解放(GPT-4o)

上記のように、優れた性能を発揮している GPT-4o ですが、無料ユーザーでも利用可能のようです。

「AI の民主化」と言われていたりしますが、OpenAI のこの動きは AI の社会実装に向けて、より大きな一歩となるのではないでしょうか。

GPTs も無料ユーザーでも使えるようなので、これまで使ってこなかった人も触る機会が増えそうですね。


他にも面白かったのが、イマイチと言われていた OpenAI の画像生成の性能が上がっているかもしれないという話です。

  1. 一貫したキャラクターの作成

  2. 複数画像の合成

  3. 生成した画像に対する細かい調整

ができるようになっていました。
(他にも 3Dオブジェクトの生成やAI特有の文字の揺らぎがない等の特徴もありました。)

一貫したキャラクターの作成
複数画像の合成
ダークモードに変更したり、線を消したりと細かい調整ができるようです。


参考資料

Spring Update 全般
https://openai.com/index/hello-gpt-4o/

GPT-4o と GPT-4 Turbo のスピード差等について
https://help.openai.com/en/articles/7102672-how-can-i-access-gpt-4-gpt-4-turbo-and-gpt-4o

画像生成に関して
https://openai.com/index/hello-gpt-4o/#:~:text=Explorations%20of%20capabilities


Google I/O 2024


Google から、OpenAI Spring Update の翌日 5月14日に発表がありました。
(詳細はコチラ

  1. Gemini 1.5 Flash のリリース

  2. 画像・音声・動画生成サービスのリリース

(その他にもたくさんの発表がありましたが、上記に絞ってご紹介します。)


1. Gemini 1.5 Flash のリリース

Googel から Gemini 1.5 Pro に続き、新しく Gemini 1.5 Flash がリリースされました。
特徴はコチラ

  • トークン数が 100万 → 200万

  • コストが圧倒的に安い

まずトークン数についてですが、Gemini 1.5 Pro は従来は 100万トークンと、他モデルと比較しても、圧倒的に大きいコンテキストウィンドウが特徴でした。今回リリースされた Gemini 1.5 Flash はその2倍の 200万トークンです。

他モデルのコンテキストウィンドウサイズと比較すると、よりその大きさがわかります。(2024/05/17 時点)
 GPT-4 Turbo:128,000トークン
 Claude 3 Haiku / Sonnet / Opus:200,000

コストに関しても、他モデルと比較しても圧倒的に安いことがわかります。性能に関する詳細の情報が出てきてからにはなりますが、性能も良いとなると、議事録文章の整形など長文処理への活用に期待が高まります。

2024/05/17 時点の価格表(価格の低い順)

また、以前はレート制限が厳しかったのですが、そこも緩和されたため、より多くの用途で使っていただくことが可能になりました。議事録の要約や整形等の用途での活用が期待されます。

これまで Google はマルチモーダルに特徴を持っていましたが、今回「Project Astra」という、視覚情報も用いて会話をするエージェントのデモ動画が公開されました。


2. 画像・音声・動画生成サービスのリリース

画像生成「Imagen 3」
音楽生成「Music AI Sandbox」
動画生成「Veo」

この中でも、動画生成サービスの「Veo」を取り上げてご紹介します。
以前、OpenAI から動画生成の「Sora」というサービスが紹介されましたが、それと似たサービスとなっています。
プロンプトをもとに動画を生成することができるサービスです。デモでは、1分を超える動画を生成していました。


参考資料


まとめ

これら、OpenAI と Google の発表を踏まえると、

  • マルチモーダル化

  • インターフェースがチャットから対話へ

  • 応答速度の向上

  • コスト減

  • コンテキストウィンドウの拡大

  • 画像生成・動画生成に期待

といった動きがより加速されていくのではないでしょうか。
以上、OpenAI Spring Update と Google I/O 2024に関するサマリー解説でした。


[ご案内] 生成AI活用のお悩み相談、開催中


現在弊社では、生成AI 活用をご検討されている企業様のお悩み相談を、1時間無料で受け付けております。

相談はコチラをクリック

EXPLAZA 生成AI Partner では、生成AI 活用のコンサルティングから開発までを一気通貫でご支援しております。

業務効率化のための法人向け ChatGPT 環境のサービスや、生成AI に関する研修にご興味がある方は、コチラから

=========================================
この note が気に入ってくれた方は、
ぜひ「いいね」と「フォロー」をお願いします♪

X でも生成 AI や LLM に関する情報を発信してますので、
ぜひ覗いてみてください!

「株式会社エクスプラザ(公式)」アカウント
https://twitter.com/explaza_inc
「生成AI事例集」アカウント
https://twitter.com/explaza_usecase

生成AI事例集

会社HP


この記事が気に入ったらサポートをしてみませんか?