見出し画像

【最強になった】Googleの最大1000万トークン入力可能なGemini 1.5 Proがヤバすぎる。《概要、他LLMとの比較、ビジネスシーンでの活用方法5選を徹底解説》

みなさん、こんにちは。チャエンです!
(自己紹介はこちら

Googleは15日(米国時間)に、最大1000万トークンに対応した最新AIモデル「Gemini 1.5 Pro」を公開しました。精度も高く、Gemini 1.0 Ultraに匹敵するレベルとのことです。

今回は、概要や他LLMとの比較、そしてできること5選を徹底解説します。
Giminiはこれからも進化していくので、一度キャッチアップしましょう!🔥

ぜひ最後までご覧ください📝


1.Gemini 1.5 Proの概要と特徴

1-1 Gemini 1.5 Proの概要

2024年2月15日、Google AIはGemini 1.5と呼ばれる次世代言語モデルを発表しました。2022年5月に発表されたGemini 1.0の改良版であり、より高度な言語処理能力と幅広い知識を備えています。

● 性能テストで先代の大型モデル・Ultra 1.0と互角
● Transformerの進化系、MoEアーキテクチャを搭載
● LLM史上最大、100万トークンもの入力に対応
(論文のテストでは最大1000万トークンのテストもしたと記載あり)

動画:Up to 3 hours (2.8M tokens)
音声: Up to 22 hours (2M tokens)
文章:7M words (10M tokens)

現在は一部のデベロッパーと顧客企業のみが、AI StudioとVertex AIから、使用することができます。

私はまだWaitList待ちで早く使いたいところです。。Gemini 1.0 Proなら利用可能です。

https://aistudio.google.com/app/prompts/new_chat

1-2 Gemini 1.5 Proの特徴

Gemini 1.5 Proの特徴は以下の通りです。
文書400ページ丸ごとの解析や動画1時間の読み込み、ソースコード100,000行の修正などのデモもGoogleから公開されています。

①文書400ページ丸ごとの解析
この100万トークンのコンテキストウィンドウを使えば、一度に70万語以上のテキストを読み込むことができます。出力はより一貫性があり、適切で有用なものになります。

②超長いコードを一括で読み取る

ソースコードは100,000行まで読み込みが可能なので、コードの複雑な関係、パターン、理解を把握するのに役立ちます。開発者は新しいコードベースをアップロードすることで、コードを迅速に理解することができます。

③最大1時間の動画から推論
Gemini 1.5 Proは、最大1時間のビデオに渡って推論することもできます。動画を添付すると、Google AI Studioはそれを何千ものフレーム(音声なし)に分解し、高度な推論や問題解決のタスクを実行することができます。

Gemini 1.5 Proは、与えられたプロンプト内の大量のコンテンツを継ぎ目なく分析、分類、要約する能力を持ちます。このミッションのトランスクリプトから興味深い詳細を理解し、推論し、特定することが可能です。

④膨大な情報に対する複雑な推論
Gemini 1.5 Proは、ビデオを含むさまざまなモダリティに対して、高度に洗練された理解と推論タスクを実行できます。

  • 自然言語生成: 詩、小説、コード、脚本、音楽作品、メール、手紙などの様々な形式のテキストを生成することができます。

  • 翻訳: 100以上の言語間で高精度な翻訳を行うことができます。

  • 質問応答: 質問に対して、正確かつ詳細な回答を提供することができます。

  • 要約: 長文を理解し、簡潔で分かりやすい要約を作成することができます。

  • 文章校正: 文法やスペルミスなどの誤りを検出し、修正することができます。

詳細はこちら📝

2.他のLLMとの比較

Gemini 1.5のライバルとして考えられるLLMは、マルチモーダル対応のGPT-4・入力トークン数200KのClaude 2です。

以下はそれぞれの入力トークン数とモダリティをまとめた表です。Gemini 1.5 Proが圧倒的に秀でていることがわかります。

2-1 Gemini 1.5 Proと1.0 Ultraの比較

Gemini 1.5 Proは中規模のモデルでありながら、先代の旗艦モデルであるUltra 1.0と同等の性能を持っています。

Ultra 1.0は、Gemini 1.5 Proが公開される一週間前にリリースされた新しいモデルです。性能比較では32項目中30項目でGPT-4を上回り、数学・人文学を含む全57科目の問題集「MMLU」で専門家を凌ぐ高い性能を誇っていました。

Ultra 1.0とGemini 1.5 Proを比較すると、基本性能(Core Capabilities)は双方が互角であることが分かります。さらに、テキスト処理能力の比較では、13項目中10項目でGemini 1.5 Proが上位に立っています。

詳しい論文はこちら
https://storage.googleapis.com/deepmind-media/gemini/gemini_v1_5_report.pdf

テキスト、コード、画像、音声、動画の包括的な評価パネルでテストしたところ、Gemini 1.5 Proは、大規模言語モデル(LLM)の開発に使用したベンチマークのうち87%で1.0 Proを上回りました。また、同じベンチマークで1.0 Ultraと比較した場合、ほぼ同レベルの性能を示しています。

Gemini 1.5 Proの長いコンテキストウィンドウは、大規模モデルの中では初めてのものであるため、その斬新な能力をテストするための新しい評価とベンチマークを継続的に開発しています。

3.技術面の解説

3-1 高効率アーキテクチャ

Gemini 1.5は、最先端のTransformerとMoEアーキテクチャに基づいて構築されているため、従来の大規模ニューラルネットワークとは異なり、特定の「エキスパート」ネットワークに分割されています。このアプローチにより、MoEモデルは与えられた入力に最も適したエキスパートを選択的に活性化させ、モデルの効率を大幅に向上させます。

この技術革新により、Gemini 1.5は複雑なタスクの学習を迅速に行いながら、高品質のトレーニングとサービスをより効率的に提供できるようになりました。

また、印象的な "文脈内学習 "スキルを示しています。これは、追加の微調整を必要とせずに、長いプロンプトで与えられた情報から新しいスキルを学習できることを意味しています。

『MTOB(Machine Translation from One Book)ベンチマークでテストした結果』
世界で200人以下の話者しかいない言語であるカラマンの文法マニュアルが与えられたとき、Gemini 1.5 Proは、同じ内容から学習する人と同じレベルで、英語をカラマンに翻訳することを学習しました。

参考:https://storage.googleapis.com/deepmind-media/gemini/gemini_v1_5_report.pdf

3-2 コンテキストウィンドウ

Gemini proの1.5 Proモデルのコンテキストウィンドウは、Gemini 1.0の元々の32,000トークンから、現在では生産環境で最大100万トークンを扱えるように大幅に拡張されました。

この拡張により、1時間のビデオや11時間のオーディオ・30,000行を超える大規模なコードベース、または70万語を超えるテキストなど、広範囲のデータを処理できるようになり、研究では最大1,000万トークンまでのテストに成功しており、AI能力の顕著な進歩を示しています。

https://storage.googleapis.com/deepmind-media/gemini/gemini_v1_5_report.pdf

また、コンテキストウィンドウが大きくなっても高いレベルのパフォーマンスを維持しています。
特定の事実や発言を含む小さなテキスト片が、長いテキストブロックの中に意図的に配置されている場合、1.5 Proは、100万トークンもの長いデータブロックの中で、99%の確率で埋め込まれたテキストを発見したという結果が出ています。(Needle In A Haystack (NIAH)評価)

4.Gemini 1.5 Proできること


ここまでで、Gemini 1.5 Proの凄さが理解できたかと思います。
ここからは具体的にこの最強のLLMをどのようにビジネスシーンで活用できるかを見ていきましょう。


ここから先は

829字

¥ 600

この記事が気に入ったらサポートをしてみませんか?