本気を出したGoogleのGemini 1.5 Pro ⁠/ Veoが凄すぎるので、各種AIサービスの使い道を考える

2024年5月23日 16:35

AIメディアを運営するアラサーの男性2人が、 AIの最新動向やその未来に関する情報を広く掘り下げながら考察をしていくPodcast「AI未来話」

このnoteでは番組のエピソードからトピックをピックアップして再構成したものをお届けします。※この記事は96％がLLM「Claude」産で執筆しています。

今回は「#14 本気を出したGoogleのGemini 1.5 Pro ⁠/ Veoが凄すぎるので、各種AIサービスの使い道を考える」からGoogle I/Oで発表されたGemini 1.5 ProとVeoの特徴と可能性について詳しく解説します。

また、競合するPerplexityの特徴や、AIの使い分け方、LLM無料化の流れ、複数AI同時利用の選択肢についても触れます。

Google I/Oで発表されたGemini 1.5 ProとVeoの衝撃

Google I/Oで発表されたGemini 1.5 ProとVeoは、まさに世界中のAI業界に衝撃を与えました。AIの性能が飛躍的に向上し、これまでにない高度な処理が可能になりそうです。

前モデルの失敗から学んだGoogleの本気度

前モデルでは、デモ動画が編集されまくっていたことが発覚し、Googleの株価が大きく下落するなどの失敗がありました。

他社AIを凌駕する性能と機能性

しかし今回のGemini 1.5 ProとVeoは、その失敗から学んだGoogleの本気度を感じさせる内容となっていました。

Gemini 1.5 ProとVeoの性能と機能性は、他社のAIを凌駕するレベルだと言えます。コンテキストウィンドウの拡張や、高品質な動画生成能力など、まさに次世代のAIの姿を示したと言えるでしょう。

Gemini 1.5 Proの圧倒的な性能と活用方法

Gemini 1.5 Proは、前モデルから大幅に性能が向上し、様々な分野での活用が期待されています。

特に、コンテキストウィンドウの拡張とコンテキスト解釈能力の向上が注目すべきポイントです。

200万トークンまで拡張されたコンテキストウィンドウ

膨大なテキストデータの処理が可能に

Gemini 1.5 Proでは、コンテキストウィンドウが100万トークンから200万トークンまで拡張されました。これにより、1500ページもの文章や100通もの電子メールを理解できるようになったのです。

これはまるで速読の達人のような存在で、膨大な量の本を一瞬で読み込み、要点を抑えることができる。そんな能力を持ったアシスタントが、私たちの生活を助けてくれるようになるのです。

長文の要約や分析に威力を発揮

コンテキストウィンドウの拡張により、Gemini 1.5 Proは長文の要約や分析に威力を発揮します。大量のテキストデータから重要なポイントを抽出し、簡潔にまとめることができるのです。

GPTとは異なるコンテキスト解釈能力

ラベル的解釈からの脱却

GPTは、テキストをラベル的に解釈する傾向がありました。例えば、「ハリー・ポッター」シリーズの登場人物について、「ハリーは主人公」「ロンは親友」といったラベルを付けるような解釈です。

このようなラベル的解釈では、登場人物の行動や心情、物語の展開といった詳細な情報が捉えきれません。

その結果、文脈の深い理解や、登場人物の動機の推測などが難しくなります。

短期記憶的解釈による高度な理解力

一方、Gemini 1.5 Proは、短期記憶的な解釈を行います。
登場人物の行動や心情、物語の展開などを細部まで覚えており、まるで物語を実際に読んだかのような高度な理解力を示すのです。

この短期記憶的解釈により、Gemini 1.5 Proは以下のような優れた能力を発揮します。

文脈の深い理解：登場人物の行動や発言の背景にある心情や動機を理解することができます。これにより、物語の深層にあるテーマや作者の意図を読み取ることが可能になります。
因果関係の推測：物語の展開を細部まで記憶しているため、出来事の因果関係を正確に推測できます。これは、物語の先の展開を予測したり、伏線を発見したりする上で重要な能力と言えます。
登場人物の成長の追跡：物語の中で登場人物がどのように成長し、変化していくのかを詳細に追跡できます。これにより、キャラクターの魅力をより深く理解し、物語への没入感を高めることができます。
複雑なプロットの理解：短期記憶的解釈により、複雑に絡み合ったプロットも的確に理解できます。これは、ミステリーやサスペンスなど、複雑な物語構造を持つ作品の分析に特に役立ちます。

このように、Gemini 1.5 Proの短期記憶的解釈による高度な理解力は、単なるラベル付けを超えた、深く豊かな文脈理解を可能にします。

この能力は、文学作品の分析だけでなく、ビジネス文書や法律文書など、複雑な文脈を持つテキストの理解にも応用できるでしょう。

Veoの高度な動画生成能力と将来性

VeoはGoogleが開発した動画生成AIで、テキストから高品質な動画を生成することができます。

YouTubeの膨大なデータセットを活用しており、リアリティのある動画コンテンツを効率的に制作できるのが特徴です。

YouTubeデータセットを活用した高品質な動画生成

Veoは、YouTubeの膨大なデータセットを学習することで、リアリティのある動画を生成することができます。

実在する動画の特徴を細部まで捉えており、まるで人間が制作したかのような自然な動画を生み出すのです。

Introducing Veo: our most capable generative video model. 🎥

It can create high-quality, 1080p clips that can go beyond 60 seconds.

From photorealism to surrealism and animation, it can tackle a range of cinematic styles. 🧵 #GoogleIO pic.twitter.com/6zEuYRAHpH
— Google DeepMind (@GoogleDeepMind) May 14, 2024

追加のプロンプトによる柔軟な編集機能

Veoは、追加のプロンプトによって生成された動画を柔軟に編集することができます。

例えば、特定のオブジェクトを削除したり、色を変更したりといったカスタマイズが可能です。ユーザーの要望に応じて、自由自在に動画を加工できるのです。

クリエイティビティの幅が大きく広がる

Veoの登場により、動画制作のクリエイティビティはこれまでにない広がりを見せています。

プロのクリエイターだけでなく、アマチュアや個人でも、自由な発想で独自の動画コンテンツを生み出すことができるようになったのです。

動画コンテンツ市場に与える影響

Veoは、個人クリエイターの可能性を大きく広げるツールだと言えます。高度な技術や機材を必要とせず、アイデア次第で魅力的な動画を制作できるようになります。

これにより、個人クリエイターが台頭し、動画コンテンツ市場がさらに多様化していくでしょう。

VeoやSoraがもたらす変化は、まるでスマホで写真を撮るようになった時のようなものかもしれません。

誰もが気軽に表現できるようになったことで、インスタグラムなどのSNSが大流行しました。Veoも同じように、動画表現の敷居を下げ、新たなクリエイターの時代を切り開く力をもっています。

既存メディアとの競争と共存

Veoの登場は、既存のメディア企業にとっては脅威となる可能性があります。個人クリエイターの台頭により、従来のメディアの影響力が相対的に低下する恐れがあるのです。

しかし、同時にVeoを活用することで、既存メディアも制作の効率化と高度化を図ることができます。

Veoを上手く取り入れ、個人クリエイターとの共存を模索していくことが求められるでしょう。

Perplexityなど他のAIサービスとの比較と使い分け

Gemini 1.5 ProやVeo以外にも、様々なAIサービスが登場しています。それぞれのサービスには特徴があり、用途に応じた使い分けが重要になります。

ここでは、Perplexityと日本語AIのClaudeを取り上げ、比較と使い分けについて考えてみましょう。

検索に特化したPerplexityの強み

Perplexityは、検索に特化したAIサービスです。
Webページや最新のニュース記事など、常に新しい情報を取り入れながら検索を行うため、高い精度の検索結果を提供することができます。

下記のリンクから$10offで利用できます。

https://perplexity.ai/pro?referral_code=SZUVBTS5

日常生活での活用シーンの広がり

Perplexityは、日常生活のあらゆる場面で活用することができます。

レシピの検索や旅行の計画、趣味の情報収集など、生活に密着したニーズに応えてくれるのです。

筆者も普段からPerplexityはよく使っています。

Claudeの高い文脈理解力

ニュアンスを汲み取る繊細さ

Claudeは、数あるLLMのなかでは特に日本語が得意です。日本語特有のニュアンスや言い回しを理解し、文脈に合わせた適切な応答を返すことができます。

まるで本当に人とコミュニケーションしているかのような自然な会話が可能です。

ビジネスでの利用に適した特性

Claudeは、ビジネスシーンでの利用にも適しています。

日本語のメールや文書の作成、顧客とのコミュニケーションなど、ビジネス特有のニーズに応えることができます。

また、敬語や丁寧語といった言葉遣いにも対応しており、ビジネスの場に適した自然な日本語を生成してくれます。

筆者はよくメールの添削をClaudeに依頼しています。
何ならこのブログもClaudeがつくっています。

用途に応じた使い分けの重要性

GeminiやGPT、Perplexity、Claudeなど、様々なAIサービスが登場している中で、自分の目的に合ったサービスを選ぶことが重要です。

情報検索にはPerplexity、日本語のコミュニケーションにはClaude、大量データはGeminiというように、用途に応じた使い分けが求められます。

マルチモーダルな活用による相乗効果

また複数のAIサービスを組み合わせて活用することで、より高度な機能を実現することもできます。

例えば、Perplexityで収集した情報をGemini 1.5 Proで分析し、Veoで動画コンテンツを制作するといった、マルチモーダルな活用が考えられます。

AIサービス同士の相乗効果を生み出すことで、より効果的な問題解決が可能になるでしょう。

LLMの無料化の流れと今後のAI活用の展望

近年、大規模言語モデル（LLM）の無料化が進んでいます。
GPT-4oやGemini 1.5 Proなどの高性能AIが、無料で利用できるようになってきたのです。

この流れは、AIの活用の裾野を大きく広げることが期待されます。

高性能AIの無料化が加速

高性能AIの無料化により、これまでAIを利用してこなかった人々もAIに触れる機会が増えています。

プログラミングの知識がなくても、簡単にAIを活用できるようになったことで、AIの利用者層は急速に拡大しているのです。

これはかつて、高級な料理は一部の富裕層だけが楽しめるものでした。
しかし、回転寿司などの登場により、誰でも気軽に寿司を楽しめるようになりました。

AIの無料化は、まさに回転寿司のようなもの。誰もが気軽にAIを「味わう」ことができるようになるのです。

AIが日常生活に浸透する未来

パーソナルアシスタントとしてのAI

AIの無料化と高性能化が進むことで、近い将来、AIがパーソナルアシスタントとして日常生活に深く浸透していくことが予想されます。

スケジュール管理や情報検索、家電の制御など、様々な場面でAIがユーザーをサポートするようになるでしょう。

映画「Her」で主人公が恋に落ちたAI「サマンサ」のように、私たち一人一人に寄り添い、生活をサポートしてくれるAIアシスタントが現実のものになるかもしれません。

まるで親友のように、いつでも話を聞いてくれて、適切なアドバイスをくれる。そんな心強い存在になってくれるのです。

人間とAIの共生と協働の模索

AIが日常生活に浸透する中で、人間とAIの共生と協働のあり方が問われることになるでしょう。

AIにタスクを任せつつ、人間ならではの創造性や感性を発揮する、そんな役割分担が求められます。

また、AIの判断をうのみにするのではなく、人間の倫理観に基づいてAIをコントロールしていく必要もあります。

人間とAIが、お互いの長所を生かしながら協力し合える関係を築いていくことが大切なのです。

この記事が気に入ったらサポートをしてみませんか？