見出し画像

AIの新時代: GoogleのGemini(ジェミニ)とEureka(エウレカ)が描く未来

この記事では、Googleが開発した革新的なAIモデル「Gemini(ジェミニ)」と「Eureka(エウレカ)」について解説し、これらがどのようにしてAIの可能性を再定義し、人間の生活やビジネスに新たな価値をもたらしているかを深掘りします。

最近、Googleは、AIチャットボット領域における画期的な進展として、新しい生成AIモデル「ジェミニ」を発表しました。このモデルはプロフェッショナルな機能を備えており、これまで不可能とされていたマルチモーダル学習を実現しました。これまでにも、OpenAIが開発したような、文字情報(プロンプト)から画像を生成する一方向的なAIモデルは存在していました。しかし、画像、テキスト、音声、動画といった複数のデータタイプを双方向的に扱えるAIモデルは存在せず、この点でジェミニは画期的です。

ジェミニモデルの特徴は、従来の大規模言語モデル(LLM)では不可能だった、マルチモーダル学習を可能にした点にあります。LLMは、文章を言語単位(トークン)に分割し、それらの共起確率を基に文を生成しますが、これは真の意味での理解とは異なります。しかし、人間の脳内プロセスを深く理解することはまだ完全には達成されていないため、一定の限界があります。人間の脳には約86.6億個のニューロンが存在し、これらは宇宙にある星の数に匹敵する膨大な数です。これらのニューロンは、何万倍ものシナプスによって相互に接続されています。

現代の最先端技術を駆使しても、膨大な数のニューロンを模倣するニューラルネットワークを形成し、それを学習させるほどの計算能力を持つコンピューターはまだ存在しません。量子コンピューターを活用することで計算能力は飛躍的に向上しますが、GoogleがD waveを買収したり、IBMが開発した最先端の量子コンピューターでさえ、大規模なニューラルネットワークを学習し実用化するには、少なくとも2028年か2029年までの時間が必要だとされています。

Googleの「ジェニー」モデルの重要性は、画像認識をしてその意味を適切に解釈し、その結果を冗長性なく明確に言語化し、記憶メモリーにあるデータと照らし合わせて意味を推測する能力にあります。このような観測、意味解釈、推測という論理的な作業を行い、それを動的に繰り返す高い学習能力は、強化学習を通じて獲得されました。これは、従来のLLMベースのマルチモーダル学習の課題をアルゴリズムの改変によって克服したことを意味します。この進化により、映像、テキスト、音声を用いて、人間のような感覚的な描写とリアルタイムの会話が可能になりました。

Googleの人工知能の進化は、どのような学習アルゴリズムの改善によるものか、そして今後のAI業界やその他のAI銘柄にどのような影響を与えるかという疑問があります。これに対する答えは、Googleが「ジェニー」とほぼ同時期に発表した「エウレカ」という学習モデルの存在にあります。

エウレカは、人間と同じレベルの基本動作原理を獲得することを目的として研究開発されたAIモデルです。「低レベル」という表現は、簡単な動作を指すのではなく、高度な意思決定に基づく複雑な動作の基本単位を意味します。従来のディープラーニングを使った人工知能では、経路選択や言語生成など高レベルの意思決定は可能でしたが、手首や指の微細な動きをマイクロ秒単位で制御することはできませんでした。

この問題に対処するため、Google DeepMindの研究者たちは、伝統的な学習方法を見直し、報酬系(自己の行動の評価機能)を自律的に改善する方法を考案しました。近年、Googleを含む深層学習の発展は、ニューラルネットワークの各層が特定の役割を果たすことにより、限定された環境下での最適な出力を実現してきました。しかし、学習するパラメータが増加し、環境が複雑になると、これらの役割分担がうまく機能しなくなるという問題が生じていました。

例えば、GPT-3の前モデルでは、更新が必要なパラメータは約2000億個あり、これらの大量の学習パラメータを更新するには膨大な時間が必要でした。また、ロボットが自律的に学習する場合、どのような出力が適切かを直接教えるのではなく、適切な出力に近づくほど報酬を与え、そうでない場合は罰するという報酬制に基づく学習スタイル(強化学習)が採用されています。しかし、この方法は学習効率が低下し、特定の環境下では学習が困難になるという課題もありました。

そこでGoogleは「エウレカ」という研究ミッションを立ち上げました。このミッションの目的は、与えられた環境下での最適な行動を学習するプロセスを、行動の評価と出力に分けて、それぞれを個別に強化学習させる方法を採用することでした。

エウレカの詳細については別の機会に解説する予定ですが、重要な点は、このAIが人間には思いつかないような最適な行動を評価できるようになったことです。過去にも、人工知能は人間が理解できない行動を出力した例があります。2016年の囲碁対局で、韓国のトッププレイヤー、イ・セドルとDeepMindのAI「アルファゴ」の間で行われた対局では、アルファゴは人間には思いつかない手法を使い、観戦者と解説者を驚かせました。最終的にはアルファゴが4勝1敗で勝利しました。

このように、人智を超えた行動を示す人工知能の能力を、状態評価や環境認識に応用しようとしたのが、Googleのエウレカミッションです。エウレカは、専門家が設定した報酬体系に基づく学習を超えて、80%以上の高い評価を得る報酬体系を自ら発見しました。また、場合によっては人間が考える最適な行動とは全く異なる行動を高く評価し、高いパフォーマンスを達成しました。これは、エウレカが自らの行動を正しく評価し、タスクの真の目的を理解できるようになったことを意味します。

エウレカの研究発表後、Googleはジェニーに関する動画を公開し、画像、音声、テキスト、動画などからのマルチモーダルな学習が可能になったことを発表しました。現時点ではまだ実用性に課題が残っていますが、人工知能の領域が大きく前進したことは疑いありません。

AIブームは次のフェーズに移行しようとしています。講師テクノロジーにおけるイノベーションの進化によって。本当の恩恵を受けることができるのは、その受け皿を持つ企業です。ブラウザやスマートスピーカーを有しているgoogleですとか、アマゾンマイクロソフトは検索機能を強化拡張してアップデートすることによって、一元の成長を今後果たしていくことになります。こうした人工知能の拡張は、何も一般ユーザー向けだけではなくて、科学研究の分野にも応用されています。例えば、googleは20万種類も新たな結晶を発見しました。こうしたイノベーションの進化によって、テスラの売上ですとか、利益などの業績がどのように変化して行くのか、について解説していこうと思います。今回の内容は以上となります。


#GoogleAI   #GeminiEureka #AI革命 #マルチモーダル学習 #AI技術革新


この記事が気に入ったらサポートをしてみませんか?