DataGemma の概要

2024年9月14日 15:36

以下の記事が面白かったので、簡単にまとめました。

・DataGemma: Using real-world data to address AI hallucinations

1. DataGemma

今日のAIイノベーションを支えるLLMは、ますます高度化しています。これらのモデルは、膨大なテキストを処理したり、要約を作成したり、新しいクリエイティブな方向性を提案したり、コードを生成したりすることができます。しかし、能力がいかに優れていても、LLMが時には自信を持って不正確な情報を提示することがあります。この現象は「ハルシネーション」と呼ばれ、生成AIにおける重要な課題です。

この記事では、この課題に直接取り組み、LLMを現実世界の統計情報に基づかせることでハルシネーションを減らすための有望な研究の進展を紹介します。これらの研究の進展に加え、Googleの「Data Commons」から取得した豊富な現実世界のデータとLLMを接続するために設計された最初のオープンモデル「DataGemma」を紹介します。

・google/datagemma-rig-27b-it
・google/datagemma-rag-27b-it

2. Data Commons

「Data Commons」は、信頼できる公開データの広大なリポジトリです。これは、数十万の統計変数にわたる2400億以上の豊富なデータポイントを含む、公開されたナレッジグラフです。この公開情報は、国連 (UN)、世界保健機関 (WHO)、アメリカ疾病予防管理センター (CDC)、国勢調査局などの信頼できる組織から提供されています。これらのデータセットを統合したツールとAIモデルのセットは、政策立案者、研究者、正確な洞察を求める組織を支援します。

「Data Commons」を、健康や経済、人口統計、環境に至るまで、幅広いテーマに関する信頼性の高い公共情報で満たされた、広大で絶えず拡張されるデータベースと考えてください。このデータベースは、AIによる自然言語インターフェースを通じて、ユーザー自身の言葉で操作することができます。たとえば、アフリカのどの国が電力アクセスを最も増加させたか、アメリカの郡における所得と糖尿病の関連性をクエリすることができます。

3. RIG と RAG

生成AIの採用が拡大する中、「Gemini」と同じ研究と技術から構築された軽量で最先端のオープンモデル「Gemma」に「Data Commons」を統合することで、それらのエクスペリエンスを基盤にすることを目指しています。「DataGemma」は、現在、研究者と開発者に提供されています。
「DataGemma」は、2つの異なるアプローチを使用して、「Data Commons」の知識を活用してLLMの事実性と推論を強化することで、「Gemma」の機能を拡張します。

3-1. RIG (Retrieval-Interleaved Generation)

「RIG」(Retrieval-Interleaved Generation) は、信頼できるソースを積極的に照会し、「Data Commons」の情報に対して事実確認を行うことで、「Gemma 2」の機能を強化します。「DataGemma」が応答を生成するように指示されると、モデルは統計データのインスタンスを識別し、「Data Commons」から回答を取得するようにプログラムされます。「RIG」方法論は新しいものではありませんが、「DataGemma」フレームワーク内でのその特定の適用は独特です。

3-2. RAG (Retrieval-Augmented Generation)

学習データ以外の関連情報を組み込み、より多くのコンテキストを吸収することで、より包括的で有益な出力が可能になります。「DataGemma」では、「Gemini 1.5 Pro」の長いコンテキストウィンドウを活用することでこれを実現しました。「DataGemma」はモデルが応答生成を開始する前に「Data Commons」から関連するコンテキスト情報を取得するため、ハルシネーションのリスクが最小限に抑えられ、応答の精度が向上します。

4. 有望な結果と今後の方向性

「RIG」と「RAG」を使用した予備調査はまだ初期段階ですが有望です。数値事実を処理する際の言語モデルの精度が著しく向上していることがわかりました。これは、研究、意思決定、または単に好奇心を満たす場合の使用例で、ユーザーがハルシネーションを経験することが減ることを示唆しています。これらの結果については、研究論文を参照してください。

研究は継続しており、この研究を拡大し、厳密なテストを実施し、最終的には段階的なアクセス制限アプローチを通じて、この強化された機能を「Gemma」と「Gemini」の両モデルに統合する中で、これらの方法論をさらに改良することに取り組んでいます。

研究を共有し、この最新の「Gemma」バリアントを再び「オープン」モデルにすることで、LLMを事実データに根付かせるためのこれらの「Data Commons」主導の手法のより広範な採用を促進したいと考えています。LLMの信頼性と信頼性を高めることは、LLMがすべての人にとって不可欠なツールであることを保証し、AIが正確な情報で人々に力を与え、情報に基づいた意思決定を促進し、私たちの周りの世界に対するより深い理解を促す未来を築くための鍵となります。

研究者や開発者は、「RIG」と「RAG」の両方のアプローチのこれらのノートブックを使用して、「DataGemma」を使い始めることもできます。「Data Commons」と「Gemma」がどのように連携するかについて詳しくは、研究記事を参照してください。

この記事が気に入ったらサポートをしてみませんか？