【論文瞬読】エキスパートAGIの実現に向けたベンチマークの提案
こんにちは!株式会社AI Nestです。本日はMMMU(Massive Multi-discipline Multimodal Understanding and Reasoning)というAGI(Artificial General Intelligence)の新しいベンチマークを提案しているベンチマークを紹介します。
AGIとは人工汎用知能の略で特徴は以下のとおりです。
汎用的な能力:特定の領域に特化しているわけではなく、さまざまなタスクや問題に対応できる能力を持っており、多様な知識やスキルを駆使して活動することができるAI。
学習能力:経験から学習し新たな情報やデータを取り入れて自己進化することができるAI。状況に応じた適切な対応や問題解決が可能。
意思決定能力:独自の判断や意思決定を行うことができるAI。複雑な情報を分析し、最適な選択肢を選び出す能力を持っている。
また、下記の孫さんの特別講演でも触れられていましたね。
(この講演、たびたび見返しておりますw 気になる方はリンク先からぜひご覧ください)
今回はそんなAGIのベンチマークについての論文となっております。
どんなもの?
MMMUという新しいベンチマークを提案している
Massive Multi-discipline Multimodal Understanding and Reasoningの略で、大学レベルの科目知識と専門的な推論を要求する多分野の多モーダルタスクにおいて、多モーダルモデルの能力を評価するためのベンチマークである
11.5Kの多モーダル問題を含む
6つの主要な分野(芸術・デザイン、ビジネス、科学、医療、人文・社会科学、技術・工学)と30の科目、183のサブフィールドをカバー
30種類の異なる画像タイプ(チャート、図表、地図、表、楽譜、化学構造など)を含み、専門的な知識と高度な知覚と推論を必要とする
提案された背景は?
多モーダルモデルの挑戦
MMMUは、大学レベルの科目知識と意図的な推論を必要とするタスクで多モーダルモデルを挑戦させることを目指す
これにより、これらのモデルが専門レベルの知覚と推論の面で何を達成できるかの限界を押し広げる
既存のベンチマークの限界
既存のベンチマークは主に日常的な知識や常識に焦点を当てており、画像の種類が限られている
専門的な知識や複雑な推論を必要とする問題も解決できるようにする
エキスパートAGIへの道
MMMUは、下記でこちら提案されたレベル別のAGIの分類に基づいて、レベル3(エキスパートAGI)に焦点を当てる
これは、人間の専門家が直面するようなタスクを実行する能力を持つAIシステムの開発を目指す
どういう文脈・理路をたどっている?
論文内では以下の順序で説明されている
多モーダル事前学習と多モーダル指示調整の分野の進歩を紹介
既存の多モーダルベンチマークの限界を指摘
MMMUの構築方法と特徴を詳細に説明し、それがどのようにして多分野の多モーダル理解と推論の能力を評価するか紹介
最後に、14種類のオープンソースの多モーダルモデルとプロプライエタリのGPT-4VとGeminiをMMMUで評価し、その結果と分析を報告
対象となるスコープにおいて網羅性と整合性はある?
結論:ある
網羅性について
多分野の多モーダル理解と推論という広範なテーマに対して、6つの分野と30の科目と183のサブフィールドをカバーする11.5Kの問題
また、30種類の異なる画像タイプを取り入れることで、多様な知覚能力を試すことが可能
整合性について
AGIのレベル別分類という明確な枠組みに基づいて、レベル3(エキスパートAGI)に到達するために必要な能力を定義
それに沿ってベンチマークを設計し、モデルを評価している
また、既存の多モーダルベンチマークとの比較やエラー分析を通じて、MMMUの優位性と課題を明確に示している
まとめ
いかがでしたでしょうか?
この論文では、大学レベルの多分野多モーダル理解と推論を評価するための新しいベンチマークであるMMMUを紹介していました。
MMMUは、6つの学問分野(芸術・デザイン、ビジネス、科学、医学、人文・社会科学、技術・工学)と30の科目、183のサブフィールドからなる11.5Kの多様な多モーダル問題…(詳細は内容をぜひ見てください)を含んでおりました。
これらの問題をベンチマークにおいて、今後モデルの開発が進んでいくことを想定すると、もっともっと賢いAIが出てくることは間違いないでしょう。
自分もAIに負けないように、日々勉強していかないといけないと感じました!