ResNetの父、何恺明博士が語るAI研究の最前線：大規模モデル、解釈可能性、そしてAI for Science

2024年8月3日 18:06

2023年年末に香港大学で行われた何恺明氏の講演の質疑応答全文。　

何恺明博士が12年ぶりに香港中文大学に戻ると、校友たちは彼を熱狂的に迎え、会場の外には人が溢れかえっていました。同様の光景は以前、氏がアメリカのMITで講演を行った際にも見られ、講演の3時間前から門前に列ができていたとの事。

何恺明、中国の著名なAI研究者であり、コンピュータービジョンの分野で多大な影響を与えている。彼は、ResNet（残差ネットワーク）という画期的なモデルを提案し、深層学習の性能を飛躍的に向上させました。ResNetは、画像認識だけでなく、多くのAI応用に広く利用されています。カリフォルニア大学バークレー校で博士号を取得後、Facebook AI Research（現Meta AI）で活躍し、様々な革新的な研究成果を発表。彼の研究は、AIの理論と実践の両面で新たな道を切り拓き、世界中のAI研究者や技術者に多大な影響を与え続けています。

大規模モデルの未来、データの効果が問題になる

Q：先ほどのプレゼンテーションでは、深層ネットワークの深さが増すと、性能が最初は向上するが、その後低下するという傾向が示されました。

初めは過学習（オーバーフィッティング）が原因だと考えられ、データ量を増やすことで問題は改善されました。しかし、ネットワークが非常に深くなると再び性能が低下することが分かりました。あなたの研究は、これは最適化の問題ではなく、データ量、ネットワークの深さ、モデルの複雑さとその最適化方法に関係することを示しました。現在の大規模モデルは以前よりも多くのデータを持っていますが、どのような限界があると考えますか？また、データモデルの複雑さと最適化による課題にどのように対処すべきでしょうか？

何恺明：一般的に、ネットワークの深さと幅を増やすことが、神経ネットワークモデルの性能を向上させる方法だと考えられています。

そして、機械学習においては、適切なフィッティングと過学習の間にはトレードオフがあります。つまり、適切なフィッティングを実現し、過学習を減らす必要があります。

現在、過学習を減らし、汎化性能を向上させる最も効果的な方法はデータ量を増やすことです。

大量のデータのフィッティングと記憶は依然として課題ですが、大規模モデルはこれを実現する能力を持っています。そして、実際にデータ量を増やすことが過学習を減らす最善の解決策であることが証明されています。

しかし、将来を見据えると、データによる効果が減少するかもしれません。

例えば、言語データは人間が作り出すもので、情報を共有し、新しい知識を創造する目的があります。したがって、テキストデータには多くの情報が含まれている可能性があります。

一方、新しい写真はそれほど多くの新しい情報を増やさないかもしれません。例えば、日常的に撮る食べ物や自撮り写真は情報量が少ないでしょう。

データの種類によって含まれる情報量が異なるため、データを増やすことによる効果は減少する可能性があります。これは今後の課題になると思います。

Q：深層学習において、例えばAlphaGoやAlphaFoldのように、残差学習が広く応用されています。

20年ほど前には、研究者たちはそれぞれの小さな問題に焦点を当て、手動で様々なアルゴリズムを設計していました。しかし現在では、多くの問題がより汎用的なモデルによって解決されています。

では、今後の発展の方向性としては、多くのタスクを処理できる大規模な事前訓練モデルが登場し、それを特定のタスクに合わせて微調整するだけで済むようになるのでしょうか？それとも、依然として手動設計や特定の分野知識が必要な問題が残るのでしょうか？

何恺明：私は、この二つの方向が同時に進むと思います。

自然言語処理では、事前訓練モデルが基本的な方法として定着しています。しかし、コンピュータビジョンの分野では状況が少し異なります。なぜなら、いまだに良いアイデアが出ておらず、いわゆる視覚基盤モデルの開発が進んでいないからです。

これは、視覚タスクがより多様であり、さらに重要なのは、言語は人間の知恵の産物であるのに対し、ピクセルは自然から来るという、本質的な違いがあるためです。

今後の展望としては、神経ネットワークが科学的な問題、例えばタンパク質、分子、材料、さらには数学、化学、物理学で方程式を導くことまで処理できるようになることを期待しています。

私たちは、ほとんどの問題を解決できる汎用的な基盤モデルを望んでいますが、同時に特定の分野で技術の進歩を推進する専門的なモデルも必要です。

Q：AIが抽象的な数学研究を行えるようになるにはどのくらいの距離があると思いますか？現在の方向性を続ければ、その目標に到達できるでしょうか？それとも、その間には根本的な隔たりがあると思いますか？

何恺明：正直なところ、私はこの分野の専門家ではありませんが、実現する方法は二つあると思います。

一つは、大きなモデルをただ訓練して、そのモデルが自ら問題を解決することを期待する方法です。しかし、私はこれが有望な方向性だとは思いません。

もう一つの方法は、大規模モデルにコード解釈機能を持たせることです。例えば、ChatGPTのコード解釈機能のように。つまり、言語モデルがコードを書くことを許可し、そのコードが計算や記号操作を行い、その計算結果がモデルにフィードバックを提供するというものです。これにより、モデルは次に何をすべきかを決定できます。これはより有望な方法だと思います。

また、もし私たちがニュートンの時代に戻り、その時代の全てのテキストとデータを持っていて、その時代に大規模な言語モデルを訓練したとしたら、そのモデルはいつかニュートンの法則を教えてくれるでしょうか？

もしそれが可能なら、現代のデータだけを与えたときに、まだ知らない法則を教えてくれるでしょうか？これは非常に高度なAIであり、究極の目標だと思います。

Q：AIが芸術や人文学科での将来の応用についてどう考えますか？

何恺明：私はこの分野の専門家ではありませんが、芸術や人文学は人間の脳に非常に特化した領域だと思います。

問題は、人間の脳とAIの根本的な違いが何かという点にあると思います。
もし将来、私たちが脳を物理的にコピーできるようになり、それを機械と呼んだとして、その機械が行うことを芸術や人文と呼べるでしょうか？それとも、引き続き人工的な出力と呼ぶべきでしょうか？これは哲学的な問題であり、どちらかというとSFの問題だと思います。

未来三年の研究重点：視覚の自己教師あり学習

Q：今後三年間の研究の重点は何ですか？

何恺明：基本的には全てのことを行います。現在、自然言語処理が大きな成功を収めているのは、人々が言語データで自己教師あり学習を行えるからです。しかし、コンピュータビジョンはまだこの問題を完全に解決していません。

そこで、私はコンピュータビジョンがこの成功を再現することを目指しています。つまり、視覚の自己教師あり学習も成功させたいのです。

成功の定義とは何でしょうか？私は、言語モデルと同じような規模の効果を見たいのです。つまり、モデルのサイズやデータ量を増やすだけで、視覚モデルがより強力な能力を持つようになることです。

残念ながら、これはまだ実現していません。現在、言語モデルは非常に成功しており、視覚と組み合わせた言語モデルも成功しています。しかし、純粋なコンピュータビジョンの分野ではまだ実現していません。これが、今後三年間、さらには私のキャリア全体の研究重点となるでしょう。

Q：画像領域での自律学習について探索したいとおっしゃいました。自然言語処理では、単語や文章に既に意味が含まれていますが、画像はピクセルやRGBのように単なるデータであり、意味が含まれていません。

画像自体からのみで自立学習を実現する事は可能なのでしょうか？また、この自律学習をどのように定義するのでしょうか？

何恺明：これは言語と視覚の根本的な違いであり、我々が解決しようとしていて、まだ解決できていない主要な問題です。

言語的表現学習において最も難しい部分は、言語問題における抽象化と圧縮であり、人類はこれを既に完了しています。

一方、画像はセンサーからの入力であり、言語とは異なりより自然で、したがって、モデルは自分自身で圧縮と抽象化を行わなければなりませんが、これは未解決の問題です。

さらに、ピクセルや画像、ビデオからのみ自律的に学習することは十分ではないと考えています。例えば、動物はこの世界を視覚的に捉えますが、同時にこの世界から他のフィードバックも得ています。動物は生存のために食物を探し、捕食者から逃れるために行動します。つまり、動物は視覚だけでなく、環境からの多様な信号、監督、報酬を得ているのです。

現在の視覚システムには環境からのフィードバックが欠けていると思います。これが視覚の自律的な学習の次の研究テーマになるかもしれません。

研究課題の選定基準：好奇心と情熱

Q：CVPRに発表できるような良い研究課題はどうやって見つけるのでしょうか？

何恺明：発表は最終目標ではありません。発表は研究成果の始まりであり、終わりではありません。

論文のライフサイクルは発表の瞬間から始まるので、そのような期待を持ってほしいです。

研究課題を選ぶ最も重要な基準は、その問題に対する好奇心と情熱です。

好奇心は人類が科学の進歩を推進し、未知の問題を探求する根本的な理由です。私は発表に関心があるのではなく、なぜこの問題がこのように現れるのか、どうやってこの問題を解決するのかに関心があります。もし答えを見つけたなら、それが論文になるかもしれません。解決できなかったとしても、小さな進展を示す論文になるかもしれませんが、それは重要ではありません。好奇心と情熱こそが研究の中心であるべきです。

Q：研究中にどうやって好奇心と情熱を保ちますか？実験でエラーが出て、すべての実験をやり直さなければならないとき、本当に崩壊しそうになります。

何恺明：研究は挫折、失敗、落胆に満ちています。実際には、考えられるあらゆる否定的な言葉を含んでおり、それが現実です。

これを経験していないなら、最良の研究を行っていないことを意味します。私の生活はそのようなものです。約95％の時間を失望して過ごし、残りの5％の時間で論文を完成させ、その後次のサイクルに入り、失望、挫折、そして不安を再び経験し、次の仕事が完了するまで続けます。その5％の時間を楽しみながら、これを繰り返しています。

“AIはほぼすべての事の基礎的なツールになる”

Q：AI for Scienceの研究を始めると聞きました。各学問分野の人々がAIを学び、それを使って研究を進めるという話を聞きました。コンピューター科学分野の人々が他の科学分野の人々と協力して論文を発表することについてどう思いますか？

何恺明：AIはほぼすべての分野の基礎的なツールになると信じています。

約40〜50年前には、コンピューターサイエンス学科はほとんど存在せず、特別なコンピューターサイエンス機関で学ぶ必要がありました。

しかし現在、ほぼすべての学問がコンピュータープログラム、シミュレーション、データ分析に関係しています。したがって、コンピューターサイエンスは現在ほぼすべての学問、すべての分野のツールとなっています。

次の10年または20年で、AIが次世代のコンピューターサイエンスとなり、ほぼすべてのことの基礎的なツールになると予測しています。AIの学位を持つ必要も、特別なAI機関に通う必要もありませんが、科学問題の中でAIを使って新しいパターン、新しい行動、新しい現象を発見することになるでしょう。

これらが実現するのを非常に楽しみにしています。これが私の目標であり、AI for Scienceに対する私の期待です。

Q：ある特定の分野では、データ量が少なく、データの質も低い場合があります。そのような場合、どうお考えですか？

何恺明：データ量の大小は相対的なものです。例えば、20年前の基準では現在の画像データセットは非常に大きいとされましたが、今日の基準ではそれらは相対的に小さいと感じます。

データ量と関連するアルゴリズムは相互に補完し合い、螺旋的に進化します。つまり、ある程度のデータがあれば、そのためのアルゴリズムを開発しアルゴリズムがより多くのデータから利益を得ることがわかれば、さらに多くのデータを収集し、新しいデータに基づいてアルゴリズムを改善する。この繰り返しで進化していきます。ですから、これはデータの問題であり、同時にアルゴリズムの問題でもあります。

Q：ResNetの鍵は信号を最大限に保持することにあると理解しています。光子神経ネットワークを構築しており、それがシミュレーション計算と非常に一致していることに気付きました。信号強度を最大限に保持すべきだと思います。残差学習がシミュレーション計算で大きな可能性を持つと考えますが、どう思われますか？

何恺明：あなたの質問を正しく理解しているかは分かりませんが、当今の人工神経ネットワークは最初、生物神経ネットワークからインスピレーションを受けましたが、その後、この二つの方向は分岐しました。

人工神経ネットワークは特定の応用やデータセット向けに設計されており、生物学的起源を持たないものもあります。例えば、残差接続などがその例です。しかし、並行して行われている多くの研究は、人間や動物の脳内の接続パターンのマッピングに関するものです。これらの研究は「コネクトミクス」などの用語で呼ばれることもあります。

人間や動物の神経ネットワークには、現在最先端の人工神経ネットワークと非常に似たパターンが発見されています。これらのパターンには、長距離スキップ接続、循環接続、その他のタイプのフィードバック接続が含まれます。したがって、人工知能と認知科学や脳科学は相互に利益をもたらすことができます。脳の発見がAIの設計をインスパイアし、逆にAIネットワークの成功した実践が科学者に脳をよりよく理解する手助けとなります。

AIモデルの解釈可能性に関する疑問の解消

Q：AIモデルの解釈可能性についての質問です。あるAIモデルが非常に優れたパフォーマンスを示し、特定の指標で人間を超えることがあります。しかし、AIモデルの全体的な行動をどのように解釈すればよいのでしょうか？AIモデルの行動を正確に予測できるのか、またAIモデルが本当に信頼できるものになるのかについて、どのようにお考えですか？

何恺明：あなたに質問しですが、タクシーに乗るとき、なぜ人間の運転手を信頼するのですか？その運転手はあなたにとって見知らぬ人であり、その人が人間であることしか知りません。

その運転手を信頼するのは、その人の脳が解釈可能だと感じるからですか？それとも、適切な訓練を受け、豊富な実践経験を持つ人間の運転手が実際の操作で大抵はうまくやるだろうと考えるからですか？

この質問に答える必要はありませんが、これは私の疑問です。飛行機を信頼するのはなぜですか？飛行機が空を飛べることを保証する物理法則や数学的な導出があるからですか？それとも、飛行機が空中で何百万回もテストされてきたからですか？

ですから、解釈可能性は非常に重要な属性であり、私はそれを追求することを強くお勧めします。しかし一方で、私たちのシステムの成功は、主に実証に基づいて推進され、検証されていることも認識する必要があります。

あなたの応援が私の原動力です！いただいたサポートは、より良い記事や作品を生み出すための糧となります。温かいご支援、心からお待ちしています。ありがとうございます！