見出し画像

知能の理論が必要だ! 〜より安全な加速にむけて

皆さんこんにちは。エワルドといいます。今回の記事では、さまざまな観点からみて、今こそ知能に関する包括的な理論が必要とされているのではないか? という考えを提起するため、自由に思考を羽ばたかせてみました。

この分野については素人——あるいはもしかすると AI 研究者を含めすべての人がそうかもしれませんが——ですので、多くの批判がありうると思いますが、本記事が知能に関する議論を盛り上げるのに貢献できれば嬉しく思います。


要旨

最初の AGI を実現するアーキテクチャが全然効率的でない場合、アーキテクチャの改善と短い学習時間だけで超知能に到達する可能性が存在する。大規模プロジェクトとして AGI が実現した場合「ファストな離陸」は起こりづらいとされているが、人類が AGI 実現までに考案できたアルゴリズムが最高効率にはほど遠い場合、一見アクセス可能な計算資源が少なくみえても、実際には超知能を実現するのに十分な計算資源が存在する可能性を排除できない。このような可能性を吟味するため、アーキテクチャによらない形で知能の限界を評価する理論が必要である。このような理論は超知能を安全に実現する可能性を高めると同時に、AI 開発をさらに加速することができるだろう。

スケーリング則の衝撃

現在の LLM の延長線上で AGI が実現されたとしてみよう(なお、本稿では以下 AGI の定義を厳しく考えて、「あらゆる知的タスク、もしくは少なくとも人工知能研究において人間の天才と同等以上の能力をもつ人工知能」の意味合いで用いる)。

そのとき、Transformer 論文 [1] を別格とすれば、一番重要だったのはスケーリング則の発見 [2] [3] だったとされるのではないだろうか。

スケーリング則はモデルの性能がパラメータ数やデータ量などを変数としたシンプルなべき乗則に従うことを主張している。2024年現在でもその適用範囲の限界は見えておらず [4] [5] 、モデルの性能に限界が存在しない可能性が現実味を帯びている。

スケーリング則に基づいて性能を向上させるためには、莫大な計算資源とそれを支える資金力が必要だが、裏を返せば、十分な資金さえあれば AGI にも到達できるのではないか、との期待が高まっている。従来の感覚では異常にも見える AI 企業への投資の盛り上がりは、この期待を背景にしていると考えれば納得がいくものになるだろう。

もしこのトレンドが今後も続くとすれば、最初の AGI は現在の LLM の延長線上、つまり非常に大規模な Transformer ベースのモデルによって実現される可能性が高いと考えられる。

ファストな離陸はありえない?

このように Transformer ないしはその延長線上にある大規模モデルによって AGI が実現する公算が高まった結果、「ファストな離陸」シナリオは現実性を失ったとされてきた。

ファストな離陸とは、AGI が完成してから人間を遙かに上回る超知能の誕生まで非常に短い時間(数分〜数週間以内)しか要しない、というシナリオのことだ [6] 。このシナリオでは AGI が短期間で人間の手に負えなくなるためリスクが高く、避けるべきであるというのが共通見解である [7] 。

しかしながら、ファストな離陸シナリオは、AGI がアクセス出来る計算資源が莫大に存在する、という仮定に基づいているため、スケーリング則の発見で AGI 自身が高額なスーパーコンピュータを用いる大規模プロジェクトとして実現する可能性が高まって以降、支持者は少なくなってきている。

だが、本当にそれで安心していいのだろうか? 確かに、最初の AGI がアクセス出来る計算資源は Transformer ベースのアーキテクチャにとっては AGI を実現するのにギリギリで、性能の向上は比較的時間が掛かるハードウェアの更新によるしかないように見えるかもしれない。

しかし、Transfomer は AGI を実現出来るアーキテクチャの中で最低の効率のものである、という可能性も考えられる。その場合、Transformer ベースで実現された AGI がアクセス出来る計算資源は、最高効率のアーキテクチャにとっては超知能を実現するのに十分なものになる可能性が存在する。

つまり、ファストな離陸の可能性を低く見積もる議論には「Transformer ベースのアーキテクチャは、人間と同レベルの知能が考案できるアーキテクチャの中ではそれなりに効率的なものである」という暗黙の仮定が入っているように思える。

しかしながら、私が知る限りでは現状そのような仮定を肯定する根拠も否定する根拠も見当たらない。したがって、現在でもファストな離陸が起こる可能性は無視できないレベルで存在すると考えるのが妥当であろう。

知能の一般理論が必要である

そこで、このような可能性を正確に評価するため、アーキテクチャによらずに知能の上限を評価できるような、いわば知能の一般理論が必要であると考える。

そのような理論によって算出された上限に現状のアーキテクチャが肉薄していれば、AGI の自己改善の大部分は計算資源の増加によるしかないため、ファストな離陸はこれまでの通説通り起こりづらく、安心して計算資源の増加による AGI の実現が出来ると考えられる。

逆に、もし上限の数万分の一程度の効率しかない場合、計算資源の単純な増加によって AGI を実現した際、ファストな離陸が起こる可能性が出てくる。このようなことが事前に分かった場合、AGI が誕生する前に何らかの対策を打つことが出来るだろう。

しかし、はたして本当にそのような理論がありえるのだろうか? 確かなことは何も分からないが、科学史を振り返ってみると、例えば熱力学に類例を求めることが出来ると考えられる。

19世紀前半に活躍した物理学者、サディ・カルノーは、熱機関の効率の上限をその構造や作業物質によらない形で算出した。さらに、当時は熱の正体が何かすら分かっておらず、熱素説が広く受け入れられていた時代であることを考えれば、この結果は驚異的である。

このような偉業を前にすれば、もしかしたら知能に関しても同じようなことが出来るかもしれない、という希望が持てるのではないだろうか。だが、このような理論が実際にありうるとしても、それが非常に難しい仕事であることは容易に想像がつく。

例えば、「あらゆる学習アルゴリズムの性能は、すべてのコスト関数についての性能を平均すると同じになる」ことを主張するノーフリーランチ定理と呼ばれる定理がある。それではなぜ現実の学習アルゴリズムに性能差が存在し、日夜研究が進められているのか。それは、我々が扱う現実世界の課題には一定の性質があるからである。

ここから類推すれば、知能の一般理論は、我々の現実世界の性質に依存するものであると考えられる。従って、その構築には自然科学の広汎な知識が要求される可能性がある。

また、カルノーの論文にしても、数学的に難しいところは全くないが、書かれるまでに最初の蒸気機関の発明から100年以上を要した。それだけ新たな理論を作り出すのは難しく、その構築には幸運に恵まれた天才による優れた洞察を必要とする。

理論が拓く未来

しかし、このような困難に立ち向かってでも、包括的な知能の理論を研究する価値はある。まず、このような理論は前述のようにファストな離陸が起こる危険を減らすと同時に、AI 研究をさらに加速することができる。

例えば、トーマス・ニューコメンが始めて蒸気機関を作った際の熱効率はわずかに0.5% であったが、その効率は20世紀初頭までに理論限界に近い25% にまで上昇した [8] 。これには熱力学の知識が大いに役立ったことは言うまでもない。さらに、それらの知識は蒸気タービンや内燃機関のような、より効率的な技術の開発にもつながった。

他にも、ライト兄弟はクッタやジューコフスキーらの翼理論を知らなかったが、世界初の有人動力飛行を成功させた。しかし、彼らの初飛行に刺激されて航空力学の理論が急速に発展し、それらの理論がその後の飛行機の急速な性能向上に大いに貢献した。

これらの科学技術の歴史を振り返ってみると、最初に AGI に到達するかもしれない技術を手にした今こそ、知能に関する包括的な理論を探求するのにもっともふさわしい時期であるように思われてくる。人類がこのような理論を手にすることができれば、AI 研究が進むべき道が照らし出され、計算資源の単なる増加によるよりも早く AGI を実現できるだろう。

また、仮に一般理論と呼べるようなものに到達しなくとも、その過程で得られた結果は安全性と性能向上の両方に貢献するだろう。例えば、一般理論の構築には現状の Transformer モデルの原理の理解が役に立つと予想されるが、その理解は Transformer ベースのモデルで AGI が誕生したときの危険性を和らげると同時に、AGI の実現時期を早めることができると考えられる。

さらに、日本に関していえば、理論研究に注力することが生き残りの道になるのではないかと思う。日本の AI 研究への投資額は海外、特にアメリカと中国に比べて一桁も二桁も少なく、今後もその差が縮まる見込みは薄いと思われる(私見では、今からでも国が年間10兆円くらい投資すれば互角とまでは行かなくともなんとか競争の土俵には立てるように思うので、思い切ってやってほしいのだが……)。

このような状況下において日本が存在感を示すには、理論面の研究がもっとも有効であると考えられる。情報科学者だけではなく、数学や自然科学を中心としたあらゆる分野の人間が知恵を絞り、協力することができれば、世界に冠たる成果を上げることができるように思う。

おわりに

本稿では知能の一般理論の必要性と、それを探求するメリットについて訴えてきた。このような理論は真に天才的な仕事であり、その構築は困難を極めるように思えるが、それを行うだけの価値は存在する。

一方で、物理学の素人であったロベルト・マイヤーがエネルギー保存則を発見したように、専門知識をあまり持たない意外な人物が景色を一変させる可能性もある。どちらにせよ、様々なバックグランドをもつ数多くの人間が知恵を絞り、協力し合うことが重要であろう。

超知能が生まれる直前の時代、すなわち現代は、人間の知性が価値をもつ最後の時代である。このような時代において、AGI を安全に、そしてより早く実現するのに貢献する理論を構築できれば、それは人類の最後の偉大な知的達成として永遠に記憶されるだろう。今こそ叡智を結集すべき時だ。

参考文献

  1. A. Vaswani et al., Attention Is All You Need. 2023. [Online]. Available: https://arxiv.org/abs/1706.03762

  2. J. Hestness et al., Deep Learning Scaling is Predictable, Empirically. 2017. [Online]. Available: https://arxiv.org/abs/1712.00409

  3. J. Kaplan et al., Scaling Laws for Neural Language Models. 2020. [Online]. Available: https://arxiv.org/abs/2001.08361

  4. P. Grady, B. Coughran, and K. Scott, "Microsoft CTO Kevin Scott on How Far Scaling Laws Will Extend," YouTube, Jul. 10, 2024. [Online Video]. Available: https://www.youtube.com/watch?v=aTQWymHp0n0 . [Accessed: Jul. 13, 2024].

  5. B. Perrigo, "Anthropic CEO Dario Amodei on Being an Underdog, AI Safety, and Economic Inequality," TIME, Jun. 23, 2024. [Online]. Available: https://time.com/6990386/anthropic-dario-amodei-interview/.

  6. N. Bostrom, Superintelligence: Paths, Dangers, Strategies. Oxford, UK: Oxford University Press, 2014.

  7. "AI Takeoff," LessWrong, Jun. 23, 2024. [Online]. Available: https://www.lesswrong.com/tag/ai-takeoff.

  8. C. Cleveland and H. Clifford, "Maximum efficiencies of engines and turbines, 1700-2000," Visualizing Energy, Jun. 26, 2023. [Online]. Available: https://visualizingenergy.org/maximum-efficiencies-of-engines-and-turbines-1700-2000/.


この記事が気に入ったらサポートをしてみませんか?