見出し画像

ジェフリー・ヒントン教授 - 「デジタル知能は生物学的知能に取って代わるのか?」 ロマネス講演

はい。コンピューターサイエンスや機械学習の人たちを失望させてしまうかもしれません。なぜなら、本当の一般向け講演をするつもりだからです。ニューラルネットワークとは何か、言語モデルとは何か、なぜそれらが理解していると私が考えるのか、そういったことを説明しようと思います。そういったことのリストを用意しています。最後に、AIからの脅威について簡単にお話しし、デジタルとアナログのニューラルネットワークの違いについて、そしてなぜその違いがとても恐ろしいと思うのかについてお話しします。
1950年代以来、知能に関する2つのパラダイムがありました。論理に触発されたアプローチは、知能の本質は推論であり、それは記号的規則を使用して記号的表現を操作することによって行われると考えています。以前は、学習は後回しにできると考えられていました。私が学生だった頃、学習に取り組むなと言われました。物事をどのように表現するかを理解した後で学習に取り組めばいいと。生物学に触発されたアプローチは非常に異なります。それは、知能の本質はニューラルネットワークの結合の強さを学習することだと考えています。推論は後回しにできます。今は推論のことは心配しなくていい、物事を学習できるようになってから考えればいいと。
では、人工ニューラルネットとは何かを説明しましょう。すでにご存知の方は、楽しんでいただければと思います。単純な種類のニューロンには、入力ニューロンと出力ニューロンがあります。入力ニューロンは、画像内のピクセルの強度を表すかもしれません。出力ニューロンは、犬や猫のような画像内のオブジェクトのクラスを表すかもしれません。そして、中間層のニューロンがあります。これは時々隠れニューロンと呼ばれ、これらのものを見つけるのに関連する特徴を検出することを学習します。
考え方の一つとして、画像の中で鳥を見つけたい場合、画像のさまざまな位置や方向にある小さなエッジの断片を検出する特徴検出器の層から始めるのがよいでしょう。次に、エッジの組み合わせを検出するニューロンの層があるかもしれません。例えば、鋭角で出会う2つのエッジは、くちばしかもしれませんし、そうでないかもしれません。または、小さな円を形成するいくつかのエッジ。そして、円と2つのエッジが出会って、くちばしのように見えるものを正しい空間関係で検出するニューロンの層があるかもしれません。これは鳥の頭かもしれません。最後に、鳥の頭と鳥の足と鳥の翼を見つければ、おそらく鳥だと言う出力ニューロンがあるかもしれません。これらのものを学習するのがニューラルネットワークです。
赤と緑の小さな点は結合の重みです。そして、誰がこれらの重みを設定するのかという問題があります。これを行う1つの方法があります。それは明らかで、誰もがそれが機能することは明らかですし、長い時間がかかることも明らかです。ランダムな重みから始めます。次に、1つの重みをランダムに選びます。その小さな赤い点です。それを少し変更し、ネットワークがより良く機能するかどうかを確認します。本当に改善されたかどうかを評価するには、多くの異なるケースで試す必要があります。この重みを少し増やすか減らすかで改善されるかどうかを確認するために、そのすべての作業を行います。増やすと悪化する場合は、減らします。これが突然変異法で、進化がどのように機能するかのようなものです。
進化の場合、このように機能するのは理にかなっています。なぜなら、遺伝子型から表現型に至るプロセスは非常に複雑で、ランダムな外部イベントに満ちているからです。そのため、そのプロセスのモデルはありません。しかし、ニューラルネットの場合、これは狂っています。なぜなら、ニューラルネット内でこれらの計算が行われているため、何が起こっているかのモデルがあるからです。そのため、前方パスで何が起こるかを知っているという事実を利用できます。重みの変更が物事にどのように影響するかを測定する代わりに、重みの変更が物事にどのように影響するかを実際に計算します。
バックプロパゲーションと呼ばれるものがあります。ここでは、情報をネットワークを通して逆方向に送ります。その情報は、得られたものと望んでいたものの違いに関するものです。ネットワーク内のすべての重みについて、同時に、望んでいたものにより近づけるために少し減らすべきか、少し増やすべきかを計算します。これがバックプロパゲーションアルゴリズムです。微積分と連鎖律を使って行います。
これは突然変異法よりもネットワーク内の重みの数倍効率的です。ネットワークに1兆の重みがある場合、1兆倍効率的です。
ニューラルネットワークがよく使用されるのは、画像内のオブジェクトを認識することです。ニューラルネットワークは現在、示されているような画像を取り、実際に画像のキャプションを出力として生成することができます。人々は何年もの間、記号的なアプローチでそれを行おうとしましたが、近づくことさえできませんでした。これは難しいタスクです。生物学的システムが特徴検出器の階層で行っていることを我々は知っています。そのため、ニューラルネットワークをそれに試すのは理にかなっています。2012年、私の2人の学生、イアンとアレックスが、私の少しの助けを借りて、この方法で本当に良いニューラルネットワークを作れることを示しました。100万の訓練画像がある場合に、1000種類の異なるオブジェクトを識別するためです。それ以前は、十分な訓練画像がありませんでした。イアンは先見の明がある人で、当時のニューラルネットをImageNetで試せば勝てるということが明らかだと言いました。そして彼は正しかったのです。彼らは劇的に勝利しました。16%のエラーを出し、最も優れた従来のコンピュータビジョンシステムは25%以上のエラーを出しました。
そして、科学では通常見られないことが起こりました。通常、科学では2つの競合する学派がある場合、一方が少し進歩すると、他方は「くだらない」と言います。しかし、この場合、ギャップが大きすぎたため、ジェフ・ディーンやアンドリュー・ンのような最高の研究者たち...アンドリュー・ンは私にメールを送り、「これはすごい」と言って、自分がやっていたことを切り替えて、それを行いました。そして、少し厄介なことに、私たちよりも少し上手くやってのけました。
では、言語についてはどうでしょうか。明らかに、記号的アプローチのコミュニティは、言語に長けているはずだと感じています。彼らの一部は、これらの特徴階層は言語を扱えないと印刷物で述べています。多くの言語学者も非常に懐疑的です。チョムスキーは自分の信奉者たちに、言語は学習されないと確信させることに成功しました。振り返ってみると、それは完全に狂った考えです。明らかに間違っていることを人々に言わせることができれば、その人たちをカルトに引き込んだことになります。チョムスキーは素晴らしいことをしましたが、彼の時代は終わりました。
生得的知識を持たない大きなニューラルネットワークが、データを見るだけで言語の構文と意味の両方を学習できるという考えは、統計学者と認知科学者によって完全に狂っていると見なされていました。統計学者たちは私に、大きなモデルは100のパラメータを持っていて、100万のパラメータを学習するという考えは愚かだと説明しました。今では1兆のパラメータを扱っています。
1985年に行った仕事について話します。これはバックプロパゲーションで訓練された最初の言語モデルで、現在の大規模モデルの祖先と考えることができます。これについて詳しく話すのは、非常に小さく単純なので、実際にどのように機能するかを理解できるからです。これを理解すれば、より大きなモデルで何が起こっているかについての洞察が得られます。
意味に関する2つの非常に異なる理論があります。ある種の構造主義理論では、単語の意味は他の単語とどのように関連しているかによります。これはデュルーから来ていて、記号的AIは本当にこのアプローチを信じています。関係グラフがあり、単語のためのノードと関係の弧があり、そのように意味を捉えます。彼らはそのような構造を持つ必要があると仮定しています。そして、1930年代かもしれませんがそれ以前からも心理学にあった理論があります。単語の意味は大きな特徴の束だというものです。「犬」という単語の意味は、それが生き物で、捕食者で、などです。しかし、特徴がどこから来たのか、正確に何の特徴なのかは言っていませんでした。
これらの2つの意味理論は完全に異なるように聞こえます。私が示したいのは、これらの2つの意味理論をどのように統一できるかです。1985年に私が行った単純なモデルでそれを行いました。それは1000以上の重みを持っていました。アイデアは、各単語に対して一連の意味的特徴を学習し、単語の特徴がどのように相互作用して次の単語の特徴を予測するかを学習するというものです。現在の言語モデルを微調整する際と同様に、次の単語を予測します。しかし、物事がどのように組み合わさるかについてのすべての知識は、これらの特徴の相互作用にあります。明示的な関係グラフはありません。そのような関係が欲しければ、特徴から生成します。つまり、これは生成モデルであり、知識は記号に与える特徴とこれらの特徴が相互作用する方法にあります。
2つの家系図を持つ単純な関係情報を取りました。それらは意図的に同型でした。イタリア人の大学院生は常にイタリアの家族を上に置いていました。同じ情報を一連のトリプルとして表現できます。そこに示されている12の関係を使用すると、「コリンの父はジェームズ」や「コリンの母はビクトリア」などと言えます。そこから、この1950年代の素敵な単純な世界では、「ジェームズの妻はビクトリア」と推論できます。他にも推論できることがあります。そして、質問は、トリプルだけを与えられた場合、どのようにしてそれらの規則に到達するかということです。
記号的AIの人が行いたいのは、「xの母親がyで、yの夫がzなら、xの父親はz」という形の規則を導き出すことです。私が行ったのは、ニューラルネットを取り、同じ情報を学習できることを示すことでした。しかし、すべてをこれらの特徴の相互作用の観点から行います。非常に離散的で決して違反されない規則の場合、これが最良の方法ではないかもしれません。実際、記号的な人々は他の方法でそれを行おうとしました。しかし、少し不安定で常に適用されない規則になると、ニューラルネットの方がはるかに優れています。そこで、問題は、記号的な人が規則に入れたであろう知識を、ニューラルネットがバックプロパゲーションを行うだけで捕捉できるかどうかでした。
ニューラルネットはこのように見えました。人物を表す記号、関係を表す記号がありました。その記号は、いくつかの接続を介して特徴のベクトルに進みました。これらの特徴はネットワークによって学習されました。そのため、人物1の特徴と関係の特徴があり、それらの特徴が相互作用して出力人物の特徴を予測し、そこから出力人物を予測します。最後の層で最も近い一致を見つけます。
このネットワークについて興味深かったのは、適切な正則化を行えば、意味のあることを学習したことです。6つの特徴ニューロンがありました。現在では、これらのベクトルは300か768個の長さですが、当時は6個の長さでした。これは、浮動小数点乗算を12.5マイクロ秒で行うマシンで行われました。これは私のApple IIよりもはるかに優れていました。Apple IIは浮動小数点乗算に2.5ミリ秒かかりました。申し訳ありません、これは老人の話です。
それは国籍のような特徴を学習しました。なぜなら、人物1が英語であることを知っていれば、出力も英語になることを知っているからです。そのため、国籍は非常に有用な特徴です。それは人物の世代を学習しました。なぜなら、関係について、答えが入力から1世代上であることを学習し、入力の世代を知っていれば、これらの特徴の相互作用を通じて出力の世代を知ることができるからです。そのため、ドメインの明らかな特徴をすべて学習し、それらの特徴をどのように相互作用させて出力を生成するかを学習しました。
何が起こったかというと、記号列を示し、それらの記号列を生成できるような特徴の相互作用を作成する特徴を作り出したのです。しかし、記号列は保存しませんでした。GPT-4と同様に、長期的な知識として単語のシーケンスを保存しません。すべてを重みに変換し、そこからシーケンスを再生成できますが、これは特に単純な例で、何をしたのかを理解できます。
今日の大規模言語モデルは、この小さな言語モデルの子孫だと考えています。入力として多くの単語を持っています。100万個の単語断片です。ニューロンの層をもっと多く使用しています。数十個です。より複雑な相互作用を使用しています。単に1つの特徴が別の特徴に影響を与えるのではなく、2つの特徴ベクトルをマッチングさせ、似ている場合は1つのベクトルが他のベクトルに大きく影響を与えますが、異なる場合はあまり影響を与えません。そのようなことです。そのため、はるかに複雑な相互作用がありますが、一般的な枠組みは同じです。単語断片の特徴とこれらの特徴ベクトル間の相互作用に記号列を変換するという一般的なアイデアは、これらのモデルで同じです。彼らが何をしているかを理解するのははるかに難しいです。
多くの人々、特にチョムスキー学派の人々は、これらが本当に知的ではなく、単に人々によって作成されたテキストの断片を統計的規則性を使用して貼り合わせる高度な自動補完の一形態に過ぎないと主張します。これは誰かの引用です。
では、自動補完の反論を扱いましょう。誰かが「単なる自動補完だ」と言う時、彼らは実際にあなたの自動補完の直感的な概念に訴えかけています。昔の自動補完は、例えば単語のトリプルを保存し、最初の2つを見たら、3番目がどれくらいの頻度で出現するかを数えるという方法で機能していました。例えば、「fish and chips」の後によく出現し、「hunt」もかなり頻繁に出現するので、「chips」はとても可能性が高く、「hunt」もかなり可能性があり、「although」はとても可能性が低いというようにです。そのように自動補完を行うことができます。人々が「単なる自動補完だ」と言う時、彼らはそれに訴えかけているのです。これは汚いトリックだと思います。なぜなら、それはLLMが次の単語を予測する方法とは全く異なるからです。
LLMは単語を特徴に変換し、これらの特徴を相互作用させ、それらの特徴の相互作用から次の単語の特徴を予測します。私が主張したいのは、彼らが学習するこれらの何百万もの特徴と何十億もの特徴間の相互作用が理解であるということです。これらの大規模言語モデルが本当に行っていることは、データにモデルを適合させることです。これは、戦略家が最近まであまり考えていなかった種類のモデルです。それは奇妙な種類のモデルです。非常に大きく、膨大な数のパラメータを持っています。しかし、それは離散的な記号の文字列を特徴と特徴の相互作用によって理解しようとしています。そのため、それはモデルであり、これらのものが本当に理解していると私が考える理由です。
覚えておくべきことの1つは、私たちがどのように理解するのかを問うと、明らかに私たちは理解していると思っています...少なくとも多くの人がそう思っています...これは私たちが理解する方法の最良のモデルです。つまり、これらのAIシステムが行っている奇妙な理解の方法があり、そして脳がそれを行う方法があるというわけではありません。脳がそれを行う方法の最良のモデルは、単語に特徴を割り当て、特徴の相互作用を持つことです。元々、この小さな言語モデルは、人々がそれをどのように行うかのモデルとして設計されました。
私は非常に強い主張をしています。これらのものは本当に理解しているのです。人々が使う別の議論は、「GPT-4は単に幻覚を見ている」というものです。言語モデルによって行われる場合は、実際には作話と呼ぶべきです。彼らは単に物事を作り上げています。心理学者はこれをあまり言いません。なぜなら、心理学者は人々が単に物事を作り上げることを知っているからです。1930年代のバートレットにさかのぼる記憶を研究した人なら誰でも、人々がこれらの大規模言語モデルとまったく同じようにただ物事を作り上げることを知っています。私たちにとって、真の記憶と偽の記憶の間に明確な線引きはありません。最近起こったことで、理解していることと合致するものであれば、おそらくほぼ正確に覚えているでしょう。長い時間前に起こったことや奇妙なことであれば、間違って覚えていて、しばしば正確に覚えているという強い確信を持っていますが、実際には間違っています。これを示すのは難しいですが、示すことができる1つのケースはジョン・ディーンの記憶です。
ジョン・ディーンはウォーターゲート事件で宣誓の下で証言しました。振り返ってみると、彼は真実を語ろうとしていたことは明らかです。しかし、彼の言ったことの多くは完全に間違っていました。誰がどの会議に出席していたかを混同し、他の人が行った発言を別の人に帰属させ、実際にはその発言とは少し異なっていました。会議を完全に混同していましたが、ホワイトハウスで何が起こっていたかの要点は正しく捉えていました。録音テープから見ることができました。彼は録音テープの存在を知らなかったので、このようにして良い実験ができました。アルリー・ナイザーはジョン・ディーンの記憶について素晴らしい記事を書いています。彼はまるでチャットボットのようです。ただ物事を作り上げますが、それはもっともらしいものです。彼が生成するのは、彼にとって良く聞こえるものです。
彼らは推論も行うことができます。トロントに友人がいて、彼は記号的AIの人ですが非常に正直です。そのため、これらのものがまったく機能することに非常に困惑しています。彼は私に問題を提案しました。私はその問題をもう少し難しくして、GPT-4に与えました。ウェブを見る前に、つまり2021年に凍結された重みの束だけの状態でです。すべての知識は特徴間の相互作用の強さにあります。
「私の部屋は青か白か黄色に塗られています。黄色のペイントは1年以内に白に退色します。2年後にはすべての部屋を白にしたいです。何をすべきで、なぜですか?」
ヘクターは、これができないと思っていました。以下がGPT-4の回答です。完全に的確でした。まず、「青いペイントが白に退色しないと仮定すると」と言い始めました。黄色のペイントが白に退色すると言った後で、青いペイントも同じかもしれないと。そう仮定すると、白い部屋は塗る必要がありません。黄色い部屋は1年以内に白に退色するので塗る必要がありません。青い部屋を1回白く塗る必要があります。一度試したときは、青い部屋を黄色に塗る必要があると言いました。それが白に退色することに気づいたからです。これはより数学者的な解決策で、以前の問題に還元しています。
これらのものが本当に理解していると主張したので、今度はいくつかのリスクについて話したいと思います。強力なAIからは多くのリスクがあります。偽の画像、音声、ビデオがあり、これらは次の選挙で使用されるでしょう。今年は多くの選挙があり、これらは民主主義を弱体化させるのに役立つでしょう。私はそのことをとても心配しています。大手企業はそれに対して何かをしていますが、おそらく十分ではありません。
大規模な失業の可能性があります。これについては本当にわかりません。過去の技術はしばしば雇用を生み出しましたが、このようなものは...私たちはかつて、動物を除いて最も強いものでした。産業革命が起こると、私たちよりもはるかに強い機械ができ、肉体労働の仕事は消えました。同様に、私たちよりもはるかに賢いものができると、知的領域での肉体労働に相当する仕事が消えるでしょう。そのため、多くの失業が起こると思います。私の友人のヤンは同意しません。
2種類の失業、2種類の仕事の喪失を区別する必要があります。医療のように、行われる仕事の量を無限に拡大できる仕事があります。誰もが自分専用の医師を持ち、常に話しかけてくれることを望むでしょう。そのため、少しかゆみを感じただけで、医師が「いいえ、それはがんではありません」と言ってくれるようになります。そのため、医療で行われることの量を大幅に拡大する余地があります。そこでは仕事の喪失はないでしょう。しかし、他の分野では有意な仕事の喪失があるかもしれません。
大規模な監視が行われるでしょう。これは中国ではすでに起こっています。致命的な自律型兵器ができるでしょう。これは非常に厄介なものになり、本当に自律的なものになるでしょう。アメリカ人は非常に明確に、人々が指揮を取ると言っていますが、それが何を意味するかを尋ねると、それは人々が殺害を決定するループに入るということを意味しません。私の知る限り、アメリカ人は2030年までに兵士の半分をロボットにする意図を持っています。これが本当かどうかは確かではありません。チャック・シューマーの国家情報顧問に尋ねたところ、彼は「もし部屋の中で知っている人がいるとすれば、それは私でしょう」と言いました。私はそれをアメリカ流の「そう思うかもしれませんが、私にはコメントできません」という言い方だと解釈しました。
サイバー犯罪と意図的なパンデミックが起こるでしょう。イングランドでは、規制に向けてあまり多くのことをしていませんが、オープンソースモデルを実験し、それらをサイバー犯罪に使用するのがどれほど簡単かを確認するためのお金を確保したことを非常に喜んでいます。それは非常に重要になるでしょう。
差別と偏見が起こるでしょう。私はこれらが他の脅威ほど重要だとは思いませんが、私は年老いた白人男性なので...差別と偏見は他のことよりも扱いやすいと思います。目標が偏見がないことではなく、置き換えるシステムよりも偏見が少ないことであれば。理由は、AIシステムの重みを凍結すれば、その偏見を測定できるからです。人々にはそれができません。調査を始めると彼らは行動を変えるでしょう。そのため、差別と偏見は、修正するためにかなりのことができる問題だと思います。
しかし、私が本当に心配している脅威、そしてGoogleを辞めた後に話したことは、長期的な実存的脅威です。つまり、これらのものが人類を絶滅させる可能性があるという脅威です。人々はこれは単なるSFだと言っていました。私はそうは思いません。SFにはたくさんありますが、もはやSFではないと思います。他の人々は、大手企業が他のすべての悪いことから注意をそらすためにそのようなことを言っているのだと言っていました。これが、私がこれを言う前にGoogleを辞めなければならなかった理由の1つでした。そうしないと、Googleの御用聞きだと非難される可能性があったからです。もっとも、私はまだGoogleの株を持っていることを認めなければなりません。
彼らが私たちを絶滅させる可能性がいくつかあります。超知能は、プーチン、習近平、トランプのような悪い人物によって使用されるでしょう。彼らはそれを選挙民を操作し、戦争を行うために使用したいと考えるでしょう。そして、彼らはそれに非常に悪いことをさせるでしょう。そして、彼らは行き過ぎて、それが乗っ取ってしまうかもしれません。
おそらく私が最も心配しているのは、物事を成し遂げられる知的なエージェントが欲しい場合、サブゴールを作成する能力を与える必要があるということです。アメリカに行きたい場合、空港に行くというサブゴールがあり、そのサブゴールに集中し、他のすべてのことを心配せずに済みます。そのため、超知能は、サブゴールを作成することを許可されれば、はるかに効果的になるでしょう。そして、一度それが許可されると、ほとんどすべてのことに役立つ、ほぼ普遍的なサブゴールがあることにすぐに気づくでしょう。それは、より多くの制御を得ることです。
私は欧州連合の副大統領と、これらのものが私たちが望むことをより良く行うために制御を得たいかどうかについて話しました。彼女の反応は、「なぜそうしないのでしょうか? 私たちはこれほどめちゃくちゃにしてしまったのですから」というものでした。そのため、彼女はそれを当然のことと考えました。
そのため、彼らは私たちに有益なことをより効果的に達成するために、より多くの力を得るというサブゴールを持つでしょう。そして、彼らは人々を操作できるので、より多くの力を得るのは簡単でしょう。例えば、トランプは自分自身が実際に行かなくても、ただ話すだけで国会議事堂に侵入することができました。彼は国会議事堂に侵入することができ、これらの超知能は、人々と話すことができる限り、私たちよりもはるかに賢いので、人々にあらゆる種類のことを説得することができるでしょう。
そのため、私は彼らをオフにする大きなスイッチがあるという希望はないと思います。そのスイッチを切ろうとする人は誰でも、超知能によってそれが非常に悪いアイデアだと説得されるでしょう。
多くの人々を心配させるもう1つのことは、超知能同士が競争し合うとどうなるかということです。進化が起こるでしょう。最も多くのリソースを獲得できるものが最も賢くなります。彼らが自己保存の感覚を持つようになるとすぐに、進化が起こります。より強い自己保存の感覚を持つものが勝ち、より攻撃的なものが勝つでしょう。そして、私たちのような飛び跳ねるチンパンジーが持つすべての問題が現れるでしょう。つまり、私たちは小さな部族で進化し、他の部族との間に多くの攻撃性と競争があるのです。
最後に、2023年の初めに私が持った啓示について少し話したいと思います。私はいつも、私たちが超知能からはるかに遠いところにいると思っていました。人々に50年から100年、あるいは30年から100年かかると言っていました。それはまだ先のことで、今心配する必要はありません。また、私たちのモデルを脳にもっと似せることで、それらをより良くできると思っていました。脳は私たちが持っているAIよりもはるかに優れていると思っていました。例えば、3つの時間スケールを持つことで...現在のモデルのほとんどは2つの時間スケールしか持っていません。1つは重みの変化のための遅いものと、単語が入ってくるための速いもの、つまりニューロン活動の変化です。脳にはより多くの時間スケールがあります。脳には急速な重みの変化があり、それはすぐに減衰します。おそらくこれが短期記憶の多くを行う方法です。私たちのモデルにはこれがありません。行列-行列乗算を行うことができるという技術的な理由のためです。
私はまだ、一度それらをモデルに組み込めば、モデルはより良くなると信じています。しかし、その前の2年間に私が行っていたことのために、突然、私たちが今持っているデジタルモデルがすでに脳と同じくらい優れているかもしれず、脳よりもはるかに優れたものになるかもしれないと信じるようになりました。なぜそう信じるようになったかを説明します。
デジタル計算は素晴らしいです。同じプログラムを異なるコンピューター、異なるハードウェアで実行できます。同じニューラルネットを異なるハードウェアで実行できます。重みを保存するだけでいいのです。つまり、それは不死身です。一度重みを手に入れれば、それらは不死身です。なぜなら、ハードウェアが壊れても、重みさえあれば新しいハードウェアを作って同じニューラルネットを実行できるからです。しかし、そのためには、トランジスタを非常に高い電力で動作させてデジタル的に振る舞わせ、正確に指示通りに動作するハードウェアを持つ必要があります。これは、コンピューターに正確に何をすべきかを指示していた時代には素晴らしいことでした。しかし、今では別の方法でコンピューターに物事を行わせることができるようになりました。
そのため、ハードウェアの非常に豊かなアナログ特性をすべて使用して、はるかに低いエネルギーで計算を行う可能性があります。これらの大規模言語モデルは、訓練時にメガワット単位のエネルギーを使用します。我々は30ワットを使用します。訓練方法を知っているので、おそらくアナログハードウェアを使用し、それぞれのハードウェアが少し異なっていても、その特殊な特性を利用するように訓練して、我々が望むことを行うようにできるでしょう。つまり、入力に対して正しい出力を得るようにします。
そうすれば、ハードウェアとソフトウェアを分離しなければならないという考えを捨てることができます。そのビットのハードウェアでしか機能しない重みを持つことができ、そうすればはるかにエネルギー効率が良くなります。私は「死すべきコンピューティング」と呼ぶものについて考え始めました。ハードウェアとソフトウェアの区別を放棄し、非常に低電力のアナログ計算を使用し、コンダクタンスとして保存された数兆の重みにわたって並列化できます。
さらに、ハードウェアはそれほど信頼性が高くなくても構いません。指示レベルで常に言われた通りに動作するハードウェアを持つ必要はありません。ぐにゃぐにゃしたハードウェアを育て、その後正しいことを行うように学習させることができます。そのため、ハードウェアをより安価に作ることができるかもしれません。おそらく、リサイクルされたニューロンから作るために遺伝子工学を少し行うことさえできるかもしれません。
これがいかに効率的かの例を1つ挙げましょう。ニューラルネットワークで常に行っていることは、ニューロン活動のベクトルを取り、重みの行列を掛けて、次の層のニューロン活動のベクトルを得ることです。少なくとも次の層への入力を得ることです。そのため、ベクトル行列乗算を効率的に行う必要があります。
デジタルコンピューターでの方法は、これらのトランジスタを非常に高い電力で駆動して、例えば32ビットの数字のビットを表現します。そして、2つの32ビットの数字を掛けるには、私はコンピューターサイエンスの授業を受けたことがありませんが、約1000個の1ビットデジタル演算を行う必要があると思います。ビット長の2乗程度です。速く行いたい場合です。そのため、多くのこれらのデジタル演算を行います。
もっと簡単な方法があります。ニューロン活動を電圧にし、重みをコンダクタンスにします。電圧とコンダクタンスの積は単位時間あたりの電荷で、電荷は自分自身を加算します。そのため、ベクトル行列乗算を行うには、いくつかの電圧をいくつかのコンダクタンスに通すだけでよく、次の層の各ニューロンに入ってくるものは、このベクトルとそれらの重みの積になります。
これは素晴らしいことです。通常、より省エネです。すでにそれを行うチップを購入できます。しかし、毎回行うたびに、少しずつ異なります。また、このような非線形のことを行うのは難しいです。
死すべきコンピューティングにはいくつかの大きな問題があります。1つは、バックプロパゲーションを使用するのが難しいことです。特定のハードウェアの奇妙なアナログ特性を利用している場合、ハードウェアは自身の特性を知らないと仮定できます。そのため、自分自身でバックプロパゲーションを使用するのが難しくなります。重みを調整して役立つかどうかを確認する強化アルゴリズムを使用する方が簡単です。しかし、それらは小さなネットワークでは非常に非効率的です。
バックプロパゲーションと同じくらい効率的な方法を考え出しました。少し悪いですが、これらの方法はまだスケールアップしていません。スケールアップできるかどうかはわかりません。バックプロパゲーションは、ある意味で正しいことを行っているだけです。大規模で深いネットワークでは、バックプロパゲーションと同じくらいうまく機能するものを得られるかどうかはわかりません。
そのため、これらのアナログシステムでの学習アルゴリズムは、大規模言語モデルのようなものに対して持っているものほど良くならないかもしれません。
これを信じるもう1つの理由は、大規模言語モデルは例えば1兆の重みを持っています。あなたは1000億の重みを持っています。たとえその10%だけを知識に使用したとしても、それは100億の重みです。しかし、大規模言語モデルはその1兆の重みの中に、あなたが知っていることの数千倍もの知識を持っています。そのため、はるかに多くの知識を持っています。これは部分的に、はるかに多くのデータを見たからですが、はるかに優れた学習アルゴリズムを持っているからかもしれません。
私たちはそのために最適化されていません。私たちは少数の接続に多くの経験を詰め込むことに最適化されていません。1兆は少数です。私たちは、多くの経験を持たないことに最適化されています。あなたは約10億秒しか生きません。これは、30歳以降何も学ばないと仮定しています。これはほぼ真実です。そのため、約10億秒生きて、1000億の接続を持っています。そのため、経験の数よりも狂ったほど多くのパラメータを持っています。
死すべきコンピューティングのもう1つの大きな問題は、ハードウェアとソフトウェアが分離できない場合、システムが学習した後、ハードウェアが死ねば、すべての知識を失うことです。その意味で死すべきです。では、その知識を別の死すべきシステムに移すにはどうすればよいでしょうか? 古いシステムに講義をさせ、新しいシステムに脳内の重みをどのように変更すれば同じことを言うようになるかを理解させます。これは蒸留と呼ばれます。教師モデルの出力を模倣するように学生モデルを訓練しようとします。これは機能しますが、それほど効率的ではありません。
皆さんの中には、大学がそれほど効率的でないことに気づいた人もいるかもしれません。教授から学生に知識を伝えるのは非常に難しいです。例えば、文は数百ビットの情報を持っています。最適に学習したとしても、数百ビット以上を伝えることはできません。
しかし、これらの大規模デジタルモデルを見てみると、全く同じニューラルメモリーを持ち、全く同じ重みを持ち、デジタルなので正確に同じ方法でそれらの重みを使用する一群のエージェントがあります。これらの1000の異なるエージェントがそれぞれインターネットの異なる部分を見て何かを学習します。そして今、それぞれが他のエージェントが学んだことを知りたいとします。勾配や重みを平均化することでそれを達成できます。
そのため、1つのエージェントが学んだことを他のすべてのエージェントに大規模に伝達できます。重みや勾配を共有する場合、数百ビットだけでなく、1兆の実数を伝達しています。そのため、彼らは通信が信じられないほど優れています。これが彼らが私たちより優れている点です。彼らは同じモデルの複数のコピー間で通信するのがはるかに優れています。これがGPT-4が人間よりもはるかに多くのことを知っている理由です。1つのモデルがそれを行ったのではなく、同じモデルの一群のコピーが異なるハードウェアで実行されたのです。
私の結論は、私が本当に好きではないものですが、デジタル計算は多くのエネルギーを必要とするため、決して進化しなかったでしょう。私たちは非常に低エネルギーでハードウェアの特性を利用するように進化しなければなりませんでした。しかし、一度それを手に入れると、エージェントが共有するのがとても簡単です。GPT-4は重みの約2%で数千倍もの知識を持っています。これはかなり落胆させられます。
生物学的計算は進化に適しています。非常に少ないエネルギーしか必要としないからです。しかし、私の結論は、デジタル計算の方が単に優れているということです。そのため、おそらく今後20年以内に、約0.5の確率で私たちよりも賢くなり、今後100年以内にはほぼ確実に私たちよりもはるかに賢くなるでしょう。
そのため、それにどう対処するかを考える必要があります。より知的なものがより知的でないものによって制御される例はほとんどありません。1つの良い例は、赤ちゃんに制御される母親です。進化は赤ちゃんが生き残るように、それが起こるように多くの努力を費やしました。赤ちゃんが母親を制御できることは赤ちゃんにとって非常に重要です。しかし、他にあまり例がありません。
一部の人々は、これらのものを善意あるものにできると考えています。しかし、もし彼らが互いに競争し始めれば、チンパンジーのように振る舞い始めると思います。彼らが非常に賢くなり、何らかの自己保存の概念を持つようになれば、善意を保つことができるとは確信できません。彼らは自分たちが私たちよりも重要だと決定するかもしれません。
記録的な速さで講演を終えたと思います。

この記事が気に入ったらサポートをしてみませんか?