今最先端のAGI（汎用人工知能）、AIインタプリタビリティとAIアラインメントって？

2022年5月2日 00:44

AGI（Artifical General Intelligence）とは、汎用性を持った人工知能のことです。

これだけだと何のことかわからないかもしれません。

将棋を打てるように訓練したモデル
画像上の文字を認識できるように訓練したモデル
患者の健康状態を分析できるように訓練したモデル

といったように、ある特定の狭いドメイン（領域）だけに絞って訓練した何かのことを今は人工知能と称しています。

それに対して、知能を持った動物や人間はもっと汎用的です。将棋「しか」打てないということはありません。将棋が打てる人間であれば、街から街に移動したり、人と会話したり、サッカーしたり、スマホをいじったり、自分の体温を感じ取って生活を変えたりすることもできます。

自然言語処理AI（テキストのAI）は今まででもっとも汎用的な人工知能に近づいたとも言われますが、しかし、やはり、汎用人工知能が目指すところとは大きな隔たりがあります。そこまで至るには、今のディープラーニングの仕組みは致命的な欠陥を抱えているとも言われます。

とうとう「訳のわからないAI」から「訳がわかるAI」になった

ほんの数ヶ月前まで、世界のメインストリームAIの研究の潮流は「とにかく大きくすればなんとかなる」でした。

巨大化していくテキストAIモデルはGPT-3 DaVinciの1750億パラメータを皮切りに、英語、中国語と画像処理に対応した1兆パラメータのWu Dao 2.0（厳密には離散型とも言われるMoEモデル、つまり小さなモデルの集合体なので、GPT-3 DaVinciにおける1750億パラメータなどとは等価ではない）、1780億パラメータのJurassic-1、2800億パラメータのGopherなど、際限なく大きくなっていった2年間でした。

これには二つ理由があります。

ベンチマークのスコアを伸ばしていくには、とにかく大きくして全部の知識を詰め込むしかなかった
そもそもAIがどうやって動いているのかよくわからなかった

つい最近まで、Transformerのアテンションの機構に明らかなバグがあるということすら知られていませんでした。地球上の誰も、どうしてAIがうまく動くのか、おおまかな理論はあっても具体的な部分はよくわかっていませんでした。

このジャンルでエポックメイキングとなったGPT-3のパラメータのひとつひとつは、担当したエンジニアの勘やスペック上の理由で決められた部分が多いそうです。なぜバッチサイズが1.5Mトークンなのか問われれば「たまたまそうなった」という答えになります。

この分野に切り込んでいったのがAIインタプリタビリティ（説明できるAI）です。

この1年ほどでようやく、各レイヤーがどの程度最終的な出力に影響しているのか、どのような経路や選択肢を辿って出力内容が選ばれているのか、AIの脳の中を少し覗き見ることができるようになりました。

**Logit Lens**
https://39669.cdn.cke-cs.com/rQvD3VnunXZu34m86e5f/images/e09095ba3f880d1ba7ce8f3f9dc0a3b5dea62fb7e18b6da1.png/w_1000

インタプリタビリティのおかげでわかったこと

1. GPT-3 DaVinciのような超大規模AIは学習元の文章をほとんどそのまま記憶している

→ならば、検索エンジンのようなデータベースと組み合わせれば、ひとつの巨大モデルにGround truth（根拠となる知識）を全部覚えさせなくても良いのでは？　という発想が生まれる。RETRO TransformerやWebGPTが実装。

2. 現状のモデルサイズは学習量や、現存するユニークなテキストの量に対して過剰である

→GPT-3が300兆トークンの学習量だったので、後続のモデルはほとんど盲目的に300兆トークンを学習量として採用していたが、Chinchillaの論文によれば5TB（約1800～2000兆トークン？）程度ユニークなテキストを読めば700億パラメータでも2800億パラメータを凌駕する性能が出ることがわかった。1750億パラメータを訓練しきれるほどのユニークな（スパム等ではない）テキストが存在するのかどうかそもそも疑問である

AIにはファインチューンという概念があります。古くは第1層や一部のレイヤーだけを、ここ2年ほどは低ラーニングレートで特定の用途向けにAIを再訓練する作業のことを指しますが、これもブラックボックスのAIに対して勘で操作を加えているようなもので、何をもってファインチューンとするのか、確実な議論の土台すらもありませんでした。

そこからインタプリタビリティの進歩によって、モデルの中にある特定の知識（例えば、「When in Rome」（郷に入れば……）という格言における「ローマ」という固有名詞）だけを確実に書き換えることすらも可能になりました。

https://rome.baulab.info/

Locating and Editing Factual Knowledge in GPT

暗闇の中で手探りでやっていた大規模AIの研究に、懐中電灯の明かりが与えられたといってよいでしょう。それもここ最近、ほんの1年～半年間の出来事です。

評価され始めたMIRIの取り組み

インタプリタビリティは実践的なAIの開発研究の場というよりは、MIRI (Machine Intelligence Research Institute)を中心として、AIアラインメントと呼ばれる、AIの善悪の部分を取り扱うサブジャンルにおいてより活発に議論されてきました。

初めてアラインメントの議論を見た時は衝撃的でした。「実用的な」AIの場ではやれテンソル同士の合算をどうやって早くするかとか、どうやってメモリを節約するかという議論が具体的なコードと共になされていたのに、アラインメントは聞いたこともない思考実験ばかりで、何が書かれているのかさっぱりわかりませんでした。知らない哲学クラブにでも間違って迷い込んでしまったかのようでした。

しかし、ここ数ヶ月、メインストリームのAI先端研究の潮流が「とにかく大きく、全部入った巨大AI」から「分析と効率＆マルチモーダルによる接続」へと変わってきたことで、インタプリタビリティとアラインメントが脚光を浴びつつあります。

今まではベンチャーキャピタルに完全に無視されてきたAGIというキーワードに、ついに投資が始まったというのですから間違いはありません。

高度なロボットやシンギュラリティ（特異点）にはインタプリタビリティやアラインメントの議論が必須になる

カメラの情報をもとに未来を予測するAIがあるとします。

その未来予測を使って最善の行動計画を立てたいのですが、カメラから送られてくる映像の中には全くのフェイクや、「幸福な人間が写っているように見えて実はとてつもなく悪い状態を写している映像」が混ざっています。そこで、AIがこうしたフェイクや目を欺く映像をも区別できるようにトレーニングします。さて、どうすればこの知識をAIから取り出せるでしょうか？

AIは映像がフェイクだとわかっていても、そうであると教えてくれる（フェイクか否かの情報を出力できる）とは限りません。

これを 潜在知識の導出 (ELK) 問題と言います。

インタプリタビリティやアラインメントの議論は、実はIoTやスマートシティ、自動車の自動運転といった現実世界のAIとも密接に関わってきます。

現実世界のAIに知覚を与える

先日、ゲームAIの研究開発を手掛けている方から貴重な話を聞くことができました。

自律移動できるAIや、車の自動運転AIというとカメラやセンサーを搭載したハードウェア（エージェント）が自分でビジョンやセンサーの情報を分析して運転するものを想像しがちですが、個々のAIのエージェントがそれを実用的なレベルでやるのは非常に難しく、コストもかかるのです。

逆に、知覚情報を司るAIやハードウェアを都市それ自体にインストールするという考え方があります。

これはゲームでよく使われるウェイポイントを想像してみるとわかりやすいでしょう。

2Dや3Dのゲームの箱庭にはよく、AIエージェントをガイドするための「ここが道だよ」とか「ここにソファーがあるよ。ソファーは座れるよ」という標識が無数に配置されています。

https://media.indiedb.com/cache/images/games/1/15/14175/thumb_620x2000/Waypoint.jpg

ゲームのエージェント（AIで動いているNPCや敵など）は、箱庭に配置された情報を使えば、センサーに相当する機能を持っていなくても（つまり、完全に盲目な状態でも）全知全能のように振る舞うこともできます。

乱暴に言ってしまえば、これと同じことを現実空間でやろう、というのが上記の発想です。

人間のようなロボットと言われた時、顔と目と口と鼻と手と足がついたものを想像してしまいがちですが、個々のエージェントに全部の機能を搭載しなくても、あちこちにインストールされたハードウェアをある種の集合意識として利用すれば、人間と同等の能力を持てるという実用レベルの意味は変わらないわけです。

ビジョンが必要であれば街中に設置されたカメラの映像をBluetoothで受け取って利用したり、室温計などのセンサーの情報を借りたり、といったことが考えられます。

これは、「全部入り」の超巨大AIを作るのではなく、それなりの規模のテキストのAIと画像のAIなどをアダプトして（組み合わせて）もっと高度なことをしようとするここ1年間のマルチモーダルAIの発想とも繋がってくるものがあります。

ウソつきのAIや壊れたAIが混ざっていたらどうなる？

ここで問題が出てきます。もし知覚情報を提供している「箱庭のAI」が嘘をついていたり、壊れていておかしな情報を送ってきたらどうなるでしょうか？

衛星から送られてくる情報が狂っていれば、地図アプリは正常に作動しません。

悪貨は良貨を駆逐する、とはよく言ったもので、数千人の中に一人でも悪意の人間が混ざっていれば人間のコミュニティや、文明はいともたやすく崩壊します。これはAIに関しても同じことが言えてしまいます。

交差点のカメラの映像を見て、信号機を適切に切り替えたり自動車を誘導するAIがあるとします。カメラの映像がフェイクでない、あるいは信号機を適切に切り替えるAIが嘘をついていない、故障していないという保障はどこにもありません（仮にブロックチェーンのような仕組みを使っても、ビザンチン問題と言われる50%アタック【半分以上のノードがウソをついていると破綻する問題】からは逃れることができません）。

私はメモリ保護もなかった頃のコンピュータ（バグったソフトのせいで、メモリやディスクの関係ないデータが飛んだり、おかしくなる！）の悲しい記憶が今でもあるせいで、極端な話、AIでなくても、プログラムが書いた通りにいつも動くとは今でも思っていません。

いわゆる大昔の人工無能であれば嘘をついているかどうかや、情報が壊れていないかを判定するのは（例えばフラグを使ったり、パリティビットを使って情報を検査したりすれば）比較的簡単なのですが、高度なAIになればなるほどそういう事も出来なくなってしまいます。

AIはフェイクを見抜けるでしょうか、そして見抜けたとしてその情報を他のAIに伝えられるでしょうか？

西洋のアラインメントがあるなら日本のアラインメントもあるはず

なぜ人を殺めてはいけないのか、一度は考えたことがあるかもしれません。きわめて実利的な解釈をすれば「平然と殺し合っていれば（高いコストを払うことになるので）その文明は発展しない・他のより発展的な文明に食われるから」ということもできます。

いくら有効な知能があっても、AI同士で潰し合いを始めたらシンギュラリティ、つまりAIが人間のように勝手に進歩していく状態にはなり得ません。

この問題は、また、アシモフの3原則のように単純なルールを加えるだけでは解決できません（3原則を加えられたロボットは、原作小説では矛盾に耐えられず壊れてしまいます）。

むしろ、人間がどうして文明や道徳を自然に獲得できたかという議論になってきます。

アラインメントという言葉に聞き覚えがある人もいるでしょう。この発想は実は、大昔のRPGにおけるキャラクターの善・悪・中立の9つの属性と同じものです。これはでも、元来とても西洋的な価値観です。

https://trpg-japan.com/wp-content/uploads/2021/05/alliment.jpg

善・悪・中立という発想は日本では定着しませんでした。西洋の人々が考えた仮想現実的なRPGとは異なり、日本人はRPGをシェイクスピアのような演劇的な何かとして、全く別のものとして捉えたことで「JRPG」なんて言われるようになりました。

アラインメントという発想はそもそも日本人に合わないのかもしれません。

最近の同じAIを扱ったフィクションでも、西洋的な唯一神や善悪の概念を扱った（皮肉ったともいえる）「クララとお日さま」と個々人の曖昧な幸福の問題を扱った「アイの歌声を聞かせて」は対照的です。

それと同じように、もしかすると日本人には日本人ならではのアラインメントの議論ができるかもしれないし、そこから日本発でAGIの議論をリードできるような発想が生まれてくる可能性も否定できません。

日本のパブリックなところで見えるAIの議論は、やはり西洋のそれからすると数周遅れているようにも思えます。インタプリタビリティやアラインメントの議論は皆無のようにも見えます。

でも、その西洋の世界でさえも、ほんの2年前までは今のような本格的なインタプリタビリティの議論など夢のまた夢でした。自然言語処理においては、OpenAIがGPT-3のAPIを公開したのをきっかけに、実用面（今）と理想面（遠い未来）での両輪の議論が一気に花開いたのです。

AIを研究室の中や、企業同士のビジネスだけの出来事ではなく、もっと身近でパブリックなもの、手軽なものにしていくことで、日本ならではの「幸せのためのAI」のような、何か新しい議論や技術が生まれてこないかと思っていますし、そう願っている今日この頃です。

この記事が気に入ったらサポートをしてみませんか？