見出し画像

仮想政府があるといいな (6)

仮想政府がたくさんあるといい理由2


「強化学習」というAIの技術がある。

ちょっと昔にAtariのビデオゲームをAIが、人間より上手くプレイして話題になった。しかし、その時点では、いくつかのゲームで人間に全く及ばなかった。人間にとって簡単な「迷路の脱出に使う鍵を遠くの部屋から見つけ出す」というようなタスクが解けなかったのだ。

もちろん、その後も地道な改良が続けられて、ついに全てのAtariのゲームで人間を越えるようになった。


DQNからAgent57に至る技術系統図
https://deepmind.com/blog/article/Agent57-Outperforming-the-human-Atari-benchmark

技術的なポイントはいくつもあるが、かなり重要なのが「内発的動機」という概念だ。上図の「探索 EXPLORATION」の内部に相当する技術である。

上図の一番上は「DQN」という最初のバージョンで、下に行くに連れてAIに追加された概念が増えていく簡便な技術ツリーになっている。

ちなみに「探索」以外で追加された技術は、短期記憶、エピソード記憶、メタ制御(今このタイミングで、好奇心に従うべきか過去のパターンにするか決断する)というもの)。何万回も練習できる特殊な状況という点は、人間とはかけ離れているが、なかなか「人らしさ」のある部分を捉えて来てもいる。

「内発的動機」というのは、(AIにとって)「新しい状況=認識が困難な自状況」を発見すること自体へ、「外部からの客観的評価」とは無関係に積極的な報酬を与える仕組みだ。外部からの評価(「ゲームの得点」など)ではなく、あくまでAIの個体的な記憶・エピソードなどに依存した「新しさ」を求めるから「内発的」なのだが、この概念、最初は「好奇心」と呼ばれていた。

この好奇心が無いと、AIは過去に得られたわずかな報酬を手がかりに同じことばかり繰り返すようになる。たとえばスタート地点でずっと飛び跳ねていたりする。無報酬でもしばらく頑張って探索する、ということができず、過去に呪縛されている。



もちろん、これはAIの話で、人間の社会とは違う。

通常の強化学習では、シミュレーションを何度でも繰り返し安全に探索できるが、現実世界では1,2回の失敗が致命的である例は数しれない。

けれども強化学習というのは、元々人間などの動物が持つ報酬関係の神経系を元にした技法だし、好奇心を使って色々探索しないと解けない問題がある、という事実自体は、人間の社会でも、さらには予算の使い方といった問題でも変わらないだろう。目の前もしくは直近の過去に引きずられて遊び心を無くしてしまうと、同じことばかりしてしまうのも、(AIと人で)ほぼ共通では無いだろうか。

つまり、前回ふれたように「地方」ごとのカスタマイズの必要性、配分自体の(新しさへの)探索の必要性、二つの理由から気軽に好奇心で試せる仮想政府の予算案がたくさんあることは、「探索」として望ましい。

そして、周りをみんな仮想政府とその予算案で囲めば、その「空気」に屈して、「現実」の政府も(暴力なしに)変わるかもしれない。

それは一種の「(予算案を使った)投票」だ。

もちろん、こんなことは夢物語に見える。

けれども、要素技術は、ほとんど既にある。メタバースやMMORPGはそういう流れの端緒かもしれない。MMORPGでは、現状、開発会社が「政府」として通貨発行量やゲームの規則(法)を一方的に決定する。だが、企業ではなく、たとえば分散化された非中央集権的組織の開発したMMORPGが、投票で今後のルールを決めるようになる時代もいつかは来るだろう。

実際の通貨がそこに絡むこともありうる。いわゆる「メタバース」の夢の一部だ。

だが、今のメタバースは一度入ったら、人間関係や投資した資金の動かしにくさで参加者を縛って、他のプラットフォームに行かせないという方向に進んでいるように見える。逆に、人間関係ごと移動できるようにして、メタバースの方を交換可能にするなら、それは上で触れた「仮想環境としての政府」にかなり近い。

そういうことはプラットフォーム商法の企業だと自己の利益に反するので、できない。だが、他の収益源を狙えばできるかもしれないし、いずれメタバースを作る作業自体が今の基準から見たら「一瞬」で出来る程容易になる日が来るだろう。その時、メタバースを一人一人が持っていて、それを集計する仕組みがあると、やはりミラーバジェットに似てくる。

冒頭画像 Tortoise box, 18th century, possibly British



前回

続き




この記事が気に入ったらサポートをしてみませんか?