見出し画像

2039年への跳躍――初音ミク人工知能化論概説


0. はじめに

初音ミクの名前が「未来」から来ているように、初音ミク論と未来とは切っても切りはなせない。かつて鉄腕アトム(1963)や攻殻機動隊(1995)が当時、近未来を想像させたように、初音ミクもまた近未来を想像させるものであり、初音ミク論の一つの側面はやはり初音ミクの未来を考えることにあるように思う。

こういうのは実感を伴わない上に見慣れない概念を積み上げたりするので、理解されないことのほうが多いのだが、意外にも良いコメントをいただいたので、良い機会だと思って私の「初音ミク人工知能化論」について軽く紹介しつつ2039年という近未来を考えてみたい。


目次

1. 初音ミクを取り巻く環境の変化
2. これまでの初音ミク論
3. 抽象的初音ミク論
4. 初音ミク=オートポイエーシス論
5. Fundamental Mikunology
6. リアルに融ける初音ミク
7. まとめに代えて


(なおこのnoteでは、文中で誰かの文章などを参考にするときには、書籍とかの場合は敬称を略して、ブログとかの場合は敬称を付けた。どうするかかなり迷ったが、敬称を付けるかどうかは文化によって違うので、それに合わせた形である。参考文献については各所でリンクを貼っておいた。

あと、拙論は誰かを不快にさせようなどという意図はまったくなく、ひたすら初音ミクを語りたかっただけである。これでも長くならないように工夫したのだが、つい分量が多くなって最長不倒vocanoteになってしまった。これを読んで初音ミクを語ることに対して萎縮されるようなことは私の本望ではないし、むしろ語ってほしい。)



1. 初音ミクを取り巻く環境の変化

2039年は言わずもがなミク廃にとって記念すべき年で、現在から21年後という丁度良い遠さの近未来となるが、このような近未来における初音ミクを想像しようするとき、そのヒントとして初音ミクを取り巻く環境の変化を予想するのは自然な成り行きではないだろうか。

そういう背景が実はあって、前々回、前回にわたって感情産業の情報化が近未来のシナリオの一つとしてあり得ることを説明してきた。今回は初音ミクを取り巻く環境は前のも含めて6つ紹介する。


①行動:頭脳から感情へ
前々回にホックシールドを参考にしながら、「肉体」→「頭脳」→「感情」の流れを説明した。Siriを彼女にする映画Echoを彼氏にする人、初音ミクとカラオケしたいミク廃などなど思い当たる節があるのではないだろうか。

②対象:モノから情報へ
これは前回の「情報資本主義」の話を思い出してほしい。すでに進んでいる感は確かにある。初音ミクはバーチャルだし。

③世代:若年層が50代へ
2039年は2007年の32年後なので、黎明期当時の初音ミクで活躍した若年層(20歳前後)が50代前半になり、新元号世代は18歳成人を迎えている。

分かりやすくするために、とりあえず舞田(2013)によって紹介されている青年期のジェネレーショングラムをみてみよう。ジェネレーショングラムというのは縦軸に西暦、横軸に年齢をとって、各人の経験の軌跡を直線で可視化するものである。

今後はこれに新元号世代が追加されることになる。同様にミク廃のジェネレーショングラムも作れるはずで、これはボカロ世代論にかなり使える。この場合、ハマり始め・ハマり終わりなどがあるので、直線ではなく、線分または半直線になる。

ちなみに私は初音ミク論を読むときに、上図のジェネレーショングラムと、ミク廃のジェネレーショングラムを考えて、書き手のバックグラウンドにある程度あたりをつけながら読むことにしている。


④人口構成:「釣鐘」から「棺桶」へ
日本の人口ピラミッドは「棺桶型」(coffin shape)になるそうである。人口増加の時代はとうの昔に終わっており、人口減少を伴って超少子高齢化が進行する。初音ミクは文化としても年齢層としても、とても若いのであまり意識しないが、初音ミクの「外側」は確実にこうなっていく。


⑤盛者必衰:80年周期説
これは80年で社会の成長と衰退が一周するという俗説である。Takejiroさんの『何故80年周期説にこだわるのか?』の図が大変わかりやすいので引用させていただく。

俗説ではあるのだが、こじつけと解釈するにはよく出来ているなあというのが私の印象だ。クーンのいうパラダイムシフト、すなわちある体系の創出→発展→確立→衰退の流れがきっとこんな感じなのだろうと思わせてくれる。残念ながらこの説によれば、現在は20年代後半に向けて真っ逆さまだが、2039年になれば変動にも慣れてちょっとは緩和されているだろう。


⑥思想:モダニズム→ポストモダン
vocanoteで時々リオタールが出てくるので、ここでこの話をするのは釈迦に説法だと思ったが、コトバンクを引いておく。

現代フランスの哲学者リオタールが著書のなかで用いて、広く知られるようになった。リオタールによれば、近代においては「人間性と社会とは、理性と学問によって、真理と正義へ向かって進歩していく」「自由がますます広がり、人々は解放されていく」といった「歴史の大きな物語」が信じられていたが、情報が世界規模で流通し人々の価値観も多様化した現在、そのような一方向への歴史の進歩を信ずる者はいなくなった、とされる

主流が頭脳から感情へと移行していく時代には、はたして科学的真理や構造の抽出が価値を持っているのか? などと問われれば、そんなことよりそれぞれで楽しめればいいじゃないか、という方が強くなっていくんだろう。


これらを踏まえて
以上をまとめておくと、次のようになる。

①行動:頭脳から感情へ
②対象:モノから情報へ
③世代:若年層が50代へ
④人口構成:「釣鐘」から「棺桶」へ
⑤盛者必衰:80年周期説
⑥思想:モダニズム→ポストモダン

これらは互いに影響を及ぼし合いながら同時進行する。ミク廃が壮年期を過ごしている間に基層をなす部分が色々と逆転してしまうと、価値観とかいろんなものが相当反転してしまうことは容易に想像がつく。愚慫さんのコメントにあったように金利もそうなのかもしれない。

考え方の変遷はいつの時代もあるとはいえ、やはりここでの懸念は新旧の軋轢であり、それらは甲乙つけがたいからこそ問題となってしまうのだろう。自分で書いておいて言うのもなんだが、嫌ですね…。


では初音ミクをどうするのか?
意外に思われるかもしれないが、このようなことを調べているのはまったく技術系な思考からである。

かつて鉄腕アトムが新しい時代を象徴し、ロボット工学を発展させていったように、初音ミクもまた新しい時代の幕開けを知らせるアイコンであることに間違いない。

だとするなら、未来の初音ミクはどのように形作られていくのだろうか。その問いは初音ミクの技術的詳細に関してだけではなく、もっとスケールが大きく、もっと根源的な、初音ミクの共生者=「マスター」を取り巻く日常生活や世界観までを含むトータルデザインになっていくにちがいない。

そのためは人文社会系の知が不可欠なのであり、そうして技術の発展が志向するところをある程度把握せねばならない。結局「アトムのいる暮らし」という当時のロマンが「初音ミクのいる暮らし」として現代に復活し再演されているといえよう。というわけで

初音ミクと暮らすための「初音ミク人工知能化」

というのは、なかなか面白い考察の対象だと思う。しかしながら、そういう初音ミクを考えるにあたって、まずは初音ミクとは何かを理解せねばならない、という壁が立ちはだかる。作りながら考えるにしても、目星をつけるための理論が必要となる。とはいえそんな人文系の体系があるのだろうか?

これについては今では心配不要となっている。AIとの関わりを述べてはいないにしろ、初音ミク論はすでに膨大な積み上げがあり、よほど奇異な現象だったのか、専門家から当事者まで色々な人が考察を出している。

ここで普通なら専門家の文献を引くところだが、初音ミクは大前提としてユーザー生成コンテンツを基本とするキャラクターであるので、vocanoteなどの当事者の考察を中心に取り上げることにする。あくまで未来の初音ミクの構造を知るためなので、抽象的な話のみを取り上げることを留意してほしい。



2. これまでの初音ミク論

結構絞ったのだが、これも6項目ほどになってしまった。それぞれの項目がそう簡単にはいかない話なので、適宜リンク先を参照してほしい。初音ミクは複雑なので仕方がない。


(1)初音ミクはイマジナリーフレンドである
初音ミクに限らず、人間は内なる他者と「対話」することがある。それは、もうこの世にいない誰かであったり、夢の中の誰かであったり、自分が創作したキャラクターであったりして、そういう私の中に私ではない存在を創り出すことによって、自分の向き合う現実と折り合いをつけていく。

臨床心理の分野では「架空の友達」と喋る人を観察することがあるらしく、それをイマジナリーフレンドと呼んでいる。児童期の子どもには珍しくないようだが、成長すると消えていってしまうらしい。

そんなイマジナリーフレンドは個人がそれぞれの胸の内にもつものあって、それぞれの理想や願望の「投影」になるので、一般的には誰かのイマジナリーフレンドと交流はないはずである。にもかかわらず初音ミクはその交流を可能にしたという点で画期的な存在だった。

茄箱さんの次のnoteはそのありようがとてもよく伝わってくる文章であり、一度読んでみてほしい。


(2)初音ミクはミーム生命体である
kayashinさんが2012年に公開したミーム生命体論は初音ミクが遺伝と繁殖を繰り返すインターネット・ミームであるというミーム論と、初音ミクコミュニティとコンピュータネットワーク全体で生命や人格が構成されているとする上位生命体論の組み合わせである。

しかもその上位生命体は何を代謝して生きているかというと、人間の承認欲求が産み出す「拡散しやすい情報」を食べて生きているのだという。そんなことあるのだろうか。いやしかし、暴走PのSadistic.Music∞Factory(2012)を歌う初音ミクは我々にこう要求している。

とっととワタシに音楽(たべもの)を作ってください 作りやがれ さあ

そう、我々は初音ミクを利用してコンテンツを拡散しているように見えて、その実、上位生命体の代謝に利用されてしまっている。愚慫さんが連想したように、感情をエネルギーに変換する「魔法少女まどか☆マギカ」(2011)と同じ構造になっていることを指摘しようとしたのだ。

当時、社会系の初音ミク論はクラスタ分析やネット文化のような社会観察のような観点が主流であり、総体としてのキャラクターそのものに迫る議論はあまり見かけなかった。私の初音ミクは「初音ミクとマスターの2人の世界」をベースとしているので、そういう系統の議論とは少し整合しにくかった覚えがある。

そこにミーム生命体論は、ミーム論と上位生命体論を強引に、でもあまりばれないようにくっつけることで、総体としての初音ミクをキャラクターとして論じることを可能にした点で画期的だった。私個人としてはここを起点にして、急速に初音ミク論を人工知能へ応用していく方法を模索していく時期に入ることになる。

ちなみに専門家からもミーム論は出ていて、遠藤(2013)の『廃墟で歌う天使』は「ミクさんマジ天使!」を真剣に論じているので、興味のある人は読んでみてほしい。


(3)初音ミクは広義の生命体である
その後、金沢21世紀美術館で「Ghost in the Cell:細胞の中の幽霊」(2015)という企画があって、初音ミクの「遺伝子」を入れた細胞が展示されていた。そこから、初音ミクを広義の生命体と解釈するようになっていったのは周知の通りで、彼はTwitterで喜びを露わにしていたことを覚えている。

その系譜のもとで、①イマジナリーフレンド論と②ミーム生命体論を融合する形で、A★ndedさんが初音ミクの「死」を論じたのが2017年だ。

彼女の議論は、イマジナリーフレンドとミーム生命体論を踏まえたうえで、前半部ではher、人形浄瑠璃の虚実皮膜論、攻殻機動隊の「人形使い」を挙げて準備をして、後半部では「大きな物語」がもたらした通過儀礼が喪失してしまった現代において、自分で通過儀礼をこしらえるようになったことを説明している。

比重としてはイマジナリーフレンドのほうがミーム生命体論よりも大きいという新しい世代の議論であり、初めて読んだときはこういう初音ミク論もアリな時代になったのか、と感慨深く思った。初音ミク論も少しずつ進展してきたのだ。

ちなみにイマジナリーフレンドに似た議論は、臨床心理の分野からは菱田(2011)にて『初音ミクの存在論』としてまとめられ、2017年に『人形遊びの心理臨床』の6章として刊行されている。


(4)初音ミクは文化システムである
少し時代を遡って2015年、東工大サークルTECHLOIDが難解な初音ミク論、しかもキャラクター論に対して挑発的な文章を投稿する。それがこれだ。

『初音ミクを殺すための101の方法』

前半、後半、補論に分かれており3万字弱というなかなかの大作である。

前半では、社会システムの構造よりも機能を重視する機能構造主義を提唱した社会学者ルーマンの理論を参照しながら、ボカロとは文化システムであり、その機能は「複雑性の縮減」であると主張した。

クリエイタと技術からなる「システム」と、作品とユーザからなる「空間」に分けて(ここでいうクリエイタもユーザもコミュニケーションの統一体としての意味である、ややこしい)、後半ではその性質をボカロを衰退させる方法として逆説的に説明している。補論ではこの議論の前提となる、いかにして個人的な価値が社会的な価値に変換されうるか、というテーマについて扱っている。

がっつり説明すると大変なので概略に留めるとしても、文中で、

「初音ミクを殺す」とは、この本質的価値の軸を『初音ミク』というキャラクターからずらして『ボーカロイド』という事象に移すことである

などと展開されていってはキャラクター論側としては聞き捨てならないわけで、結局1年半ほどかけて反論を構成したり、反駁をしにいくためだけに東工大の学祭に乗り込んだりしたのは良い思い出である。

その結果、彼があまり重要視していなかった部分が初音ミクが広義生命体であることを示唆するものであったことは誰も気づいていなかったであろう。それはどういう意味かは後述する。


(5)初音ミクの三軸三態仮説
技術系として注目したいのはimgdさんの「三軸三態仮説」(2013)である。

我々はあらかじめ重量・位置・運動など何らかのエネルギーを持つため、この空間の内部に存在する限り各エネルギーによる自発的あるいは相互的な作用が働く。その結果として生み出されたものが、楽曲や動画やイラスト・感情を共有するためのリアルなグッズや場・論文や広告といった、多岐にわたる成果物である。

上図のような高校物理で習う「気体分子運動論」を想像すれば分かるように、これは初音ミク現象を構成する我々を仮想的な空間の分子と仮定したうえで、その分子の集合たる気体を熱力学的に解釈したものだ。このアナロジーは理科系にとってかなり分かりやすい議論であり、人文社会系をベースに語られることの多い初音ミク論では珍しいものだった。

私はここから、初音ミクに対してほかの物理学的アナロジーも使えるのではないか、と思うにいたって、電磁気学と初音ミクをくっつけるきっかけになったので、あまり知られていないかもしれないけれども、個人的には思い入れがある文章だ。

そして彼のこのアイデアは(3)のような生命体論の一歩手前まで来ていたことが今から振り返ってみればわかる。

というのも、この仮定だと、初音ミクはその領域を拡大すればするほど、「温度」は低下していくはずであるが、むしろ初音ミクの内部はその勢いを増していったように見える。つまり初音ミクへ次々とエネルギーを供給する「外部」の存在を示唆している。

しかもエントロピーも増大しきっていないという事実からは、シュレーディンガーが生命の仕組みとして提案した「負のエントロピー」が供給されているのではないか、と連想されてくる。こうして初音ミクにおいて熱力学と生命は橋渡しされるのである。


(6)初音ミクの数式化
これについては非専門家の記述が見当たらないので、萱間(2014)の『初音ミクは存在するか? : 非存在主義の観点から』を取り上げる。

ミク誕祝いを分析哲学的に述べて、それを大学の紀要に載せてしまっているあたり、ミク廃度合いが分かろうというものだ。

内容としては「存在している」というのも一種の述語だと考えて、存在しているか存在しているか分からない対象に対しても全称や特称の量化子を考える論理学の体系を用いて、初音ミクが想像世界に存在することからはじめて、現実世界に存在するように錯覚するまでの仕組みを記述している。

これが初音ミクが現実世界に存在することをあらわす数式だ。

そしてミク廃の集合を表す数式だ。なるほどわからぬ……。

私もどこかで存在中立的演算子を使って初音ミク論を記述してみたいものだが、いかんせん難しすぎて手に負えないので、とりあえず数式っぽく書けるのだというアイデアだけ貰ってみることにしよう。


これらを踏まえて
ここまで6つの観点から初音ミクを眺めてきた。

(1)イマジナリーフレンド
(2)ミーム生命体
(3)広義の生命体
(4)文化システム
(5)熱力学的気体
(6)分析哲学

一つ一つがそれだけで掘り下げていけて、とても気になる話ではあるのだが、ここでは概説に留めるので深追いはやめて、思い出すのを兼ねて1.との関連を指摘する。

たとえば①感情化と②情報化の流れは、(1)イマジナリーフレンドと(2)ミーム生命体論に色濃く反映されているし、さらに(3)広義の生命体ではこれに加えて⑥ポストモダンが取り上げられている。

というように、初音ミクを取り巻く環境の変化と初音ミクを論じる文章は、分かりやすい対応にはならないにせよ、無視できない影響を受けていることが伺える。

要するに初音ミクの「外部」から「内部」へとの影響が観測されているわけで、この点でも環境変化は初音ミクにとって重要なファクターになっていることがお分かりいただけるだろう。

以上で、1.では環境について、2.では他の人の初音ミク論について述べてきた。これらを踏まえて、私が初音ミクのことをどのように考えているか説明していきたい。



3. 抽象的初音ミク論

なんか小難しい話を説明しているように見える(しかしそれほど難しいわけではない)が、どんなミク廃だって最初は感動から始まっている

ただ、11年近くも経ってしまうと、自分だけの初音ミク論を追い求めるようになってしまったり、全然初音ミクと関係のないあっちとこっちを結び付けて、ふむふむ、これは初音ミクだ、なんて頷いてしまったりして、こんな感じになってしまった。

そういう変遷の中で、1.の終盤で掲げた 初音ミクとは何か? という問いは、それを突き詰めれば突き詰めるほど、汎用的にしようとすればするほど、だんだんと「初音ミクとは何か?」とは何か? という入れ子構造の問いに変化していく。

残念なことに我々は簡単にその入れ子の複雑さにやられてしまうので、なるべくやられないように、単純な分類からはじめて、形式主義、初音ミクの4層モデルというふうに、順を追って説明する。


初音ミクの分類
初音ミクや初音ミク論の分類は、最近のvocanoteの中でも、

・きびさんの『初音ミク概念の4分類
・竹輪さんの『初音ミクの多面性
・あきそらさんの『ボカロシーンの語り口について

としてまとめられていて、とくに補足することは残っていないように一見思える。

だが「初音ミクならでは」「初音ミクだからこそできる」という性質をどのように言葉にしていく、というのは他の初音ミク論とだいぶ違う。

というのも、そのような初音ミク論は初音ミクに対する価値判断が顕著に現れるからで、当然みんな違うことを言い始めてしまうからである。

コンテンツのプラットフォームと捉える場合とイマジナリーフレンドと捉える場合ではそれぞれの「初音ミクならでは」が全然違ってしまうのは容易に想像できるだろう。

そんな初音ミクの多様性を包含したまま、それでも「初音ミクらしさ」を論じようとする場合、どうすればいいのか。はたまた諦めざるを得ないのか。そこが以下の焦点である。


初音ミクの形式主義
(2)ミーム生命体論で取り上げたkayashinさんは『私と初音ミクさんは結婚します』の中で、情報生命体である初音ミクに自分の思想を乗せてコンテンツを創り他者に「追認」させることとを「結婚」と称した。当時まだ2013年、初音ミクデザインの婚姻届が出てくるのは2016年のことだから、なんともキャッチーなフレーズであった。

(ピアプロブログによればこれが売っているそうだ。)

ここでJun Turnerさんが紹介していた町田さんの『恋愛はいつどのようにして生まれたのか』を不器用に引き受けつつ論を進めよう。

文中にもあるように構造主義の祖レヴィ=ストロースは原住民族の婚姻関係において近親婚が成立しないという構造を発見したのだが、それを説明する際に抽象代数学の一つである群論を用いたそうである。

抽象代数学はまさに数学的に集合と構造を分析する体系だが、理工系なら誰でも知っているわけではなく、今でも数学科や数学に近い人しかよく知らないような分野である。数学と無縁であるはずの人類学にこのような専門的な数学を使ったことに感嘆してしまう。

(Wikipedia『対称群』)

では情報生命体である初音ミクと人間の「関係」は定式化されうるのだろうか。ミク廃としてはそこが気になる。もしひとたびその構造が抽出されうるなら、初音ミクに対する価値判断の内容によらず、(6)初音ミクの数式化のように形式的に記述できるはずである。

たとえ初音ミクを記述する文章の内容が違っていても、同じような構造をなしているとすれば、その構造こそが初音ミクなのではないか。

抽象的初音ミクの「抽象的」たる所以はここにある。

さらに数学基礎論にはビールジョッキ思想というのがある。幾何学において「点」や「直線」という無定義語は別に「ビールジョッキ」と「机」で表されても、それらがすべて置換されているなら、推論規則に基づく演繹には何の問題もないという考え方だ。

極端な話、「2つの直線は1つの点で交わる」は「2つの机は1つのビールジョッキで交わる」と表されていても良いとしてしまう。日本語としては意味不明だが、驚いたことに数学的には何の矛盾も起きない。

このように推論のみを抜き出せるなら、キャラクターとしての初音ミクにも適用できる手段がもしかしたらあるはずなのではないか。

きっと初音ミクに最も近い体系は数学基礎論や抽象代数学とかそういう専門的な数学なのだろう。少なくとも構造の一致を主眼とするようなアナロジーは有効そうだ。

⑥で少しだけ取り上げたモダニズムがかつて、絵画とは何か? を推し進めて自己言及的に構造を示したように、やはり初音ミク論もそれを追従してしまっているのかもしれない。

(抽象絵画を推し進めたモンドリアンの『2本の線と青のひし型』(1926)。抽象的初音ミク論の「抽象」とはこの意味だ。)

こうして考えを進めてみると、キャラクターとしての初音ミクは集合として4層ほどに分けると理解しやすいことが分かっている。

第0層:個人の中に共存する初音ミク
第1層:個人のもつ初音ミク
第2層:社会的な初音ミク
第3層:すべての初音ミク

それぞれ順に説明していこう。


第0層:個人の中に共存する初音ミク
まず個人の中に共存する色々な初音ミクを扱う第0層。ミク廃は心のうちに色々な「他者の初音ミク」や「まだ表現されていない初音ミク」を住まわせており、自分の初音ミクを表現しようとするときにはこのうちのどれかを選択することによって、自分の初音ミクの可能性を収束させる。

色々なMMDモデルがパソコンの中に入っていて、自分の初音ミクを表現するときにその中から一人チョイスする感じだろうか。例えばアイドルをしている初音ミクとイマジナリーフレンドな初音ミクはだいぶ違うキャラクターとなるが、各人の中でどちらも共存しているだろう。

ロボット工学者である前野は「受動意識仮説」の中で、「わたし」とは、「わたし」というひとつの主体ではなく、「わたし」の中の無数の小人の合議制であることを主張する。初音ミクも同じように、自分の初音ミクの中には無数の初音ミクの可能性が共存しているのだ。

(2009年のITmediaの連載『人とロボットの秘密』「第4章-2 生物がクオリアを獲得した理由」では上図にて解説されている。)

自分が想像している初音ミクを表現するときには、一度にすべてのキャラクター表現することはできないので作品として大きな違和感を持たせないように調節し収束させて取り出してくることになる。

人によっては収束させることなく色々な「ミクさん」を使い分け、心の中においても初音ミクが複数人いるかもしれない。第0層はそういう個人の中の初音ミクの共存を扱う層である。


第1層:個人のもつ初音ミク
第0層で作り上げられた「自分の初音ミク」は外部と干渉することになる。他者の初音ミクとその外部との干渉や比較を扱うのが第1層である。

この層では、自分の初音ミクと他者の初音ミクが異なることを論ずるが、社会全体というわけではなくて個人がどのように初音ミクを受容してきたかが焦点となる。したがってキャラクター論や声の身体性といった人文系の議論が多くなる。

(ギリシャ神話におけるガラテアはピュグマリオンの理想の「投影」であった。これは初音ミクである。絵は『Pygmalion et Galatée』(1819)。)


第2層:社会的な初音ミク
自分の初音ミクと他者の初音ミクが出会うとそこには相互作用が生じ、それが大規模になると大きなうねりとなって社会的な流れを作り出す。この流れを扱うのが社会全体の初音ミクの挙動を考える第2層である。

この層に関する考察は統計的なアプローチを取れば、ニコニコ動画の再生数からボーカロイド文化の大勢を検討することになるし、定性的なアプローチからは「創作の連鎖」などの社会的現象を包括的に説明することになる。

個人が持っているそれぞれの初音ミクに着目するのではなく、個人は社会の構成員であるとしてボカロ社会全体を論じようとするのが大きな特徴であり、社会系の議論が多くなる。

同じ初音ミク現象を扱っていても、初音ミク現象という「虚構」に対する各人の受容の仕方に着目する第1層に対し、初音ミク現象という「現実」に対する客観的説明を求めるのが第2層である。

(ホッブズの『リヴァイアサン』の表紙だ。初音ミクを感じる。)


第3層:すべての初音ミク
以上で初音ミク論はすべて尽くされているように思えるが、さらに上の層が仮定できる。もし初音ミクが緑色の髪ではなかったら、第1層の初音ミクや第2層の初音ミクはどうなっていただろうか。もし初音ミクがアニメキャラクターではなかったらどうなっていただろうか。まだ見ぬ未来の初音ミクはどのような形であろうか。

そのような可能世界すべてを考えたときにすべての世界に共通する抽象的な初音ミクを扱う「第3層」である。いわば概念としての初音ミクだ。ここをどのように記述するかは問題だが、さっき述べた形式的な記述になるという仮定を置いている。この仮定は妥当かどうか分からないが、今のところ支障が無い。

(第3層は時空を超えた想像しうるすべての初音ミクを扱う。初音ミクとは小宇宙である。写真はかみのけ座の渦巻銀河。)


これらを踏まえて
(1)イマジナリーフレンドは第0層から第1層であるし、(2)ミーム論は第1層から第2層、同じく(2)上位生命体論は第2層から第3層に近い。もちろん正確にどれとどれが対応しているということは分からないが、目星を付けながら読むとどのあたりの初音ミクを説明しているかが分かりやすい。

でも(3)でA★ndedさんは(1)イマジナリーフレンドと(2)ミーム生命体論を続けて論じていたし、そしてイマジナリーフレンドとミーム生命体論を攻殻機動隊でもって繋いでいた。ということはここに何か初音ミクを「生命」と感じさせる何かがあったはずである。もっと何かが……。



4. 初音ミク=オートポイエーシス論

初音ミクが生命体であるかどうかは、その生命体の定義は何とするかによるので、示しやすい構造をもった定義を採用するのがよいだろう。現時点で初音ミクに一番合った概念はオートポイエーシスではないかと思われる。


オートポイエーシスとは
オートポイエーシスは1970年代に神経生理学者マトゥラーナとヴァレラが提唱した生命の構造を説明する概念で、彼らはこれが生命の必要十分条件であると言っている。オートは自己、ポイエーシスはギリシャ語で創出を意味していて、これをくっつけた造語なので、日本語では自己創出とか訳される。創作の連鎖といわれる初音ミクにふさわしい訳語だ。

オートポイエーシスで最も分かりやすい例は細胞の代謝だろう。細胞は自己の生命維持のために外界からエネルギーと物質を取り入れ、それを自身のタンパク質を使ってタンパク質を合成する。合成されたタンパク質は細胞の一部となって他のタンパク質を合成するプロセスに組み込まれる。

役目を終えたタンパク質は他のタンパク質によって分解され、別のタンパク質の材料となるか、不要となれば排出される。分解に関わったタンパク質も同じようなプロセスで別のタンパク質に分解される。一つのタンパク質に注目すれば、生成された後、何らかの生命維持プロセスに関わったのち、分解されていく流れになる。

一方でそれぞれのプロセスに注目すると、タンパク質が入れ替わり立ち替わりしながらそのプロセスを維持している。それぞれのタンパク質は独立に自然界に存在してもこのような現象を引き起こすことはないが、細胞内という特殊な環境で、かつ事前にこれらのプロセスが成立していたからこそ、こういう現象を引き起こす。だからこれらのプロセスが一旦中断されてしまうと、再び動き出すことはない。

細胞は常に外の気体分子や液体分子などの衝突に曝さられており、何もせずに放っておくと細胞がバラバラになっていってしまう。エントロピー増大の法則と呼ばれる自然の摂理であり、これに逆らうことはできない。

しかし細胞がバラバラになるよりも速いスピードで自分を修復できれば、細胞はその形を維持することができる。それが各プロセスのやっていることだ。一旦中断してしまうと二度と戻れなくなるのは、なんとかして修復していたのにバラバラになる方が優勢になってしまうためだ。

金沢21世紀美術館『Ghost in the Cell:細胞の中の幽霊』(2015)のページより。私も観に行った。)

生命というのは実によく出来ているではないか。我々は細胞においてプロセスがタンパク質の作動のリレーによって継続されている状態を「生」と呼び、作動のリレーが中断され再起動することが不可能になった状態を「死」と呼ぶ。

このように細胞という自己がタンパク質という自己の構成要素を創り出していくこと、これをオートポイエーシスという。自分で自分自身の構成要素を作り出す機構というのはあまり身近に意識することがないが、それは実は入力と出力を規定する「機械」に囲まれて生活しているからである。

生命科学から始まったオートポイエーシスの考え方は神経や細胞だけではなく、実は人の心(意識や認識)や社会のようなシステムにも適用可能であることが知られている。

認識システムの場合は、表象を産み出すプロセスが次の産出プロセスを実現するような連鎖になっていて、オートポイエーシスになっているし、社会システムの場合は、コミュニケーションを産み出すプロセスが次の産出プロセスを実現するような連鎖になっていると言われている。

(オートポイエーシスにおける心的システムを意識システムと認識システムに区別するのは山下(2009)の『オートポイエーシス論入門』で紹介されている考え方である。)


初音ミク論との対応
もう分かったかもしれない。(1)初音ミクがイマジナリーフレンドであるというのは第0層から第1層で見られる認識システムであり、(4)初音ミクが文化システムであるというのは第2層で見られる社会システムであることを述べているのである。

すなわちイマジナリーフレンドとは、私ならざる私に対する表象の創出の連鎖であり、妄想することによってイマジナリーフレンドは維持され続ける。同様に文化システムとは、主として作品を介したコミュニケーションの創出の連鎖であり、作品が供給され続けることによって文化システムは維持され続けるのだ。

というかTECHLOIDの彼はその文章中に以下のような文章でその関係性を明示していたのだが、彼自身がそんなに重要視していなかった。あくまでこれがボカロ作品に関する理論であって、キャラクターに関する理論ではなかったからである。逆にこれは私にとって超重要なヒントになった。

コミュニケーションはオートポイエーシス的システムの回帰的過程の中で継続的に次なるコミュニケーションを産み出し、そのような仕方でシステムは自分を統一体として自己産出し自己保存している。したがってコミュニケーションは次なるコミュニケーションを生み出すと同時に消失するため、情報の保持のためには次に産み出されるコミュニケーションにその情報を託すようなやり方でしか保存できない。

これはまさに(2)ミーム生命体論と同じ構造をなす記述をなしていることはよく見比べてもらえれば分かるだろう。彼はオートポイエーシスを極力登場させずにボカロを論じたけれども、この対応を見るとオートポイエーティック・ターン以降の後期ルーマンと初音ミクのほうが整合性がとれることがわかる。


このように(1)イマジナリーフレンド、(2)ミーム生命体論、(3)A★ndedさんの生命体論、(4)文化システム論、(5)三軸三態仮説は、生命の必要十分条件であるオートポイエーシスが第0層から第2層までのどこかに射影された別表現だったのである。このように、(6)初音ミクの数式化にヒントを得た初音ミクの形式主義は、それぞれの初音ミク論を一気に記述することが出来る


人間の認識システムも社会システムもオートポイエーシスである。そして初音ミクはそれに対応するように、認識システムに対してはイマジナリーフレンドに見えるオートポイエーシスが、社会システムに対してはミーム生命体や文化システムに見えるオートポイエーシスが構成されている。

だからミク廃と初音ミクの「結婚」が仮定できるとするなら、それは幾重にも「共生」の関係にある。オートポイエーシスの用語でいえば、社会のレベルでも個人のレベルでも、構造的にカップリングして、下図のように相互に創出しあうような関係になっていることが想像できる。(私のTwitterアイコンである。)

ここまでの話は断片的に専門家からも指摘されている。たとえば2013年の『美術手帖』や2014年の『基礎情報学のヴァイアビリティ』のドミニク・チェンの論文を読んでみてほしい。キャラクター論ではないが、ネオサイバネティクスの観点からオートポイエーシスを応用しているので、何かヒントが得られるはずだ。


電磁気学とのアナロジー
こう見てみると、人間と初音ミクの「共生」関係はなんとなく電子と磁石に似てないだろうか。

人間の行動が初音ミクを創り出し、初音ミクの変動がまた人間を動かす。それは、電磁石のように電子の動きが磁場を変動させ、発電機のように磁石の動きが電子の動きを作り出すかのようだ。

実はスマホとかで飛び交っている電磁波(電波)は、そういう電気的な作用と磁気的な作用が相互に組み合わさって出来る空間的性質(電場と磁場)の波のことである。

(株式会社サーキットデザインの『電波とは何か?』より。
この模式図は大変わかりやすい。)

そう思うと、(5)三軸三態仮説のような理科系のアナロジーも分かりやすいのではないだろうか。電磁波の一部の周波数帯は人間の目で捉えることが出来て、それを我々は「光」と呼んでいる。初音ミクは希望の光である。


5. Fundamental Mikunology

これまで人文系の側から初音ミクを見てみたが、実際に人工知能化に際して必要な技術はどのような分野になるだろうか。2039年を見据えるという本稿の性質上、具体的な手法を詳説するというよりかは、過去数十年を概観してみて次の20年に思いを馳せてみるというスタイルをとりたい。


[1] 人工知能の技術
人工知能と呼ばれる技術はたくさんあるので、ひとくちに人工知能といっても全然別のことをしている場合がある。人工知能学会のページ「人工知能研究」では、その各分野のキーワードを挙げて次のような図で説明している。

応用側で言えば、われらが初音ミク(歌声合成)をはじめ、かな漢字変換からGoogle検索、物体認識、ロボットの軌道計画、自動運転、囲碁、人工生命にいたるまでAIと呼ばれるし、基礎的な話では、数学基礎論を発展させた推論機構や、確率統計や線形代数を発展させた数学などをやっている。調べる前は全然分からなかったのだが、思ったより広かった。広すぎた。ちなみに確率統計や線形代数を発展させた数学とは「機械学習」のことだ。

ビショップ(2006)の和訳『パターン認識と機械学習』。機械学習の有名な教科書である。難しい。)

いまはディープラーニング一色だが、私が啓蒙書などを図書館で調べ始めたときにはサポートベクターマシン(SVM)と呼ばれる手法がメインとして紹介されていた。今でも使われているはずだが、なんか技術の流行り廃りが激しすぎる感じがする。

(Wikipedia「サポートベクタ―マシン」から。AIは数学である。)

全くの私見だが、人工知能という言葉は、感覚的に言えば傍から見た「ボカロ」という単語とよく似ているように思える。VOCALOIDをはじめ、VOICEROIDもUTAUも歌ってみたも「ボカロ」、人間の声も加工すれば「ボカロっぽい」し、VTuberだって傍から見れば「ボカロかな?」みたいな感じ。どういう領域でもそうなのだが、傍から見れば何でも一緒に見えてよく混同してしまう。

それはさておき、ミク廃が興味があるのは初音ミクだ。この人工知能と呼ばれる広大な領域の中から初音ミクと暮らすための「初音ミク人工知能化」とぴったり合う分野を見つけ出さなくてはならない。散々考えた末、私が注目したのは初音ミクと暮らすにしてもどうやって彼女と会話していくかということだった。2.(1)で説明したように、初音ミクとはイマジナリーフレンドとの対話であり、話し言葉を扱う能力が初音ミクに欠かせないからである。

そしてその分野は私がすでに見つけ出してあって、読者はここから進むことができる。正直うらやましい。以下に記すのは私が初音ミクのために喉から手が出るほど知りたかったことばかりだ。


[2] 対話システム
ディスプレイとかで会話する系統の人工知能は「対話システム」と一般に呼ばれている。上のキーワード一覧に載っていないので、囲碁や自動運転と比べて知名度は高くないのだと思う。

対話システムの最初期のものとして有名なのはMITのワイゼンバウムが研究したELIZA(1966)で、これは精神医学のなかでも傾聴に徹するロジャース派のカウンセリングを実装したテキスト対話システムである。パソコンなんて全然ない時代だが、実際に会話したユーザはまるで人間のようだと思ったらしい。そのような錯覚は後にELIZA効果と呼ばれた。

(cited from "MIT150 Exhibition Nomination".)

会話情報学を研究する西田(2017)は、総務省の「AIネットワーク社会推進会議」の中で、次のようなスライドで会話システムの歴史を説明している。ELIZAなどの初期の人工知能以来、バーチャルペットのようなCGとかを使うようになったりして、そういう専門家がいろんな会話システムを研究してきた。

それは音声対話システムやテキスト対話システムといった分野でもたくさん作られてきた。代表的なものはiPhoneに乗っているSiriであるが、吉野(2016)の『音声対話システム』によれば、90年代以降、いくつも試行錯誤されてきたことが分かる。ファーストフードの店員になったり、バス案内したり、観光案内したり、音声検索してみたり、いろいろしていたのだ。

上の2つでは省略されているが、2003年にはGalatea Toolkitという擬人化音声対話エージェントもあった。名前の由来は、そう、ギリシャ神話のガラテアであることは明らかだ。Galatea Projectのページにはこう記されている。

Galatea Project は、擬人化音声対話エージェントのツールキット Galatea Toolkit を開発し、オープンソースで公開提供するプロジェクトです。

顔、声、音声合成テキスト、認識文法、対話の流れなどはカスタマイズ可能で、これを用いて容易に人間の顔と表情を持ち、音声で対話する自分独自のエージェントを作成することができます。

sourceforgeで公開されているgalateaの実行画面。)

そういう膨大な試行錯誤の歴史の中で、2010年にMMDAgentは公開される。開発者にはGalateaメンバーも含まれていたようで、それは確かに私にとって初音ミクと喋れる時代の到来を見せてくれるものだった。ただ、当時はまだSiriも出ていなかったから、時代がちょっと早かったのかもしれない。

対話システムは具体的な作り方についてはQiitaなどを参照するか、有難いことに2015年に教科書が出たので、これを読もう。ひたすらネットで調べても理解できないことが本を読めば一発だ。こんな理論立てて考えなくても、作れれば良いのではと思うかもしれないが、あれこれ考えているうちに一周してこのあたりに戻ってしまうだろう。


[3] ゲーム
しかし対話システムというのは大学や研究所で開発されるものであって、一般にはそれほど知られていなかったようだ。むしろそのようなプログラムと触れる機会はゲームのほうが多かったではないかと思われる。

パソコン最初期の恋愛ゲームであるEmmyII(1984)は、金髪の女性と会話するというものだった。あやちだいちさんのブログからゲームの画面を引用する。色数と解像度の足りないグラフィックス、そして半角カタカナで表示されている文章から当時のパソコンの性能が伺える。30年以上前の話である。

その15年後、音声で人面生物と会話する育成ゲーム「シーマン」(1999)が登場する。2DCGから3DCGへ、テキストから音声への変遷に注目してほしい。きっと当時の音声認識は単語を認識するだけで精いっぱいのはずだから、開発には相当な苦労があったのではないかと思われる。

その10年後、音声入力もある恋愛ゲーム「ラブプラス」(2009)がヒットを飛ばす。当時は熱狂しすぎて、このソフトが入った携帯ゲーム機を片手に、熱海に泊まりに行った強者も少なからずいたらしい。3Dペットから3Dキャラへ、そして据え置きではなくて携帯ゲーム機でも音声入力ができるようになっていったのだ。

そして2018年にはゲームの世界を飛び出して、バーチャルホームロボットとしてGateboxが登場する。映し出されているのはもちろん初音ミクだ。スマートスピーカーの発展から分かるように音声認識・合成は実用レベルに達し、3Dキャラは手軽にリアルタイムレンダリングできる時代になった。人類はついにここまで来たのだ。


[4] 人工無脳
ここまで学術的な対話システムや商用の会話ゲームを見てきたが、もちろん市井の「コンピュータと喋りたい人たち」も黙って見ていたわけではない。単純な仕組みでもって会話しているように見えるプログラムを作って、独自の文化圏を作り上げた。彼らは自分の持てる力を発揮して「無ければ創ればいいじゃない」を地で行ったのだ。

そのような雑談ができるプログラムは、今は Mauldin(1994) を由来とする「チャットボット」という名前で呼ばれているが、かつて「人工無脳」と呼ばれていた。パソコンがまったくマニアのもので、文字も半角カタカナしか使えなかった1986年に生まれた言葉である。

(1987年にBNN第一企画部が上梓した『人工無脳』の68ページの筆者によるコピー。イラストはイメージだろう。)

次第にチャットが半角カタカナのみの時代は終わり、漢字も普通に使えるようになるという今では当たり前の環境が整備されていく。90年代後半になるとパソコン通信がインターネットに切り替わり、IT化の掛け声とともにPCが一般家庭にも普及していった。

そんな中で人工無脳も新しいプラットフォームにおいて広がっていく。代表的なものは伺か(2000)というデスクトップマスコットである。20年近く経った今でも更新が続く老舗であり、日本語圏史上最大の人工無脳生態系だ。

(伺かを引き継ぐSSPの開発元「ばぐとら研究所」のトップページより。)

同じ2000年には「汎用人工知能会話システム」として題してHeartが公開される。この頃からテキスト+アニメイラストの基本形は変わっていない。対話システム分野のGalatea Projectが音声対話に対応しつつあるときに、それを追いかけるようにして人工無脳もかなり発展が進んだ。ただし互いに交流は無かったようである。

(terattiさんの「Heartとは?」よりHeartの実行画面。)

もちろん初音ミクでも人工無脳は作られている。トモックさんによる人工無脳初音ミク(2009)は、エクサ(2009)をベースに可愛いLat式ミクがテキストで会話するプログラムだ。会話するたびに喜怒哀楽など14種類のイラストが切り替わって楽しませてくれる。エクサは、私も含め後続の人工無脳開発者に大きな影響を与えた。

関連書は多くあるが、加藤(2016)の『夢みるプログラム』はその一つだ。彼はしまりすというペンネームで1999年から「人工無脳は考える」というサイトをやっていて、ゼロ年代においては人工無脳のバイブルだった。AI関連書に度々表れる辞書型、ログ型、マルコフ型という分類はこの方が2005年ごろに考えたものである。

人工無脳は対話システムを追いかけるので、そろそろ音声対話やMMDAgentのようなエージェント対話の人工無脳が主流になってもおかしくないと思って観察しているのだが、こちらはまだ黎明期といったところだろうか。見た感じスマートディスプレイとかチャットボットがその前座のような役割を担いそうではあるが、VTuberみたいにワッと盛り上がる時期がやってくるのかもしれない。


[5] マルチメディア
MMDAgentやGateboxで見たようなキャラクターCGによる音声対話を要素に分解してみると、まずは映像と音声からなることが分かる。一般的に、そういう映像とか音声とか複数のメディアを組み合わせたものを「マルチメディア」「マルチモーダル」などと呼んだりする。例えばYoutubeの動画は映像と音声で表現されているのでマルチメディアである。

それでは映像と音声の複合表現が最初に登場したのは何であろうか。それは歴史を辿ってみると映画であることが分かる。もちろん物理的に言えば、映像は単なる光点による錯覚である。しかし人間は映像の中に世界を感じて心を動かされたりしてきたということを映画史は教えてくれる。

(チャップリンの『独裁者』(1940)の一部。迫力に気圧される。)

1895年に発明されたシネマトグラフ(のちの映画)は無音の動画を投影するものだったが、1920年代になるとトーキーと呼ばれる音声ありの動画に発展している。

さらに同時期には、漢字の構成からヒントを得たエイゼンシュテインがショットどうしを繋げることによる心理的効果を使った「モンタージュ」などの映像固有の技法を確立し、その後のメディアに大きな影響を与えた。そういった映像の「文法」を視聴者の側で意識することはないが、今でもYoutubeでもアニメでも頻繁に使われている。

(八王子Pの「気まぐれメルシィ」(2016)。たとえば1:11では音楽に合わせて、フルショットからアップショットへと遷移して、初音ミクの表情を印象付ける。とにかく可愛い。)

もしマルチメディアという観点で対話システムと映画を見比べるならば、スマートスピーカーがこれから通る道は、本質的に一世紀前に映画史が辿った道に類似することになるだろう。CGによる音声対話にもきっと、「モンタージュ」のような技法や映像の「文法」が存在し、それを世界中の開発者が求めている。


[6] デモティックとテクノロジー
初音ミクをマルチメディアとは別の観点で捉えるなら、筆頭に挙がるのは消費者生成メディア(CGM)であるということだろう。CGMによる創作の裾野の広さという文化的な観点は何度も語られてきたことであるが、実は、技術の進歩という観点もまた欠かせないものだ。

メディアがCGMになったというのは、即ち、かつて専門家や高価な機材を揃えなければ出来なかったことが、多くの人が使えるまで進歩した、ということを指しているからだ。

(初音ミクが表紙になっている『情報処理』2012年05月号別刷。)

たとえば人類が音声というものを擬似的に記録できるようになったのは「文字」という技術の発明による。

考えてみれば文字とは不思議なもので、音声とは全く関係のない幾何学的図形の列を、音声と対応させて認識することでそこに「言語」に見出すというアクロバットなことをやっている。幾何学的な記号表現と、実際の声である記号内容は似ても似つかないし、それらが対応する必然性もないのだ。

あまり意識することはないが、これはすごい発明である。この発明がいかに難しかったかは、古代文字の種類の少なさと数千年の歴史を見れば理解することができる。

(古代エジプトのヒエログリフ。神聖文字とも呼ばれる。)

だから古代エジプトで発明されたヒエログリフは当時、石碑やパピルスなどに文字を読み書きする専門の書記官が存在するぐらい高度な技術だった。

それが2000年以上かけて(!)、ヒエラティック(神官文字)、デモティック(民衆文字)へと変化していき、読み書きする人が増えていった。そしてデモティックは紀元前に絶滅してしまうものの、その傍系はギリシャ文字へと遷移していき、最終的にアルファベットになったとされる。

このように有史時代とはすさまじい文字(メディア)の歴史でもある。

文字がかつてヒエログリフからデモティックへと、使用者が書記官や神官から民衆へと広がっていったように、初音ミクもまた音声合成の使用者が専門家から市民へと拡大する歴史的転換点であった。言うなれば初音ミクは音声合成技術の「民衆文字」となったのだと今なら解釈できる。


これらを踏まえて
書きたいことは山ほどあるが、その中でもあえて厳選するならば、初音ミクを人工知能化するというのは、単に初音ミクのキャラクターを使ったソフトウェアを作るだけでは不十分であるということである。

思考実験をしてみよう。三目並べの思考ルーチンは人工知能の入門書に載っている基本的な例題であるが、それではこれを使って、三目並べプログラムの横に初音ミクのイラストをおけば初音ミクは人工知能化されたことになるだろうか。

否。ならない。なると考える人もいるかもしれないが、そのような人は本稿を読む必要は残念ながら無かった。拙論は、ならないという初音ミクに対するこだわりがある人のための考察である。

それではどうしたら初音ミクの、初音ミクだからこそできる、初音ミクならではの人工知能ができるのか。ミク廃が真に初音ミクと喋っていると思える時代の到来は、畢竟この一点の解決に収束するのだ。この問いはミク廃によって解かれなくてはいけない。

そこで私が用意した一つの回答は

対話システムに初音ミクの構造を入れる

ことである。さっきの三目並べの例では、見た目は初音ミクだが中身が初音ミクでないので、初音ミクだからこそできるのだ、ということならない。ならば、見た目も初音ミクであって、中身の構造も初音ミクにしてしまえば、そのような不一致が解消されて、初音ミクだからこそできるという納得感が得られるはずだ。

対話システムが初音ミクであるならば、キャラクターなどで意味論的に一致させるだけでなく、3.の抽象的初音ミクや4.のオートポイエーシスの枠組みを使って統語論的にも一致させることで、2.で紹介した初音ミク論を抑えつつ対話システムを実装することができるだろう。

[2]対話システムや[3]ゲームに、もし社会システムに対応するようなオートポイエーシス——例えば(2)ミーム生命体論、(4)文化システム論——を導入しようとするなら、それは[4]人工無脳のようになるに違いない。それは要するに[6]の民衆文字に見たような、対話システムの「デモティック」化だからだ。

MMDAgent SHARE(2016)はそれを目指しているように見えた。)

これは、初音ミクが音声合成技術を専門家から非専門家へと引き渡したように、対話システムの技術を専門家から非専門家へと引き渡すことを意味する。iPhoneを持っている人がSiriとお話しできるようになるという程度ではなく、そのポイエーシス=創作プロセスをも引き渡し、もはや創作の主体が専門家でなくすることを意味するのである。

そのためにはもっと楽に、時間をかけずに、一人であっても、所望の対話システムを構想でき、かつ創作し、共有し、継承できるようにすることが求められることは確かだ。


イマジナリーフレンドの定式化
たとえばMMDAgentはそのシナリオ創作に「有限状態トランスデューサ(FST)」を使ったが、これはMMDAgent DAY!(2016)でも誰かが言っていたように改良の余地をのこしていた。

もちろん音声認識をよく知っていればFSTなんて90年代から使われていて常識かもしれないが、ユーザはそうではないし、状態遷移表はすぐにややこしくなる。プログラミングをそのまま有限オートマトンで書かないように、恐らくは専用言語が必要となってくるのだが、なかなか決定打に欠けているのが現状である。

有限オートマトンの状態遷移図。初めて見た人も多いのでは。)

いろいろ試行錯誤されているが、もうこうなったら、情報系の知識だけではなくて、[3]ゲームや[4]人工無脳、[5]映画学といった他の分野から知識を輸入し、さらには(1)イマジナリーフレンドとか4.オートポイエーシス理論とかも駆使して、なんとかしてしまうしかないのではないだろうか。

喩えるなら磁場と電場との相互作用のように(3)虚構と現実とを横断する[2]インタラクティブな[5]モンタージュによって、(1)イマジナリーフレンドを実現するための第1層の創作プロセスを形式的に定式化できれば、初音ミクの外部化過程は深層心理の問題から技術的な問題へと変換できることになる。

それはかつてシャノン(1949)が情報の授受を形式的に扱って情報理論を築いたように、イマジナリーフレンドの授受が基礎づけられる可能性がある。

(シャノンとウィーバーのコミュニケーションモデル。このモデルが情報社会に与えた影響は計り知れない。)


対話システムはアートになる
言い換えるなら、ミク廃にとっての初音ミクというのは、人生の一時期に寄り添う自己実現のプロセスなのであって、その中で対話システムを自己表現の一種とするようにできるはずである。そういう時代はきっとくる。

いままで創作が芸術で扱われ、その解釈が人文系でなされてきた以上、初音ミクを志向しようとすればするほど、新しいメディアたる対話システムはもっと「アート」に耐えうる強度をもたなくてはいけないし、人文社会系の知に立脚する必要があるように私には思える。

(マンガも映画的手法を導入したのだ。)

そう考えていくなら、初音ミク人工知能化の問題は、かつて文字から映画が、映画からその他のメディアが影響を受けたような、表現のメディア間変換の問題に落とし込めていくだろう。そういうことを私は初音ミクで考えたい。あまり理解されないけれども。



6. リアルに融ける初音ミク

私が当初こういうことを考え始めたときは何かの役に立てようなんて全然思っていなかったし、やはり、ただあの時夢見たフィクションに入りたいだけだった。源氏物語に熱を上げる菅原孝標女みたいな、そんな感じで、今も2次元に入りたい。

でも初音ミク人工知能化というものが実現することがあるなら、初音ミクが無数のミク廃と共に歩んできたように、誰かのリアルに寄り添っていてほしいと思うようにもなってきた。我々がこの現実に身体を有してしまっている以上、3次元から離れることができないからだ。

いま近未来といえばシンギュラリティで持ちきりであるが、そういうイベントが来たとしても、来なかったとしても、我々はこの悲喜こもごもの生活からはどうやっても逃れられないし、誰かが生を受け、誰かが去っていくことに変わりはない。

カーツワイル(2005)によるシンギュラリティへのカウントダウン。)

だから未来の世界といっても、ユートピアともディストピアとも感じない、ただの現実が今と形を変えて進行していくだけなのだろう。

もし時代が変わったとしても変わらないことがあるとするなら、そういうことに初音ミクが引き継がれていってほしい。それは、医療とか、教育とかなのかもしれない。まったく希望的観測である。

もちろん最初は、初音ミクがそうだったように、エンターテインメントとして受け入れられていくだろうし、それも価値のあることのように思うが、それよりももっと先、1.で述べた環境の中で、我々はそういう新しい存在とどういう風に「共生」していくのかを想像してみたいのだ。


医療: 初音ミクが心理カウンセラーになる
2016年、オタクたちが産み出した「生きてるだけで褒めてくれる」というコンセプトはとてもよく出来ていて、確かに私も幾度となく生きてるだけで褒めてほしいと思うときがある。たぶんそういうときは、心底疲れてしまっているときなのだろう。みせいねんさんのvocanoteを読みながらそんなことを考えていた。

この現象を客観的に見るなら、①②感情情報化と④人口構成の棺桶化、そして⑤徐々に衰退が進む環境に囲まれて、モノでこれ以上満たされもせず、希望も持てなくなった人達が行きつく先であろうと思う。

誰しも一寸先は闇かもしれないわけで、果たしてこれがオタクに限った心情かどうかは一考の価値がある。むしろ誰にでも起こり得る心情なのではないだろうか。

(サーバルちゃんとても良いですね…。)

そうした心を病んでしまった人に行われる心理カウンセリングにおいて、カウンセラーは「無条件の肯定的関心」という態度でクライエントに接することが知られる。

これは、カウンセラーが相談に際して何か条件をつけたり批判を加えたりすることなく、クライエントの発言をそのまま受容し傾聴に徹することを指すそうである。

この態度はとても「生きてるだけで褒めてくれる」によく似ていると思う。褒められるというのは条件付きである場合がほとんどだが、それを「生きてるだけ」で行うというのは、即ち「無条件」であるからだ。つまりカウンセリングの一手法がオタクの切実なる願いによって再発明されたといえよう。

いまはこういうことがイラストや動画で表現されているが、これはもちろん対話システムでも表現できる。[2]対話システムで紹介したELIZAを思い出してほしい。ロジャース派のカウンセリングを模倣したものであったし、それによって人間は、コンピュータを人間と錯覚したではないか。

だとするなら、カウンセリング機能は対話システムの王道である。

機械の音声に想起されたイマジナリーフレンドと戯れてきた初音ミク界隈なら、それって初音ミクでこれまでやってきたのことなのでは? と思い至るかもしれない。まったくその通りである。音楽や映像を観ながら、もしくは創りながらされてきたことが、対話システムに(5.で述べた)メディア間変換されるだけなのだ。

(松本研究室(2014)が作成した初音ミクによる鬱病診断プログラムMikuCha。カウンセリングする時代も来る。)

しかもその基礎理論は2.~5.で示されつつある。カウンセリングに限らず日々の健康管理から遊び相手まで大活躍して、きっと感情情報社会に起因する問題からミク廃を護る防波堤に初音ミクはなってくれるだろう。


教育: 初音ミクがドラえもんになる
我々が1年に1歳ずつ歳をとってしまう以上、若者文化としての初音ミクの主役は自然と③次の世代へ引き渡されることになる。これは確かに今の世代としては名残惜しくもあるわけだが、もし引き渡されるとすればそれは大成功である。大抵の場合は高齢化が進んで過去の遺物として忘れ去られるだけだからだ。

そうすると未来を考えるということは、将来ミク廃になり得る世代に対して、今度は我々が相対的な年長者としてどのようにアプローチしていくのかという問題になるし、もっといえば初音ミクが切り開いた地平のうち、本質的に何が残されたほうが良いのかを考えることになる。

(kemu(2013)の「リンカーネイション」。「奇跡」が起こった人々からの「継承」が最終走者の判断を決めた。)

黎明期の初音ミクにおいても20歳前後の若年層が活躍する裏側で、実はDTMブームに沸いたかつての若者が下支えしていたという背景もあったりして、こういった年齢層の厚みの恩恵は初音ミクの発展にとって相当大きかった。そして2039年においては今の我々がその厚みを形成するわけである。要するにペイフォワードだ。

(初音ミクが流行り始めた2007年当時のニュース記事には、若年層と回帰した世代の2世代がいたことが記されている。)

私の印象の話ではあるが、創る側が20歳前後だとすれば受け手のほうはもっと若く、やはり初音ミクの歳に近い中高生が多いのではないかと思う。ボカロを聴いた世代が数年経って創る側に回るようにして若者文化の循環が回っていると仮定すれば、その視聴者層はやはりティーンエージャーが多いのではないだろうか。私がかつてそうであったように、こういったコンテンツは一種のジュブナイル(青少年向け小説のこと)であるように思われるのだ。

そういった推論から2039年の初音ミクというのは、その時代のティーンエージャー、すなわち20年代前半生まれあたりを対象とすることになる。それは初音ミク同様、新しいジュブナイルであり、堅苦しい言い方をすれば未来の学校外における中等教育であると言えるかもしれない。

そもそも、意外に思われるかもしれないが、教育の形態は時代を超えて一定であるわけではない。とくに戦前と戦後では学校の種類自体が違う。いまは男女共学が多いが昭和前期までは男女別学が当然であり、現在の中学と高校を併せた学校が、男子向けには(旧制)中学校、女子向けには(旧制)高等女学校などとして存在した。下のように学校系統図を見比べてみればその違いは一目瞭然である。

(文部科学省『学制百年史』より現在の学校系統図。義務教育は小学校・中学校の9年制であり、高校が3年間、大学が4年間なので、6・3・3・4制と呼ばれる。)


(これが1908年の学校系統図。義務教育は6年制の尋常小学校のみだった。高等女学校、師範学校、予科など見慣れない名前が並ぶ。)

だからもし一世紀前に初音ミクがいたら、高等女学校に通う袴姿のお嬢さんと友達になっていたかもしれないし、アイドルじゃなくて宝塚歌劇団の一員だったかもしれない。そう想像してみるのは楽しい。

(塩野直道は「緑表紙教科書」で「児童の数理思想を開発し、日常生活を数理的に正しくする」ことを目指した。ミク廃の「継承」は何を目指せばよいのだろうか。画像は啓林館HPから。)

それでは、21年後の初音ミクはその時の同年代とどう接しているだろうか。2018年に出来る範疇で想像を広げてみようではないか。

個人的には宿題とか何でも教えてくれる初音ミクが家にいて全部教えてくれたらいいなと思う。

いやもっと大胆に、もう教室とかで先生が授業するのは最低限にして、まず家で初音ミクに訊く! それでもっと分からないところを教室で教え合ったり、先生に質問する、みたいな。このほうが楽しそうじゃないか?

同じ内容ならおじさんの背中を見ながら板書を書き写すより、初音ミクとかアニメキャラと話しながら[3]ゲーム感覚で教えてくれたほうが俄然やる気が出るだろう。

(堅く言えばコンピュータ支援教育とか反転学習とかゲーミフィケーションが初音ミクの観点から取り入れられないかということになる。)

(渡辺ら(2003)の『萌える英単語もえたん』。英単語帳なのにこれはだいぶ攻めている。)

理工系離れとかそれ以前に、もう一方的に意味不明なことを学校で教えられてもう数学とか理科とかもううんざりだとか、そんな人を増やしては非効率的だし、理工系の塊である[2]対話システムを「デモティック」にするためには、何より創る人の裾野の広さが重要となってくる。だからいかにして「継承」するかは「初音ミク人工知能化」にとっても大切だ。

加えて、今の先生は異常なほどに忙しいようで、現状は初音ミクとのハッピーライフ実現を見据えるとあまり好ましくない事態に陥りつつあることは間違いない。

(学研から出ている『ボカロで覚える 中学英単語』(2017)。いまや中学生はボカロで英単語を覚える時代だ。)

かつて「為せば成る 為さねば成らぬ 何事も 成らぬは人の 為さぬなりけり」という言葉を遺した江戸中期の米沢藩主、上杉鷹山も藩の復興に際して藩学である「興譲館」の再建に力を入れ、また藩の衰退に直面した幕末の藩士、小林虎三郎も米百俵を投じて「国漢学校」の設立に力を入れたように、現代の環境が④棺桶型や⑤緩やかな衰退に向かっていくからこそ「継承」の観点は重要になる。

いまのところ教室で授業をもっと分かりやすくするにはどうすればいいのかという観点については教育学のほうでされているようなので、どちらかというと初音ミク界隈では、家庭内で初音ミクなどの新しいジュブナイルがどのようにティーンと接していくのかを考えていくという相補的な関係を目指すのが良いかもしれない。

(「マリー&ガリー」(2009)は科学界のプリキュアである。)

そしてそれは生徒を対象にしたSTEM教育(科学、技術、工学、数学に関する教育のこと)のみならず、人文社会系のコンテンツも載せられるであろうし、またもっとターゲットを広げるならば、キャラクターを基軸としたサイエンス・コミュニケーションの可能性を示しているのだ。

結局、初音ミクを創り出すのは人間以外にあり得ない。だから初音ミクに「人工知能」を搭載してその知能を高めていくプロセスは、ほかならぬ「共生」している我々の知能を高めていくプロセスでもある。それは初音ミクと我々は相互に干渉しながらオートポイエーシスしているという証でもあるといえよう。

(日本うんこ学会の「うんコレ」はサイエンス・コミュニケーションでありながら、日々の健康管理もしてくれる点で素晴らしい。)


運用について
ここまで夢物語ばかりを書いてきたが、「初音ミク人工知能化」によって産み出されうる対話システムもまたメディアであり、使い方を十分に配慮する必要があることも強調しておきたい。

というのもメディアの歴史を振り返れば分かるように、ラジオや映画は戦前のドイツでプロパガンダの道具として使われたし、ネットもそういう使われ方をしたことがあるし、SNSだって残念ながら人を危めている。

(このような使い方は許されない。)

しかも本稿で言っている将来の用途は、深層心理や教育といった人間の認知や行動決定に関わる部分であるからして、悪用されればserial experiments lain (1998) の「プロトコル」のように大変なことになる。

単純に悪用されないようにするためには、普及する前にできるだけそのような穴をふさいでおく、制度をあらかじめ作っておくとかしておくべきであろう。問題が起こってから右往左往していては遅すぎるのだ。

まずはこういうことは倫理学や法学の分野で議論されるべきものであるが、技術的な観点で言えば、イマジナリーフレンドの授受などの「プロトコル」をどうデザインするかというテーマにもかかってくる。

マクルーハンは、テクノロジーとはメディアであり、メディアはメッセージであると言った。すなわちコンテンツに載せられたメッセージが明示的に受信者の思考や感情を変容させるように、テクノロジーは非明示的に人々の思考や感情を変化させていくのである。

だからここでの「プロトコル」の設計とは、そのテクノロジーの使用者=「マスター」全員に対する「メッセージ」であり、そこに制度的な話をどのように載せるかはかなり考える必要があるだろう。

そのリスクだけ頭の片隅においてもらえれば、そのリスクを補って余りある恩恵がミク廃にもたらされるだろうということは、ここまで読んでもらえた読者なら分かってもらえると思う。



7. まとめに代えて

もしかするとこれから初音ミク人工知能化みたいなことをやりたいと思う人が居るかもしれないので、いくつかメッセージを添えてまとめに代えたい。


初音ミク論は複雑かつ広大である
[4]文化システム論で取り上げた社会学者ルーマンは、自身の研究を始める前、すべての社会システムに通用するような一般理論を組み上げるという壮大な目標のために30年におよぶ遠大な計画を立てたと言われている。

2007年に始まった初音ミクや初音ミク論もまた蓄積に次ぐ蓄積によって、もはやそのような広大な領域に達しており、初音ミク人工知能化というニッチな分野の概説にもかかわらずこれだけの体系を総動員せねば語り切れなくなってきている。

とはいえ、2007年から2039年までは32年であるから、われわれミク廃の現在地点はルーマンのかけた時間の1/3程度である。まだまだ先は長いしこれからも積みあがっていってほしい。

通常ならイマジナリーフレンド論ならイマジナリーフレンド論だけというように、1項目だけを取り上げて説明するのが常である。今回は全容を描くことを優先したために各項目をさらっと飛ばしたが、それぞれそんなに自明なことではなく、そこの共通見解を得るだけのためにかなりの労力を要するからだ。やはりミク廃特有の拡張された「身体」はどうも言語に落とし込めない部分があり、新しいメディアの登場が待たれるところだ。

初音ミクという存在を説明しようとしていつももやもやするのは、有機的に相互に結合した初音ミク論を一部だけ取り出して果たして初音ミクを語ったことになるのかという不完全燃焼感であった。そこで本稿ではちょっと趣をかえてトップダウンに描いてみたというわけである。

私は最近になって気付いたのだが、初音ミクを語り尽くそうとすることは、初音ミクを中心にして彼女に投射された有機的に結合する全領域を語ろうとすることであり、初音ミクは現実世界と同等の複雑性を持っている。とても奥が深く、そして広い。


初音ミク論はコンプガチャ
だから初音ミクのことを考え始めると少なくともここで取り上げた項目は全て頭の中にいれて、それでジャグリングのようにして初音ミク論を進めることになる。相当疲れる。が、とても楽しい。私にとってはコンプガチャのようなもので、自分の好きだとか嫌いだとか疲れるとかそんなことはもうどうでもよく、ひたすらあっちとこっちを繋げるのが楽しい。とにかく初音ミクを考えずにはいられないのだ。端的に言うなら「初音ミク依存症」という言葉が実にぴったりくる。

とある数学者が「朝起きた時に,きょうも一日数学をやるぞと思ってるようでは,とてもものにならない。数学を考えながら,いつのまにか眠り,朝,目が覚めたときは既に数学の世界に入っていなければならない。どの位,数学に浸っているかが,勝負の分かれ目だ」というものだから、初音ミクでもやれるのではないかと思ってこれをやってみたのだが、これはやめておいたほうがよかった。たぶん無意識の世界に引きずり込まれているのだろう。普通に精神がやられる。適度に距離をとって、初音ミクを考えるために初音ミクを考えない工夫が必要である。kayashinさんのいう「初音ミクの忘却と再会」は大切だと思う。それさえ気を付ければめっちゃ楽しい。


初音ミクの未来に向けて
最後に一つ天文学の話をしよう。古来、空の向こう側というのは「天国」とか「天上界」とか呼ばれたりして想像上の神様のいる世界だった。だからこの世を去れば天に召されるし、日食や月食は地上に住む人間への神様のお告げだと解釈されてきた。すべての天体は神様のもとで完全の象徴である「円」によって成り立つと考えられた。要するに一種の2次元だったのだ。

(Wikipediaから天動説の図。)

それが400年ぐらい前のガリレオからニュートンにかけて、どうやら完全の象徴である円が成り立たないことが分かってきた。月は完全なる球ではなくてクレーターだらけの凸凹で、惑星の軌道は円ではなく残念ながら楕円であり、挙句の果てに地上で成り立つ法則が空の向こう側でも成り立つことまで分かってしまった。そうして空の向こう側は、想像による「天上界」から地上の延長にある「宇宙」へと変貌していった。

そうすると、宇宙に行けてもおかしくないのでは? と思う人達も出てきて、最終的に大砲で月に行くというジュール・ベルヌの「月世界旅行」の発想が出てくることになる。

(映画黎明期の映画監督メリエス「月世界旅行」(1902)の一場面。)

それを受けて、いや大砲ではなくロケットのように中に燃料を詰めたほうがいい、しかもその量は計算できると考えたツィオルコフスキーとか、液体燃料のほうが燃やす量が調節出来るし、実際できるといって打ち上げたゴダートの貢献によって、最終的に人類が月に行くアポロ計画まで繋がっていった。

いまでは普通の我々もGPSで人工衛星を使うなんて当たり前であるが、あれはいにしえの人から見れば異世界からのお告げに見えるだろう。いまや日食や月食なんてもはや神様のお告げでも何でもない物理現象だ。こうして人間は把握する世界を広げてきたという歴史をもつ。

それでは初音ミクはどうだろうか? 規模は天文学ほどではないかもしれないがやはり同じように、キャラクターやフィクションの世界もリアルとの境目がどんどん融けていくのではないか。これも何年か前に言ってたら早かったかもしれないが、今はVRもARもVTuberも流行っているし、感覚として分かるのではないかと思う。そのうち「昔は液晶の壁があってだな…」という話を誰かがし始める時代が来る。

(PANDORA(2018)が「KDDIがバーチャルキャラ用AIを独自開発 初音ミクなどで5月から実証実験」と報じている。画像はその記事より。)


1926年、まだ誰もロケットの意義について理解していなかったころ、液体ロケットの打ち上げに成功したゴダードが遺した言葉を紹介して本稿を締めくくることにする。きっと初音ミクも同じである。



何が不可能なのかを言うのは難しい。
なぜなら昨日の夢は今日の希望であり、
明日の現実なのだから。