同人音声スタディ -耳かきボイスはVR-

「同人音声」という概念がある。同人音声とは、要するにオタクがオタクのために作った音声作品のことで、声優がボイスドラマやASMRを収録したようなコンテンツを指す。

具体的にどういう作品があるのかは、DLsiteのページとか見ていただければと思う。(だいたい試聴できます。)

数多ある同人音声作品だが、最近は特に「バイノーラル録音された、視聴者を中心としたロールプレイを含む音声作品」がその大きなメインストリームになっている。なので、このnoteではさしあたり上の定義を中心にして「同人音声」という言葉を使っていこうと思う。(丁寧に定義したい気持ちは山々だが本題に入る前に疲れてしまうのでこんなもんで勘弁してほしい。)

▼同人音声の性質を確認する

さて、上で同人音声を「バイノーラル録音された、視聴者を中心としたロールプレイを含む音声作品」とざっくり定義したが、この定義をもう少し細かく確認していきたい。

まず「バイノーラル録音」とは何かというと、ダミーヘッドマイクなどを使用することで、イヤホンで聞いたときに録音時の音響空間が再現されるような録音方法である。要するに、お姉さんが耳元でささやく声をバイノーラル録音すれば、聞いたときに本当にお姉さんが耳元にいるかのように感じられるということだ。次に、ロールプレイ。同人音声におけるロールプレイとはつまり、視聴者に対して「主人公」になりきることを要請する、ということである。多くの同人音声は視聴者と作品内のキャラクターの関係性が決められていて(先輩-後輩、客-店員、主人-メイドなど)、その関係性を前提としてキャラクターは視聴者に話しかけてくる。これはいわゆるギャルゲとかエロゲの文法がそのまま音声作品に持ち込まれたと考えて良いだろう。ただしバイノーラル録音によってリアルな一人称視点が得られるため、ギャルゲと比べても没入度は高くなる。この「バイノーラル録音」と「ロールプレイ」は昨今の同人音声作品の大きな特徴となっている。この前提を確認した上で、以下で同人音声の具体的な考察を進める。

▼同人音声はVR

まず、同人音声はクロスモーダルを活用した一種のVRであると言える。クロスモーダルというのは心理学の用語で、五感の相互作用に関する現象である。例えば、我々がいちごのかき氷を食べようとするとき、その色と匂いから「いちごだ!」と思いこんでから食べる。しかし実際には、市販のかき氷シロップの味はメロンでもレモンでも同じなのだ(もちろん高級なやつはそんなこと無いと思うけれど)。つまり、我々は「赤い色」と「いちごの香料」という情報が揃ったとき、「ということは味もいちごに違いない」と無意識に認識して味を錯覚してしまう。このように「感覚Aと感覚Bが同時に起こることを経験的に知っているとき、感覚Aだけを知覚したときにも感覚Bを錯覚してしまう」というのがクロスモーダル現象なのである。そして、同人音声はまさにこのクロスモーダルを利用した作品なのだ。

同人音声の定番である耳かき音声は、実際に耳かきされているかのような音を聞けるのが売りである。これは「耳元で耳かきされる音がする」というリアルな聴覚情報を与えられたとき、脳が「耳元で耳かきされる"触覚がある"」と錯覚するクロスモーダルを利用している。つまり「耳かきされている」というのは認知レベルではもはや現実になっているのだ。これはささやき声でも同じである。バイノーラル録音によって同人音声では現実に限りなく近い聴覚刺激が提供される。そのリアルな聴覚情報によって、我々の脳は声に対応する吐息や、時に匂いまで錯覚することができるのである。このような点で同人音声には客観的には存在しない現実を体験させることが可能であり、一種の仮想現実と言うことができるのだ。

▼トップダウン処理な同人音声

もうひとつ認知に関する考察を進めたい。人間の認知処理には「ボトムアップ処理」と「トップダウン処理」が存在する。例えば、先ほど市販のかき氷のシロップはすべて同じ味、と述べたが、それにまつわる似たような実験がある。被験者に目隠しをして「いちごかき氷です!」と説明しながらメロンかき氷を食べてもらうといちごの味を錯覚し、逆に「メロンかき氷です!」と言いながらいちごかき氷を食べてもらうと今度はメロンの味を錯覚するというものだ。これは我々が「いちご味のかき氷だ」という知識(思い込み)をもとに、曖昧な知覚を結論づけているためだ。このような「経験や知識、あるいは期待をもとにして知覚された情報を判断する」ような認知処理を「トップダウン処理」という。一方で、ものを知覚してからその情報を記憶に照らし合わせて処理する方式は「ボトムアップ処理」と呼ばれる。目隠しの状態でかき氷を食べて味を判断するなら、これはボトムアップ処理だろう。

さて、同人音声の話に戻ると、同人音声はこの「トップダウン処理」によって多くの認知的手助けをしている作品群だと言える。例えば、「膝枕で耳かきをする」というシチュエーションに入る際に、「ストッキングを履いている」とか「生足である」といった情報に言及することがある。こうすることで「私はいま女子の生足の上に頭を置いているんだ……」というトップダウン処理を促しているのだ(こうやって真面目に語るとかなりキモい)。
しかし、ここには大きな問題もある。視聴者は没入のために聴覚以外のすべての感覚を音声情報から仕入れる必要があるため、同人音声の台本はより自然に、より多くの情報を語らねばならないのだ。例えば、極論「耳かきをします」ということに言及せずに耳かきを始めた場合、視聴者はこの音が何の音かを判断するところから始めねばならず、没入を阻害する要因となる。膝枕の例なら「生足かストッキングかは視聴者の想像にお任せ」で済むかもしれないが、お任せされると困るような要素については音声で言及する必要があるのだ。
その最たる例が「梵天問題」である。梵天というのは一般的な竹の耳かき棒の裏についているふわふわのことで、耳かきの仕上げに使われることが多い。ご多分に漏れず耳かき音声でも使われることが多いのだが、ここで問題が発生する。この「梵天」という部位の名称の知名度は低いため、「では梵天入れますね〜」と言った場合視聴者が正確な認識を構築できない可能性が出てくるのだ。その現実的な解決策は「裏のもふもふ」とか「反対側のふわふわ」といった梵天を噛み砕いた表現を用いることである。あるいは「え?あ、このふわふわ、梵天っていうんですね~」と、会話の流れから梵天を説明した上で用いる、という方法をとる作品もある。このように五感をすべてを聴覚で表現せねばならない同人音声においては、視聴者の持つ最も一般的な記憶を参照し、その感覚の記憶を借用することが不可欠となっているのである。

▼一人称で見る/三人称で見る

同人音声の視聴態度には2つの極がある。
ひとつの極は、作品の中に登場する「主人公」と自分とを完全に同一化する視聴態度。もうひとつの極は「主人公」とほかのキャラクターとのやり取りを三人称視点で俯瞰する視聴態度である。基本的に同人音声は前者を想定して設計されているため後者は特殊な見方と言えるが、この中間の視聴態度を取っている視聴者は多いのではないかと思われる。例えば、主人公にあって視聴者にないような属性や記憶に関する言及があったとき(e.g.「子供の頃よく川原で遊んだよね~」と話しかけられたとき)、視聴者は「あったあった」と思い込むこともできれば、「ふむふむ」と一歩引いて第三者的に受け取ることもできるということである。また、例えば、男性が百合という設定の同人音声を楽しむこともできる。この場合、自分を女性だと思い込みながら楽しんでもいいし、百合というシチュエーションにいる主人公の「視点」を借用して楽しむこともできるのだ。また、予め主人公の声が収録されている同人音声もあり、その場合は明確に視点の借用という観点で楽しむように設計されていると言える(もちろんそこに没入することも可能である)。

▼まとめ

視覚や聴覚、触覚など複合的な刺激を与えることで現実世界を再現するVRも存在し、4DXの映画などはその方向、いわば感覚再現方式である。対して同人音声は、敢えて聴覚以外の情報を与えないことで視聴者の記憶をもとに現実世界を再構築させる、記憶再現方式のバーチャルリアリティ作品なのである。

よく眠れます。

この記事が気に入ったらサポートをしてみませんか?