「愛が重すぎるキャラが推しの音声を捏造するシチュ」で使える技術【創作用】

くろ州

2024年1月4日 15:38

みなさんこんにちは。くろ州です。

創作の世界には愛が重すぎるキャラっているじゃないですか。推しの声を録音しまくって、自分専用捏造ASMRを作るタイプの。

そんな愛重キャラですが、「推しが発した50音を集めて好きなセリフを言わせる」みたいな表現たまにありますよね。あれを実現する技術って今では結構いろいろあります。

今回はそんな実在する技術を紹介します。創作のネタにどうぞ。ただし技術の悪用は厳禁だし、実行してはいけない。あくまで“ネタ”であり、ネタをネタとして楽しめない人間はこれ以降読まないでほしい。

なお、解説するに当たって、当事者となる愛重ちゃんの名前があると便利なので、愛重ちゃんの名前を仮に「愛重ちゃん」と定義して置く。

音声を切り貼りするタイプ

●コーパスベース方式

推しの声を録音しまくって、その文章の中から「愛重ちゃん」「かわいい」と言った瞬間を切り取ってつなぎ合わせ、「愛重ちゃんかわいい」という音声を捏造する方法。古めのカーナビとかはこの方式。

メリット：難しい操作や知識が不要
デメリット：欲しいフレーズを頑張って言わせないといけない
おすすめ：収集癖があるタイプのキャラ

●音節接続方式

推しの声を録音しまくって、その文章の中から「あ」「い」「お」「も」「ちゃ」「ん」「か」「わ」と言った瞬間を切り取ってつなぎ合わせ、「愛重ちゃんかわいい」という音声を捏造する方法。音MADでよくある。

音素を切り貼りするだけだと何言ってるか分からないクオリティーになるけど、ピッチ（音の高さ）も編集してきれいに繋げればそこそこ聞ける品質になる。

実在するソフトでいうと以下がある。

なめうぇ～ぶ（無料　人力ボカロツール。おすすめはしない）

VocalShifter（無料版／有料版あり。扱いやすい）

Auto-Tune（有料　Perfumeのケロケロ声を作るのに使われているとの噂）

https://www.soundhouse.co.jp/products/detail/item/324309/

たぶん、実在の愛重ちゃんはこういったツールには詳しくないと思うので、動画編集ソフトやAudacityで頑張っているのだろう。

なお、IT系天才属性を持つ愛重ちゃんにこれをやらせると（技術が古いしIT知識もそんなにいらないので）ダサくなってしまうため注意。

なおセリフなどを書くときに「50音を収録した」とか書くとエアプがばれる。実際には濁音とかもあるので100音以上必要。でも「100音以上録った」って書いても読者に「50音じゃなくて？」と余計な思考をさせてしまうので悩みどころ。「50音」は「日本語の発音全部を表す慣用表現」説ある。

ちなみにVOICEROID（製品名、いわゆるボイロ）はもっとたくさんの音声を録音して加工して作られている。

メリット：何でも言わせられる
デメリット：切り貼りが多すぎて不自然になりがち
おすすめ：PC強い系

ゼロから頑張って作るタイプ

できなくないし実在もするけど現実的ではない方式。音声を録音せず、PC内ですべての声を作る。最近ボカロ界隈で話題の「足立レイ」や、動画サイトでよくある「ゆっくり」ボイスなどがこの方式。気になる人は「足立レイ　中の人」で検索。推しの声を使わないので、愛重ちゃん的に面白いかというと微妙。ただし狂気度はかなり高い。雰囲気的には「推しを完全再現したホムンクルスを作る」に近い。

AIで合成するタイプ

推しの声を録音しまくって、その音声を学習したAIを作る方法。AIができちゃえば、言ってほしいセリフをテキストで入力するだけで推しっぽい声と話し方の音声をいつでも作れる。最近だと「ずんだもん」で話題のVOICEVOX（製品名）というソフトがこの方式。

AIの作り方を詳細に記述したい人は以下のリンクを読むのがいい。正直IT知識がそこそこないと読んでも分からないが、それを乗り越えて作るところに執念を感じる。

もうちょっと簡単に作れるサービス（有料）もあるけど、サービスが指定してくる文章を推しに読ませる必要があり、かなりハードルが高い（し、現実的には規約に引っかかると思う）。気になる人は「CoeFont」「コエステーション」で検索。推しに対して「これ面白そうだしやってみようぜ」って言える距離感の隠れ愛重ちゃんなら可能かもしれない。

メリット：超自然な声を合成できる。頑張ればささやき声も作れたりする
デメリット：結構IT知識が必要。学習用音声もいっぱい欲しいし、録音環境も一定にしたい。推しの声を切り貼りしてないので「それは本当に推しの声として楽しめるものか」と問われると微妙
おすすめ：ITバチつよ系／推しの自宅に盗聴器仕掛ける系

AIボイチェンを使うタイプ

推しの声を録音しまくって、その音声（と自分の声）を学習したAIを作り、自分の声を推しの声に変換する方法。コ○ン君の蝶ネクタイもおそらくこの技術を発展させたもの。現実に存在するのは「RVC」「MMVC」とか。

AIボイチェンには「変換先（推し側）の声だけ学習するタイプ」と「変換元（愛重ちゃん側）の声も学習するタイプ」がある。現実に販売されている製品は前者が多い。

変換先だけ学習するタイプは「推しの声は知ってるけど愛重ちゃんの声は知らないよ」って状態なので変換も完ぺきとは限らない。変換元も学習するタイプは「推しの声も愛重ちゃんの声も知ってるよ」って状態なので高品質になりやすい。

推しとの同化度は後者の方がよっぽど高く、メンタル的に気持ちいいとは思うけど危険度も跳ね上がる感じある。「あの花」のゆきあつみたいなキャラにおすすめ。

メリット：リアルタイム変換できるツールなら推しの声でボイチャできる
デメリット：演技力が必要、学習データもそこそこほしい。IT知識必要
おすすめ：なりきり系／同化欲高め／演技派／ITバチつよ系

物理タイプ

推しの声帯から唇までを機械で物理的に再現し、音声を合成する方法。人間は声帯で作った”声ともいえない音”を、喉や口で加工して言葉を紡いでいる。物理型では「声帯を再現する機構」と「喉や口を再現する機構」の組み合わせでこの仕組みを実現する（いろんな方式があるけど）。

本物の喉や口は当然動くわけだから、再現する機構も当然ゴリゴリに動く。細かい制御は多分かなり難しいし、もしこの方法で誰かの声を模倣できるならかなりすごい（たぶん現実ではできてない）。

メリット；あんまりない。機械いじりが好きなら作ること自体が楽しいかも
デメリット：工学の知識と技能が必要。金もかかる
おすすめ：工学系／からくり好き

本物の喉を使うタイプ

福祉業界で実際に使われている方法。声帯の代わりになる「人工喉頭」という機械を喉に当てて声を作る。猟奇的なものではない。声帯摘出などで声が出せなくなった人のための技術だし、安易に創作に使うのはおすすめしない。

この記事が気に入ったらサポートをしてみませんか？