見出し画像

今話題の「可不」はボカロではない?最新技術・CeVIO AIとは

※2022/1/16追記:Aobaさんとnagiさんがこの記事を中国語に翻訳してbilibili動画weiboに掲載して下さいました。誠に感謝申し上げます。



CCC Advent Calendar 2021 20日目の記事です。


KALTEです。曲を作ってます。


突然ですが、私はUTAUがかなり好きです。前にUTAUに関する記事を書くくらいには。

最近あまり見かけませんが、昔は重音テトや闇音レンリを筆頭にUTAUの良い曲がたくさん上げられていて、その人間らしい歌い方に驚いた方も多いと思います。ポリスピカデリーさんの「ナーヴ・インパルス」とか、闇音レンリを聴いたことがない人であれば人間との判別がつかないレベルまで到達してますね…。

そこで一つ、UTAUリスナーあるあるを言っていいですか。

ニコニコ動画によく流れるコメントなんですが…。



「調教やば!!ホントにボカロ!?」



これです。

リスナー側の視点で認知度が低いのは当然なんですが、VOCALOIDとUTAUはそれぞれ独立した音声合成技術で、VOCALOID≠UTAUというのがUTAUリリースからかなり経った今でも浸透してないのがどうにももどかしい。

作曲者視点に立つと、VOCALOIDは有償、UTAUは無償という明確な違いがあります。UTAUは個人が制作しているので、質に関しては企業が制作しているVOCALOIDが上になることが多いですが、中にはVOCALOIDを上回るようなUTAUもあります。作曲未経験者はこの違いを知らなくてもおかしくないので、もし間違えて覚えていた方々はこの機会に覚えてくださいな。


まあ一旦この話は置いておくとして、今年1月に新しい音声合成ソフト「CeVIO AI」が公開されました。

実は2021年初期から「結月ゆかり 麗」や「IA -ARIA ON THE PLANETES-」のようなCeVIO AI用ライブラリは出ていたんですが、明らかに知名度が上がったのは、2021年7月7日にKAMITSUBAKI STUDIO所属の花譜さんをモデルにした「可不」が登場したからでしょう。

花譜さんの曲を普段から聴いている身としては「KAMITSUBAKI STUDIO、やりよったな…。。。」という感じで、リリース前から曲を聴いてました。

ただ、ライブラリがリリースされてからしばらくした後、とある方のプロモーションでこんなタイトルの動画を見かけました。




「〇〇〇(曲名)/ △△△(作曲者名)feat. 可不【ボカロオリジナル曲】」




画像1

おい!!!!!!!

リスナーはともかく、使用者がそこ間違えちゃダメだろ!!!!!!!


まあ、こんな感じで激おこプンプン丸なわけです。多分再生数を増やすためにわざとこういう書き方をしているのかなとは思いますが…。

というわけで前置きが長くなりましたが、改めてCeVIO AIが何なのかを皆さんに認知してもらいたくて、この記事を書いてます。事前知識ゼロでも理解できるように説明するので、よければ最後まで見てください。



1. 音声合成とは


CeVIOの話をする前に、皆さんは音声合成という単語をご存じでしょうか。

端的に言えば、人間の声を人工的に作り出す技術。先述したVOCALOID、UTAU、CeVIO AIは全て音声合成の一種です。音声合成の中でも、読み上げ音声を生成するものをテキスト音声合成(Text to Speech : TTS)、歌声を生成するものを歌声音声合成(Singing Voice Synthesis : SVS)と呼びます。英語だと分かりづらいので、以下ではCeVIO AIでの呼び方を借りて「トーク型」「ソング型」と呼ぶことにします。

下に音声合成技術の例を、初版リリース順に挙げます。


VOCALOID(2004年 / ソング型)


SofTalk(2006年 / トーク型)


UTAU(2008年 / ソング型)※無生物音源は除く


VOICEROID(2009年 / トーク型)


Synthesizer V(2018年 / ソング型)


CeVIO AI(2021年 / 両刀型)


他にもNEUTRINO(2020年)やCoeFont(2021年)など、挙げるとキリがありません。ゆっくりボイスの正式名称とかは知らなかった人も多いのではないでしょうか。

UTAUやCeVIO AIをVOCALOIDと同一、或いはVOCALOIDというグループに括られたソフト群だと認識している方がたまにいますが、最初に述べた通り、この3つは完全に独立した音声合成技術なので、これは間違いです。

VOCALOIDはヤマハという「会社」、CeVIO AIはCeVIOプロジェクトという「会社団体」、UTAUは飴屋Pさんという「個人」の方が出しています。この3つをグルーピングしたいならVOCALOIDではなくボーカルシンセサイザー、或いは先述した歌声音声合成(Singing Voice Synthesis : SVS)という言葉が正解です(CeVIO AIはソング用のライブラリのみを含みます)。


一方で「初音ミク」「鏡音リン」のようなキャラクター名は、厳密には「VOCALOID」という歌声合成ソフト内で扱えるライブラリ、即ち声の種類にカテゴライズされます。

ライブラリに関しては、各ソフトを出している会社(VOCALOIDであればヤマハ)とライセンス契約を締結した会社であれば独自に開発・販売することが可能です。例えば稲葉曇さんの「ラグドレイン」で有名な歌愛ユキのライブラリを販売しているのは、ヤマハではなくAHSという会社です。

皆さんご存じ、初音ミクや鏡音リンなどの代表的なVOCALOIDも、実はライセンスを持っているのはヤマハではなくクリプトン・フューチャー・メディアという会社です。ヤマハが出しているので有名なのはbuzzGさんの「Fairytale,」のカバーで有名なVY1V4とかでしょうか。


ライブラリの例も以下に書いておきます(SofTalkを除く)。


◆VOCALOID:初音ミク、鏡音リン、鏡音リン、巡音ルカなど
◆UTAU:重音テト、闇音レンリ、雪歌ユフ、波音リツなど
◆VOICEROID:結月ゆかり、紲星あかり、琴葉茜、琴葉葵など
◆Synthesizer V:小春六花、弦巻マキ、Sakiなど
◆CeVIO AI:可不、さとうささら、小春六花など


「小春六花が何でCeVIO AIとSynthesizer V両方にいるの?」って思われそうなんですが、これは誤表記ではなく「CeVIO AIの小春六花」と「Synthesizer Vの小春六花」がいるという解釈です。この場合は、CeVIO AIはトーク型、Synthesizer Vはソング型の小春六花になります。話す小春六花はこんな感じ。

先程のGYARIさんの動画を見た方は分かると思いますが、結月ゆかり、紲星あかり辺りも複数のソフトに跨って音声が存在します。中でも東北きりたんは屈指のややこしさで、UTAU、VOICEROID、CeVIO AI、NEUTRINOなど使えるソフトが死ぬほどあります(ライブラリに関してはそれぞれのソフトで入手・購入する必要があります)。

因みにSofTalkはちょっと特殊で、「博麗霊夢」「霧雨魔理沙」みたいな名前はソフト内だと実際には付いておらず、例えば霊夢だったら「声質=女性1、音程=100、速度=100」みたいなパラメータのフォームが決まっています。東方・ゆっくり界隈に詳しくないので詳しいことは分かりませんが、東方Projectのキャラクター名は恐らく後付けです。基準はこちらのサイト。

ここまでのまとめとして、ぶっちゃけ聴いてる側は種別とか覚えなくてもいいんですが、冒頭に述べたような誤用があり得るので、知っておいて損はないです。実況動画を作る方やトラックメーカーの方には、ここら辺のソフトとライブラリは認知しておいて方がいいかなと思います。


2. CeVIOとは


さて、そろそろCeVIO AIの話をしたいのですが、その前にまだ「CeVIO」について説明しなければなりません。「CeVIO」という言葉には以下の2つの意味があります。


1. 映像・音楽クリエイター集団と、音声合成技術を持つ技術者集団によって行われているプロジェクト。

2. 上記プロジェクトの一環としてリリースされている音声合成技術、即ち「CeVIO Creative Studio」と「CeVIO AI」のこと。


CeVIO Creative Studioは平たく言えば、CeVIO AIの前身で、2013年にリリースされたソフトです。そのため、私がCeVIOという言葉を使うときは、CeVIO AIとの区別をつけるために1の意味で使うことが多いです。もしくは「CeVIOプロジェクト」と呼んだりもします。

展開されているプロジェクトには以下のようなものがあります。CeVIO AIも勿論ここに含まれますが、こちらは第3章で説明。


CeVIO Vision(2013)

デジタルサイネージで双方向の対話が行えます。動画は秋葉原のアニメイトで「さとうささら」というキャラクターが話す様子。チャットボットみたいなものですね。


CeVIO Creative Studio(2013)

歌ったり話したりします。技術的には隠れマルコフモデル(HMM : Hidden Markov Model)という手法が使われています。


VoiSona(2022)

※ここだけ若干トラックメーカー向けの話です

現行のCeVIO Creative StudioとCeVIO AIはスタンドアロンなんですが、VoiSonaはCeVIO AIの機能をDAWのVSTiプラグイン(AUも可)として使えるように開発されたものです。

VoiSonaが来るまでCeVIO AIユーザーはCeVIO AIのソフトで歌唱データを出力した後、それをDAWの作業画面に移すということをしていました。つまりCeVIO AIはDAWの外で起動し、CeVIO AIとDAWの2画面で操作していたわけですが、CeVIO AIでの歌声の編集がDAWで逐次反映されない(それぞれがスタンドアロンだから)のが面倒でした。

この問題を解決したのがVoiSona、即ちCeVIO AIのVSTiプラグイン化です。VSTiプラグインは基本的に予めDAWを開いた後、DAWの中で起動します。これにより、VoiSonaで歌声を編集すれば、逐次DAW内でその変更がかかるので、編集や確認の効率が大幅に上がります。曲を作らない人には特に恩恵がないですが、トラックメーカーとしてはボーカル音源がDAW内で動かせるかどうかは、作業効率を決定づける超大事な要因になります。


ただ残念ながら、今のところ可不などの既存CeVIO AIライブラリをDAW内で使うことはできません。代わりに上記の動画でも使われている「知声(Chis-A)」というライブラリがデフォルトで入っています。CeVIO AIは有料なんですが、こちらは無料で使えます(AiSuu#kznなど他のライブラリを利用する際にはライセンスの購入が必要です)。



3. CeVIO AIとは


CeVIO AIは、上記プロジェクトの中で登場した音声合成技術の一種です。ソングのみに対応しているもの、トークのみに対応しているもの、両方に対応しているものがあります。ここはCeVIO Creative Studioと同じ。

異なる点として、先程CeVIO Creative StudioではHMMを用いていると書きましたが、こちらはディープニューラルネットワーク(DNN : Deep Neural Network)畳み込みニューラルネットワーク(CNN : Convolutional Nueral Network)という手法を使っています。AIや機械学習、ディープラーニングの分野に明るい方なら聞いたことがあると思います。

画像2
ディープラーニング分野でよく見るアレ

ディープラーニングを用いた音声合成では、たくさんの収録音声データから音響的な特徴量を抽出し、「その歌い手らしさ」のルールを読み取ったネットワーク構造をコンピューターで作ります。その後で未知の歌詞が入力されても、そのネットワークを使えば「その歌い手らしさ」を再現した音声が出力できる、というのがこのシステムです。「ニューラル(neural)」は「神経の」という意味ですが、その名の通り人間の脳の構造をコンピューターのネットワークで再現したものになります。

このDNNやCNNという手法自体は元からありましたが、CeVIO Creative Studioがリリースされた2013年頃から急速に発展し、音声合成に限らず幅広い分野で利用されています。

例えばGoogle翻訳よりも性能が良いと評判の翻訳サービス「DeepL」は、CNNを利用した技術です。DNNやCNNは「人間らしさ」を再現するのに最適な手法なのですが、最近それを表象するようなツイートを見かけたので載せておきます。


CeVIO AIも同じで、例えば可不であれば、花譜さんの歌唱データから「花譜らしさ」を習得したニューラルネットワークを構築していると思われます。学習には大量の音楽データと高性能GPUが必要なので、こういうのは企業や大学でしかできないことです。話によると、同じくニューラルネットワークを用いている歌声合成技術・NEUTRINOの「No.7」というライブラリは、声優の小岩井ことりさんが50曲ほど作曲したそうです。

これらの技術により、CeVIO Creative Studioを超える性能を持った音声合成技術を作り出すことができた、というのがCeVIO AI登場のカラクリです。


私が所属しているサークルの仕事として、先日開催された「M→Fes2022」というイベント用にOP曲を制作したのですが、その際に可不を使ったので少しだけ使用感を書き残しておきます(最初の30秒はCeVIO AIではなくCoeFontです)。流れるような宣伝。

CeVIO AI ソングの利点としてはベタ打ちの時点で調声が十分なクオリティに達しているところです。たまにピッチの出力が狂ってたり音量バランスが不安定になってることはありますが、1時間程度あれば訂正作業が終わるくらいの頻度なので、既存の技術に比べれば圧倒的に効率的です。

ただし、さっきも言ったようにCeVIO AI ソングは「人間らしさ」を模した歌声合成なので、cosMo暴走Pさんの「初音ミクの消失」みたいな早口楽曲を歌わせると破綻します。逆にVOCALOIDはDNNやCNNのような方式ではなく、それぞれの発音に対応する波形を接続する「波形接続型音声合成」を採用しており、そっち方面は強いです。

個人的に音声合成界隈はそれぞれのソフトにそれぞれの強み、スタイルがあるのが魅力だと思っているので、一概にどちらかの技術が優れているというのは言えないと考えています。いわゆる(本当にVOCALOIDを使っている)ボカロ曲が好きな人たちの多くは、その独特な歌い方に魅了されている人が多いと思います。金子みすゞも「みんなちがって、みんないい」って言ってるし。

※2022年10月発売の「VOCALOID 6」からAIによる歌声合成機能が搭載されました。最初は「え!?波形接続型なくなっちゃうの!?」と思いましたが、どうやら従来のVOCALOIDエンジンは残っていて、使用者によって波形接続エンジンを使うかAIエンジンを使うか選択できるみたいです。よかったね。


そしてソングのライブラリばかり注目されがちですが、トークも侮れません。CeVIO AI トークには感情パラメータが存在し、音声の感情を自由に表現することができます。まあ、VOICEROIDにもあるんですけど。


2023年4月現在、リリース済またはリリース予定のライブラリはソング型、トーク型、両刀型合わせて約25種類。以降、個人的に気になっているものを幾つか列挙します。


星界」は2022年4月にリリースされた、花譜さんと同じくKAMITSUBAKI STUDIOに所属しているヰ世界情緒さんの声をモデルにしたCeVIO AI ソングライブラリ。同僚の理芽さん、幸祜さん、春猿火さんも同様に「裏命」「狐子」「羽累」としてリリースされており、KAMITSUBAKI STUDIOのボイスクローニング計画が着々と進んでいるようです。


カゲプロで有名な1st PLACEから出ている「IA -ARIA ON THE PLANETES-」はソングとトーク両方に対応しているんですが、ソングの方に英語版が存在します。英語ソングライブラリは珍しいので、人によっては重宝しそう。


トーク音声における英語ライブラリとしては「弦巻マキ」が存在します。歌愛ユキのところでも名前を出しましたが、AHSという企業がリリースしたものです。英語音声は動画後半で聴けます。


そして最近、次世代ガールズバンドプロジェクト「バンドリ!」のキャラクター「戸山香澄」「湊友希那」が「POPY」「ROSE」としてCeVIO AIライブラリ化されました。それぞれプロジェクト内のバンド「Poppin'Party」「Roselia」のボーカルを務める子です。既存ゲームやアニメのキャラクターがそのまま歌声合成化する時代がそのうち来るんじゃないかとは思っていましたが、まさか自分の遊んでるコンテンツが先陣切るとは思ってなかったのでビビってます。ついでに私の推しである「倉田ましろ」のCeVIO AI化はまだですか???


4. おわりに


そんな感じで、音声合成及びCeVIO AIの紹介でした。

今更ですが、ある程度の人はCeVIO AIとVOCALOIDが別物であるということを認識しつつも、CeVIO AIを「ボカロ」と呼んでいる気がします(ヤマハのとある方も可不をボカロ扱いして呼んでいるのも見たことがあります)。こんな記事を書いておいてアレですが、私も心の奥底では正しい認識を持ちつつも、そこら辺にあまりに厳密でいすぎるのも良くないかなと思います。界隈のことを詳しく知らない人に対しては特に、あまりにも「ボカロ」という記号が便利なので。

まあ実際、友達が可不の曲を聴いていて「このボカロPの曲良いね~!」って言ってるところに、「いや、KAMITSUBAKI STUDIOからリリースされている『可不』はCeVIOプロジェクトがリリースしているCeVIO AIという歌声音声合成(SVS : Singing Voice Synthesis)のライブラリの一種だから、『ボカロP』じゃなくて『CeVIO AI ソング P』と呼ぶのが正確な表現だが??」という指摘を入れたらガチで友達が減るのでやめましょう!これは私との約束です!



© 2021 KAMITSUBAKI STUDIO All rights reserved.
当記事で用いた画像の著作権、及びその他知的財産権は当該サービスの提供元に帰属します。


この記事が気に入ったらサポートをしてみませんか?