見出し画像

歌声合成もAIの時代-Synthesizer Vライト版の比較検討所感-

元ボカロ使いですが、6年くらい触っていないうちに世の中えらいことになってました。
2015年頃まで使ってたのは株式会社インターネットのMegpoidことGUMIで、一部の方はご存知のとおりGUMIしか使わない勢のkermitだったのですが・・・

この記事で株式会社AHSのSynthesizer V(正確には元記事のようにDreamtonicsが開発した、というべきなのかもしれませんが)がどうにも気になってしまい、無料で使えるライト版をダウンロードし、その中から気に入った歌声を4種類使って自分の楽曲に流し込んで比較動画を作ってみました。

Synthesizer V ライト版比較動画

使ったのは再生順に下記のとおり
・小春六花 AI 
・小春六花 (通常版)
・Saki AI
・弦巻マキ AI(最後の英詞フレーズのみEnglish AIを使用)

Vocaloid 3(2014)との対比

参考のため、自分でこの曲を最後に投稿した時のボカロヴァージョンも貼っておきます。2014年の8月ですから、ざっと6年半前ということになりますね。

ここで使用しているのはVocaloid 3のエンジンとライブラリですが、この後リリースされたVocaloid 4を使うことなくVocaloidからは離れているので、単純に比較するのはフェアではないのかもしれません。
ただ、この間にちょっと違うところから出てきた技術が、これだけ進化を遂げたんだな、というところに感慨を覚えます。

Synthesizer V ライト版を使ってみての総評

まず感じるのはエディターの操作が簡単で、なおかつ完成度が高いこと。ピアノロールにノートを置いて、歌詞を流し込んで、歌声データベースを選んで再生しただけでこれですよ。ほぼベタ打ち。

製品版ではないのでDAWのプラグインとして使えるわけではないのですが、Vocaloid 3までもそんな感じで使っていたので、まあ慣れたものです。

パラメーターの効きも結構良さそうなのですが、今回は一切いじっていません。

では、4種類の歌声データベースそれぞれのインプレッションについて触れていきます。

小春六花 AI インプレッション

同じキャラクターでAI版と通常版の両方があるものについては、概ねAI版の方が印象がよかったのですが、この小春六花に関しては最初、通常版の方が好印象でした。しかし、このAI版はたしかに完成度高いんですよ。だからどっちもアリとしました。

まず、発音の明瞭感が際立っていますよね。特定の音(特に子音)が弱いとか、そういう弱点がほぼ見当たらない。そして、歌い回しも非常に表情豊かです。

ただ、感情表現の方向性がふた昔前くらいの演歌っぽいというか、AIの味付けが少しくどい感じになってる気はします。曲調との相性というのもありますが、今回の楽曲ではその辺りを少し抑え目にできればかなり良いのでは?と思いました。

また、今回はトライしていませんが、ヴィブラートのかけ方を変えるだけでもよくなるかもしれません。デフォルトではロングトーンには最初から大きめの振幅で均一にヴィブラートがかかっているのですが、個人的には後半にだんだん大きくかかるような、あるいは終わりかけのところにだけ強めにかかるようなヴィブラートが好みなので。これ、ギターのヴィブラートのかけ方にも相通じるところがあります。

小春六花 (通常版)インプレッション

こちらは先ほどのAI版に比べるとナチュラルな感じ、と言えなくもないのですが、音の立ち上がりがやや甘く、鼻にかかったようなニュアンスがついて回ります。ある意味往年のボカロっぽい、とも感じました。

ただし、それも音域によりけりなので、サビのあたりに行くとほぼ気にならないレベルかと思います。ボカロも概ね低いところは抜けが悪いので、みんな高域よりのレンジで歌わせたがるのですよね。

ま、それはさておき、全体に不自然さはなくナチュラルなのですが、その分歌い回しも平板な感じがします。AI版とこの通常版との中間ぐらいのさじ加減ができればいいのですが・・・もしかしたら製品版であればその辺りの調整ができるのかもしれません。

Saki AI インプレッション

ソースが声優さんの声ではないためか、作ってない素の声というか、グッと自然な印象です。大人っぽいですし。

ただし、憂いというか、気だるさみたいなものも感じられるので、ちょっと曲を選ぶかもしれません。特に歌い出しのところですね。歌詞と歌い方が合ってない感じがしてしまいます。

テンションというパラメーターでその辺りが変わってくれると面白いのですが、このキャラクターは変わらないかもしれません。

サビは結構いいと思うんですよ。ただ、この楽曲に関しては明るさや元気さがあった上での切なさ、であってほしいので、ひと言で言えば素直さという点でちょっと引っ掛かります。

そういう要素を求めない楽曲であれば、おそらくこのSaki AIが現時点では優勝かな、と思います。ただし、やはり演歌っぽい感じはするんですよね。

弦巻マキ AI および English AI インプレッション

楽曲の世界観には結構マッチしているかな、と思いますが、古き良きボカロの流れを汲む感じも否めません。

やさしく歌いかける感じはすごくいいです。でも、サビでもう少し強さ・明るさが出てほしいですね。それこそテンションで何とかなるといいのですが。

ひとつ気になる点としては、「や・ゆ・よ」(曲中では低いところで歌い出しに「ゆ」が出てくるところ)の発音タイミングが少し前がかりになるところがあります。これは他の歌声データベースには見られなかった唯一の弱みでしょうか。

一番期待しているのは京町セイカ

まあ、いろいろと思うところはありますが、近いうちにどれか製品版を入れてみることになるでしょう。一番期待しているのはリリースされたばかりの「京町セイカ」なのですが、体験版は現在まだ準備中のようです。

また、ライト版での比較では、弦巻マキにはEnglish版があるので、サビの最後の"sweet days"というフレーズのみそちらで歌ってもらいました。なかなか自然でいいですよね。
現時点では他の歌声データベースには多少英語っぽく聞こえるようにしたカタカナ英語を歌わせているわけですが、前述の記事にもあるようにSynthesizer Vの1.5.0では日本語の歌声データベースでもそのまま英語の歌詞を入力すれば英語で歌ってくれるそうなので、とにかく何かしら買って使い始めてみたいとは思っています。

今やAIなしのDTMはありえない?

今回、AI版を使ってみて思ったのは、もはやピッチカーブを自分で描くとか、1ノート単位で細かくエディットをするといった作業はしなくていい時代になったんだな、ということです。

動画を見てお分かりのように、Synthesizer Vのエディタではピアノロールに波形と一緒にピッチカーブも表示されています。こういったものを参考にしながら自分でチマチマといじることも可能ではあるのでしょうが、もう、そういったところはAIにお任せで、最終的なジャッジだけをしていくほうが幸せになれる気がします。

実際、Logic Proでもドラムパートは1音ずつ打ち込んだりせず、縦横2軸のマトリクス上で適当なパターンを組んでもらったり、ベースなど他のパートにキックのタイミングを合わせてもらったり、フィル・イン(おかず)のヴァリエーションもつまみをぐいっと回して決めるみたいな世界になっていますし。

先日導入したIK MultimediaのMODO BASSなんかも、同じ音を連打してもランダマイズして人間が弾いているかのようなばらつきを勝手に再現してくれたりと、AI(というか機械学習)の良さを生かして効率的に作業するという方向性はもう変わらないんじゃないかと思います。

テクノロジーの進歩を待つのも悪くない

最後に。

Vocaloidを使っていた頃はいつもヴァージョンアップをジリジリしながら待っていて、「こうなればいいのに」と思うことばかりだったような気がするのですが・・・しかも、「なんでそれWindowsでしかできないんだよ!」みたいな。

で、途中からもうそこに乗っかるのをやめて、いったん降りて5年以上放置していたら、意外といい感じになってたな、というのが今の感想です。

若いクリエイターにとってはこういう時間はものすごい損失だったりするのかもしれませんが、この歳になると5年、10年待ってるうちにやりたかったことがもっと楽に、いい感じでできるようになってたというのは、なんか得した感じもします。

そういう待ち方ができるという点では、歳をとるのも悪いことばかりではないな、と思います。

今日はここまで。

サポートいただけるとモチベーションが爆上がりします!