AIシンガーになってみました-Voicify AI
こんにちは。空色チューリップの広報担当の古河玉虫です。
ネットを見ていてAI関連の面白いサービスを見つけたので早速使ってみました。Voicify AIというもので、人間の歌声をデータとして学習させるとその声や歌い方の特徴をとらえたAI音声モデルを作ることができるというサービスです。
作成したモデルに対して音源を読み込ませることで、歌を歌わせることができます。学習データを反映した声質や歌い方で歌ってくれるので、実質的にパーソナルなボーカロイドやAIシンガーを自作できるわけですね。これはすごい。
注意点として、AI音声モデルの作成と、それを使用して歌わせた音源の生成にはそれぞれお金がかかります。
AIモデルの作成:1モデルあたり$59.99(本記事執筆現在2023年6月15日、割引で$39.99です。)
AIモデルを使った音源の生成:1音源あたり1クレジット(①$8.99で25クレジット購入のプラン、②月額$34.99で生成し放題のプラン、③月額$89.99で生成し放題+AIモデルを月に3体まで作成可能のプラン、の3種類があります。なお、②は本記事執筆現在2023年6月15日、割引で月額$24.99になっています。)
※なお、AIモデルの生成にはお試し用クレジットが5ついてきます。とりあえず自分で作ったモデルに歌わせてみたい場合はクレジットを別途購入しなくてもよさそうです。
サービス利用の手順は以下の通りです。
① Voicify AIにアカウント登録をする。メールアドレスで登録できます。
② ウェブサイトのFeaturesタブ内のCustom Modelsのページへ。色々と英語で説明が書いてありますが、Continueのボタンをクリックして次のページへ。
③ AIモデルに学習させるデータセット(音源データ)をアップロードします。アカペラ(伴奏なし)で歌を歌っている音源で、データ形式はwav、mp3、M4Aのいずれか。複数アップロードすることができます。音源の累計時間が10分以上になるのが望ましいようです。
③ データセットをアップロードしようとすると決済用のタブが現れます。クレジットカード、PayPal、Google Payに対応。料金は$59.99ですが、本記事執筆現在は$39.99に割引中でした。
④ 決済を完了するとデータをアップロードできるようになります。学習に使いたいデータを全て選択して一度にアップロードします。アップロードが完了するとページが自動的に切り替わって学習が開始します。アップロードが完了して学習開始のページに移行するまではページを閉じないようにしましょう。閉じてしまうとまたアップロードし直しになります。
⑤ 学習には1~6時間程度かかるようです。学習が完了するとMy VoicesのページにTrainedの表記が。これでモデルを歌わせられるようになりました。
⑥ My Voicesのページの学習済みモデルをクリックすると音源をアップロードできるページに移行します。ここで歌わせたい歌が入っている音源をアップロードします。アカペラでもいいですし、伴奏の入っている音源でも自動的にアカペラを分離してくれるようです。また、YouTubeの動画アドレスを指定するとその動画の歌も歌ってくれるようですが、こちらは著作権的に大丈夫か心配なので私は使っていません。
なお、注意点として有料プラン未加入だと生成した音源はPublish to Community(コミュニティに公開)となってしまうようです。現時点ではCommunityは未実装のようなのですが、このあたりはよくわかりません。音源を他の人に聞かれたくない人は有料の月額プランに入っておくのがよいかもしれません。
⑦ クレジットを1使って生成を開始。音源の生成は通常数分で完了するようです。なお、私は最初に生成をしようとしたときはエラーが出てしまい音源が生成できませんでした。エラーのときもクレジットは消費されてしまいますがContactのページに記載されているメールアドレス宛に英語で報告すると不具合を修正してもらえ、その後は問題なく音源生成ができるようになりました。エラーで消費してしまったクレジットも戻してくれました。
⑧ 生成が成功したら音源をダウンロードできます。アカペラ(伴奏なし)でダウンロードできるほか、伴奏とあわせた音源としてもダウンロードできるようです。
試しに空色チューリップのオリジナル曲(NeutrinoのAIめろうを使用)である「星の歌姫」をAI古河玉虫(私)に歌わせてみました。その結果がこちら。
ちなみに動画はD-IDのイラストや写真をしゃべらせることができるAIサービスを利用して作っています。私の顔写真をMeituで美形化(というより女性化)させたイラストを使用しています。
肝心の歌はというと、ところどころ発音が怪しい部分もあるもののかなり私っぽいです(笑)声質や歌い方の癖はかなり反映されていますね。ただ、元の音源の通りピッチ(音程)は正確ですし、ロングトーンもしっかり出ています。私よりずっと歌が上手い私という感じ。
ご参考までに、AIめろうのバージョンはこちらです。ただし、AI古河玉虫に歌わせるときはピッチをオクターブ下に下げた音源を歌わせました。原キーでもちゃんと歌ってくれましたが、かなり女性っぽい、というか裏声のような感じになりました。元の声質や「らしさ」を反映させるためには歌い手のキーに合わせた曲を歌わせた方が良いかもしれません。
まとめ
自分の声や歌い方でAIシンガーを作る方法は他にもいくつかあるようですが、今回試してみたVoicify AIはだいぶお手軽に作れるのではないかと思います。
私たちの音楽ユニットにはボーカルの雪椿がいますが、録音環境などの点ですぐに歌えないこともあるのであらかじめ彼女のAIモデルを作っておいて仮歌を歌わせるという使い方ができればかなり有用だと思いました。レコーディング前に曲調が声質に合うかどうかもチェックできますね。
何より自分や知ってる人の声質でAIが歌ってくれるのを聴くのは純粋に楽しいです。ご興味を持たれた方はチェックしてみてはいかがでしょうか。