AI○○を人力と呼ぶな委員会~お前は人力の何たるかを知ってるか~

はじめに

このスライドはAI○○を人力と呼んでほしくない理由をそれぞれの製作方法と絡めて説明するものです。
2023年5月時点での情報をまとめたものであり、筆者はAIを専門にしているものではありません。

このスライドは何のためにあるのか


AI○○と人力が別物であり、製作方法からして別物であることを広く周知するためにあります。

このスライドで使用する名称の定義

このスライドにおいて人力と呼ぶのは下記のものになります。
人力VOCALOID
切り貼り式人力
なめうぇーぶ
UTAU式人力

このスライドにおいてAIと呼ぶのは使用者が比較的多い下記のものになります。
RVC
so-vits-svc

なぜAI○○を人力と呼ばれたくないのか


まずそれぞれの製作方法についてです。

人力VOCALOIDとは

人力VOCALOIDとは、人物やキャラクターのアカペラ素材を人力で切り貼りし、まるでVOCALOIDのように歌わせる技術のことである。
参照:https://dic.nicovideo.jp/a/人力vocaloid

切り貼り式、なめうぇーぶ、UTAU式は、使用ツールは違いますがすべて「人物やキャラクターのアカペラ素材を人力(またはUTAU)で切り貼りし、まるでVOCALOIDのように歌わせる技術」です。


切り貼り式

人力VOCALOIDは主に切り貼り式のものを呼びます。
製作方法は多岐にわたり、共通するのは
・アカペラ音源(またはセリフ音源)を素材として使用する
・音源編集ソフト(REAPER等)や、ピッチ編集ソフト(Vocal Shifter,Melodyne等)を使用して歌わせる
になります。
支援ツールなどを使用せずに制作している場合が多いです。


なめうぇーぶ

なめうぇーぶは、音声波形を切ったり繋いだりするための波形合成ソフトです。
人力VOCALOIDを製作する上で必要な便利な機能がまとめられたソフトで、
ラベリングや検索ができたりBPM計測機能があったり、マウスでのピッチエンベロープの書き込みや、
ピアノロールでの音合わせなど様々な機能があります。(UTAU音源も読み込める)
参照:http://mixque.m49.coreserver.jp/namewave/
   https://note.com/walkingsushibox/n/n4f9061ba27c5
   https://mo-otomad.hatenablog.com/


UTAU式

UTAU式人力とは、人物やキャラクターのアカペラ素材から人力で切り出した音素を音声ライブラリ(原音ファイルセット)とし歌声合成ソフト「UTAU」を使って合成された人力ボーカロイドである。

また、UTAU式人力はそれぞれとの住み分けのために生まれたタグです。

人力VOCALOIDとのタグ分け理由


○UTAUを使用することによって「音素を切り出した後」の作業工程がかなり簡易化されている。
○UTAU上での編集やUTAU向けの合成エンジンの特性により、音色に共通する特徴が出やすい。


UTAUとのタグ分け理由

・UTAU向けに録音された音源と区別するため(いわゆる重音テト等の配布音源)
・「原作キャラクターの人気」で再生数が伸びてUTAU系ランキング上位に入ってしまうことへの配慮
(旧UTAUランキングでVOCALOIDやMMDメインの動画が除外されていたのも同じ理由)
参照:https://dic.nicovideo.jp/a/utau式人力

アカペラやセリフから音素を切り出し、原音設定をして音声ライブラリを製作します。


AI○○(RVC/so-vits-svc)とは

現在使用されているAIはChatGPTやStable Diffusion、Midjourneyなどと同じ生成系AIです。
生成系AIは、サンプルデータからアウトプットを自動的に生成する機械学習の手法です。
従来のAIと違い、0からコンテンツを生成する学習能力を備えています。
音声データを学習させた場合、音声データの特徴を学習し、学習した音声から別の音声をあたらに生成することができます。

RVC

RVCとはRetrieval-based-Voice-Conversionの略です。
so-vits-svcより学習時間が短く、必要な音声ファイルも今までに比べれば大量に必要とはしません。
(※今までのAIとの比較)
RVCは「HuBERT」という事前学習モデルをベースとしています。
そこに追加学習をすることで、特定の人物の声を再現するボイスチェンジャーを作れるわけです。

RVCでキャラクターに歌ってもらうには
・学習データ(キャラクターの声を学習させたもの)
・変換する音声ファイル(歌った音源)
が必要です。
参考:https://zenn.dev/mossan_hoshi/articles/20230519_rvc
   https://forest.watch.impress.co.jp/docs/serial/yajiuma/1496627.html


一番大事なのはRVCがボイスチェンジャーであることです。


so-vits-svc

so-vits-svcは「SoftVC VITS Singing Voice Conversion」の略です。
SoftVCで入力音源の音声特徴を抽出し、ピッチと合わせてVITSに入力して変換しているらしいです。
詳しくはリンク先を見てください。
参考:https://zenn.dev/tonimono/articles/5c35e87a29af15#so-vits-svc
   https://zenn.dev/syoyo/articles/3d40920e466415

so-vits-svcはRVCが出るまでの間主流だったように思います。

ここで一番大事なことは、so-vits-svcもボイスチェンジャーであることです。


なぜAI○○を人力と呼ばれたくないのか

それはAI(RVC/so-vits-svc)はボイスチェンジャーであり、人力VOCALOIDとは別ものだからです。
ボイスチェンジャーをかけてキャラクターの声にしているものは人力VOCALOIDの「アカペラ素材を人力で切り貼りし、VOCALOIDのように歌わせる技術」とは別物です。
別の技術である二つを無理に同じくくりにするのは誰も幸せになりません。
そもそも切り貼り式とUTAU式だって住み分けしているのに、AIが住み分けしなくていいというのは乱暴だと思います。
著作権を侵害しているという部分でどちらの技術もグレーですが、それが住み分けをしなくていい理由にはなりません。
10年以上前に人力VOCALOIDは誕生しました。
逆にAIはここ数年で出てきた技術です。
人力がグレーであり、音声ライブラリを配布してはいけないことは、ほとんどの人が知っています。
それらは先人たちがグレーであることを啓蒙してきたからです。
だからこそ、安易にAI人力やAI○○は人力だというのではなく、AIを広める人は、AIはAIで別の技術であり、製作する際のAI倫理も合わせて啓蒙すべきじゃないでしょうか。



参考資料


https://dic.nicovideo.jp/a/人力vocaloid
http://mixque.m49.coreserver.jp/namewave/
https://note.com/walkingsushibox/n/n4f9061ba27c5
https://mo-otomad.hatenablog.com/
https://dic.nicovideo.jp/a/utau式人力
https://zenn.dev/mossan_hoshi/articles/20230519_rvc
https://forest.watch.impress.co.jp/docs/serial/yajiuma/1496627.html
https://zenn.dev/tonimono/articles/5c35e87a29af15#so-vits-svc
https://zenn.dev/syoyo/articles/3d40920e466415

この記事が気に入ったらサポートをしてみませんか?