「AIでよみがえる美空ひばり」にみる、AIの活用について: 2021年3月15日

2023年12月26日 05:46

この記事は

昔書いたアーティクルのことを思い出したので、facebookのノートからサルベージしてきました。元は2021年3月15日に書かれたものです。

本文

自分はボーカロイドV4の収録に立ち会ったことがありますが、ボーカロイドの本質はそれに搭載されている歌声ライブラリにあります。収録とは、そのライブラリを作成するためのサンプリング作業のことです。

https://unity-chan.com/contents/interview/vocaloid-vol02/

その収録はかなり複雑なもので、収録したい歌声ライブラリの音素を含む短い収録語からなる台本を一定の音程で読み上げるというものと、さらにそのご本人が自然な形で歌ういくつかの曲をサンプリングすることから収集されます。ボーカロイドV4の場合、音程毎に大体日本語で500音、英語で2500音を収集するとのことです。ひとつの歌声ライブラリには大体4つぐらいの音程が含まれていますので、日本語だったら2000音、英語だったら1万音ぐらいになる計算になります。

そのような特殊な収録ですから、通常の場合、収録用の台本をご本人に演じてもらわないと収録はまず無理な訳です。しかも一定の音程でそれを行いますから、音痴の人にはやはり難しい作業なんですね…。ユニティちゃんこと角元さんは、大変歌の上手な方ですので、収録はとてもスピーディに行われましたが、それでもご一緒させていただいて、大変な作業だなと感じたものです。

その上で、今回の美空ひばりの歌声ライブラリの作成はどのように行われたかですが、ご本人が生前収録したボーカルのみのトラックを大量に集めて、一定秒数の区間に分割し、それらの分割化された音が、上の音階と音素のどれにあたるかを、機械学習で分類したというものです。これは機械学習の世界では「教師なし学習」といわれるもので、パターンマッチングの分析技法です。もちろん生前の美空ひばりが大量の歌声を残していたということはありますが、それにしても膨大な量の分割化された音をある一定のルールに沿って分類し再構築するという作業は、機械学習を使わなければできなかったことでしょう。しかも生前の美空ひばりは、ひとつの歌い方の中で軽く1オクターブの範囲の声を出せたと言われていますので、恐らく必要とした音素は各音程につき英語並にあったものと想像できます。

実際の歌声ライブラリの作成においては、まず「教師なし学習」で分類した分割化された音に対して、今後は一定のパターンに当てはめた「教師あり学習」を適用することで、元の歌声のパターンにどれだけ近づけるかを反復学習させることで、音素としての精度をトライ＆エラーのイテレーションで最適化していったのではないかと想像しています。

一方ボーカロイドチームは、上の歌声ライブラリと同時に、歌詞の特徴によってどのような味付けをするかの研究も同時に行っていて、その成果は、小林幸子さんの歌声を元に制作されたSachikoなどに活かされています。これはフィルタと呼ばれているものだそうですが、仕組み的には「こぶしをまわす」や「ハモりなどのビブラートがかかる」部分を判定してそのような歌声を作り出す仕組みだそうです。Sachikoのサンプルを聞いてみると、結構良い感じにこぶしをまわせることがわかりますが、エンジニアの方によるとこれらのフィルタも実際の歌手の方の歌い方を分析して作られているのだそうです。

https://www.vocaloid.com/sachiko/

ちなみにボーカロイドを自然に歌わせるためには、ただ単に打ち込むだけでは足りなくて、様々なエフェクトをかけたりミキシングをすることで、味付けをします。業界的には、「調教」と言ってるらしいですね。この調教過程を経ることで、独特の雰囲気が出てくるのですが、今回の美空ひばりのボーカロイドはそれとは違う方向性を感じます。恐らくですが、なるべく素のボーカロイド出力でも歌声が十分に耐えうるように作ったのでは、とうかがわせる点があります。

実際、NHKの番組の中でも、過去の楽曲に対し、それらを元に作られた歌声ライブラリを適用した例では、そこそこ悪くなく歌い上げるボーカロイドでしたが、新曲を与えてみると何故か「美空ひばりが歌っているようには聞こえない」という状況が発生していることがわかります。

これは「教師あり学習」ではよくあることで、想定されているデータセットの中では十分に学習できているシステムが、未知の事象に対しては十分な予測結果を出せないというものです。これは機械学習の世界では、「過学習」と呼ばれている現象です。続いてチームはこの「過学習」の解消に取り組みます。

「過学習」の解消には、システムを作り上げているデータセットのルールを見直すことが大事です。そこで興味深い実験がなされます。それは音響学の学者を招いて、その学者さんのゼミの学生達に、元の美空ひばりの歌声をいくつか聞かせ、特にどの辺りの部分で心にぐっと来たかをメモさせるというものでした。そしてその区間を徹底的に改めて精査したのです。

その結果としてわかったのは、美空ひばりの歌声には曲の聞かせどころのポイントに入ると、ターゲットとされている音階のさらに1オクターブ上に境界倍音と呼ばれる特殊な音が同時に発生していることが確認されたのです。それが意味するのは、美空ひばりは自分自身で曲の聞かせどころにハモり効果を入れていたということです。これは大きな発見でしょう。実際、自分も美空ひばりの曲は相当聞いているのですが、分析に使われていた箇所では、「歌声が突き抜ける」ような印象をずっと持っていました。おそらくコレが、ファンが「美空ひばりは同時に1オクターブ上の声を出している」と言っていたことの意味だったのでしょうね。

そして最終的にチューンされたボーカロイドには、この境界倍音も搭載されて、聞かせどころに入るとそれが元の音階に加算されて生成されるというものなりました。その結果は、絶大で確かに「誰も聞いた事がない楽曲が、美空ひばりが歌っているように聞こえるようになった」のです。

さて、手元の機械学習の入門書に寄れば、AI（人工知能）とは、「幅広い意味で用いられ、包括的なシステムそれ自体を指す」とあります。そして「人工知能を実現するため手段の1つが機械学習」とあります。今回の美空ひばりのボーカロイド化は、「音素収集を教師なし学習で行い、歌い方パターンを教師あり学習でルール化した新型ボーカロイドで新規に歌声を生成する」というものですから、この試みは十分にAIを活用したものだと言えると思います。むしろ大変興味深いことは、単純な機械学習だけでは、美空ひばりの歌声の深さには迫れなかったという事実でしょう。「美空ひばりが歌っているようには聞こえない」という、ファンの声を第一と考え、何が違うのかを徹底的に突き詰め、それまでの学習計画に足りなかった要素を探り出したというこの一点が、AIの真の活用のためには何が必要なのかを伺わせて、大変興味深いものだったと言えるのではないでしょうか？

P.S.
映像のほうは、残念ながら上のボーカロイドのレベルには達してないと思います。正直、分析不足といいますか、ぶっちゃけですが「コレは生前の美空ひばりを愛してやまない人が作った映像ではない」ように感じました。つまり、「まだどことなく美空ひばりっぽくない」レベルに留まっている印象を受けました。これは本企画としては、残念なことのように思えます。

自分にも経験がありますが、既に多くのファンの中で確立しているキャラクターの印象を新規に表現することは大変難しいことです。そこには、単なるフォトリアリスティックな手法を超えた、そのキャラのイメージを支える「本質的な何か」の要素が必要です。それは、ちょうどボーカロイドチームが見つけ出した境界倍音のようなものです。

おそらく今後は、彼女が実際に歌っている時の仕草や視線の送り方などを大量のビデオからAIに学習させたほうが、良いものができる可能性があるのかもしれません。もしくは、徹底的にファンに監修させるか、ですね。

https://www.nhk.or.jp/special/plus/videos/20191003/index.html?cid=dchk-yt-1910-32-st

久々に読んでの感想

境界倍音のエピソードを再確認したくなって発掘したものです。
むしろ今の時代に改めて見直したいNHK特集ですね。

この記事が参加している募集

#AIとやってみた

27,502件

この記事が気に入ったらサポートをしてみませんか？