生成 AI を使ってじょしちゅうがくせを創って自分もじょしちゅうがくせいになって会話した話（１）概要編

2023年7月22日 03:30

まずはこの動画を見てくれ

ChatGPT やその他いくつかの生成モデルを使ってじょしちゅうがくせいを創って、自分もじょしちゅうがくせいになって会話してみた動画。

伝えたいことは以上で終わり。以降は、作業の若干の詳細と作る時に参考にした情報源の記録です。

はじめに

こんにちは
きんぱつへきがんじょしちゅうがくせいのうねぴです！

今年の3月くらいに、何に使うかの目的も特になく MMVC ver1.3 の学習をさせていたのですが、ちょうどその頃、ChatGPT の API が公開されたこともあって、AI キャラや Aituber を ChatGPT で作るみたいなことをしている人がたくさん目につくようになっていました。その成果を見ていたら思った訳ですよ、これって AI でキャラを作って、自分も MMVC でボイチェンすれば、びしょうじょ同士で会話できるのでは？ってね。ということで、それをやってみました。

Youtube に上げた動画は、それを実際に試してみた動画です（以下のツイート、4月中頃くらいに作成）

やっと、じょしちゅうがくせいになって、無から会話相手のびしょうじょも生成して一人コラボ動画を作ることに成功した
リアルワールドで孤独な人でもコラボ配信ができる時代が来たって訳#ChatGPT #VOICEVOX #MMVC #novelAI

MMVC:つくよみちゃん
VOICEVOX:猫使ビィ pic.twitter.com/hG0yJct8oI
— うねｐ (@tentacle_wiz) April 17, 2023

基本的に先人の真似をしただけなので、新規性は無なのですが、本記事は、その時にやったことや参考にした情報源のまとめ、という目的で書いています（そして、じょしちゅうがくせいになってじょしちゅうがくせいと向こうの世界に逝きたい同志への参考になるかもしれないので）。

といった感じで、初めは参考にした情報を記録しとこ、くらいのノリで書きだしたのですが、自分が当初考えていた以上にやったことに対する思い入れが大きかったみたいで、結構な長文が生成されてしまいました。そのため、何本かの記事に分けて、本記事ではやったことの概要の説明までします。

あと、この後 4 月下旬 - 5 月くらいの間に LangChain を使った内部処理の書き換えと、短期メモリーの実装、Streaming 処理の実装もしているのですが、それもまた別記事の予定です（その時期から結構期間が経ってしまっていますが、それは 6 月中頃に院生の時から使っていた強化ガラス製の机が文字通り粉々に崩壊したので、丸一月くらい作業スペースの再構築をしていたせいです・・・（あと労働がデスマーチ極まった）。しかも机崩壊の衝撃で液タブも画面が割れました。どうしよう。）

今回やってみたことの概要とその経緯

今回やってみたことは、以下の2つに分けられます：

1. じょしちゅうがくせい化
2. じょしちゅうがくせい（びしょうじょ）生成

全体の構成図は以下です。これを見れば、もう大体の仕組みが分かる人も居るかと思います。

この内、前者のじょしちゅうがくせい化する上で必須となるリアルタイムな音声変換は、去年の前半くらいに MMVC の高精度化によって、ある程度の品質で出来る様になっていました（参考情報 (1) 1.「音声変換：MMVC（VITS ベースのノンパラレルデータ対応 End-to-End Speech to Speech model）」の一連のリンク参照）

ですが、ガワと声だけじょしちゅうがくせいになる準備ができても、大きな問題がありました。それは、自分が毎日ただただ労働に追われるだけの虚無な人間で、配信だとか動画だとかで何かアウトプット出来ることも無ければ、そもそもそういうことをしたいという感情もなかったということです・・・

致命的でした。なので、一度はそこまでやっておきながら、試してみた系の短時間動画を Twitter に上げて、その後丸1年は放置という状態になっていました

以下は、その当時 Twitter に上げた動画。今の動画と比較すると MMVC の変換精度がちょっと悪いですね。

ターゲット音声：ずんだもん

VITSというでーぷらーにんモデルを使った声質変換がほぼリアルタイムでできるMMVCというアプリで、声を変換してLive 2dモデルも動かしてOBSで録画してみたってわけ（声の遅延は数百msecくらい）。これが私のGWの全成果だ...

MMVCのGitHubは以下https://t.co/r6F9FnOdno pic.twitter.com/Hlb63hHfD4
— うねｐ (@tentacle_wiz) May 8, 2022

ターゲット音声：四国めたん

自分がじょしちゅうがくせいであるという事実を積み重ねていくってわけ。

Trainer：MMVC v1.2.1
Client：MMVC v0.2.01
ターゲット音声：/四国めたん pic.twitter.com/Uyi4ScRU57
— うねｐ (@tentacle_wiz) May 22, 2022

しかし、昨年末くらいから転機が訪れます。そう、今や社会的現象にまでなっている、生成 AI ブームです。特に、決定的だったのが ChatGPT API の公開でした。GPT-3 はもっと前から API が公開されていましたし、自分も GPT-3 が Few-shot learning や Zero-shot learning による汎用的なタスクでの文章生成が出来るということは耳学問レベルで知ってはいたのですが、所詮簡単な質問のやり取りができる程度でしょ？と舐めていました。実際に触ったわけでもないのにね。

この ChatGPT API の公開で、目的ができました。これを使えば疑似的にじょしちゅうがくせいキャラクターをエミュレートできるし、じゃあ後は自分がじょしちゅうがくせいに成れば、じょしちゅうがくせい同士で会話できるのでは？ということが。

ということで、今更私に、ChatGPT（で使われているモデルであるGPT シリーズ）等の大規模言語モデルがどれだけ凄い可能性を秘めているのかについて語れることは無いですし、実際にやった内容についてもう少し詳しく説明していきたいと思います。

が、一旦区切ります

ということで、やったことの概要やその経緯を書いただけでそこそこ長文になってしまったため、ここで記事を一旦切ります。

特に、次の記事で説明するじょしちゅうがくせい化の音声変換パートが想定以上の量になってしまいました。それくらい、この音声変換が厄介なハードルだったということですね。

ということで一旦記事を終わりたいと思います。

次回
生成 AI を使ってじょしちゅうがくせを創って自分もじょしちゅうがくせいになって会話した話（２）じょしちゅうがくせい化編

参考情報（References）

（１）じょしちゅうがくせい化

音声変換：MMVC（VITS ベースのノンパラレルデータ対応 End-to-End Speech to Speech model）

サポートありがとうございます！いただいたサポートは人類じょしちゅうがくせい化計画の活動費に使わせていただきます!