見出し画像

メタバース企業のインターンが転生したら最強音声研究学生になっていた件。

REALITY

こんにちは。REALITY株式会社 GREE VR Studio Laboratory(以後、ラボと呼びます)の研究インターンの堀部貴紀です。明治大学大学院修士1年で 森勢将雅研究室 にて音声に関係する研究に携わっています。2023年からは修士研究に集中するため、2019年10月より約3年間お世話になったラボを卒業することになりました。このブログでは、ラボでの音声系の取り組みを中心に3年間の活動を振り返ってご紹介したいと思います。これから REALITY や GREE VR Studio Laboratory のインターンに興味のある方への参考になれば幸いです。

「転声こえうらない」利用者の音声分析

転声こえうらない」は、GREE VR Studio Laboratory が研究目的で公開しているWebブラウザ上で利用できるボイスチェンジャーサービスです。13 種類(おねえさん、両声類、ソプラノ、小学生、ヤミ声、おにいさん、男子中学生、ダンディ、ムッシュ、カワボ、マダム、ゴリラ、ダミボ)のなりたいスタイルを選ぶことができます。

プレスリリース:グリー、最先端技術の研究開発組織「GREE VR Studio Lab」から、Webブラウザ上で無料で楽しめる「転声こえうらない」β版をリリース(2019年7月2日)

人気VTuberさんにも紹介していただきました("案件"ではありません!)

「バ美肉ッ!バ美肉ッ!バ美肉ッ!」#MZM #モンスターズメイト #187

「なりたい自分に転生!?転声こえうらないで遊んでみた♪」
りりかのおもちゃ箱さん

技術的にはそれぞれのスタイルと自己申告により選択された性別(男性、中性、女性)に合わせて用意されたプリセットを用いて、ブラウザ上で録音した音声をサーバ上で変換します。ログをみているとリリースから3年以上が経ちますが、毎日けっこうな数のユーザが使ってくれています。

同意の得られた利用者の音声データを個人に紐づけない形で収集されています。収集された音声データから、音声の特徴や利用者の傾向を分析するシステムの構築に取り組みました。「転声こえうらない」は、Google Cloud Platform (GCP) 上で実装されているため、はじめにインフラエンジニアさんに毎週1時間程度、貴重な業務時間にレクチャしていただきました。具体的には、Kubernetes 上にワークロードを構築する、ワークロードの構成ファイル(YAML/cronジョブ)を書く、クエリを使って Logging や Datastore から特定のデータを取得するなど本格的なテクニックを教わりました。

音声分析では、「転声こえうらない」の声質変換エンジンのベースにもなっている 音声分析合成システムWORLD をPython向けに拡張した pyworld を使って、音声の高さに該当する基本周波数、収録環境を評価する指標として信号対雑音比を抽出するスクリプトを実装しました。また、利用者が選択したスタイルや自己申告の性別、アクティブユーザーなどを取得する仕組みを実装しました。

構築した分析システムを利用して、約4万件におよぶ「転声こえうらない」利用者の音声を分析し、2020年6月に行われた 音学シンポジウム2020 にて発表しました。全体的な分析では、男性利用者が多くなりましたが、期間を区切って分析すると、平均基本周波数が女性と分類される声の特徴を持つ利用者の利用が増えていることなどが明らかになりました。詳細は、こちら

これが初めての研究発表でしたが、著者である石原さん、白井さん、森勢先生に厚いサポートをいただき、結果として音学シンポジウム学生優秀発表賞を頂きました。振り返ると、新型コロナウイルスの影響が始まったばかりでとても大変だったなと思います。

分析結果は毎日 Twitter@koeuranai でツイートしてます。

男性→女性だけでなく、女性→男性にも人気なようです!
これからも末永くよろしくお願いいたします。

リアルタイムボイスチェンジャーアプリの開発

次に、研究リサーチとして 音声分析変換合成システムWORLD を使って iPhone上におけるリアルタイム声質変換に挑戦しました。そして、WORLD による声質変換処理において、1秒間に数千回呼び出される高速フーリエ変換をApple社が提供する Accelerate Framework に置き換えることによってどれくらいの Real Time Factor(処理対象の音源の再生時間に対する処理に要した時間の割合を示す音声研究用語)で高速化が実現するのかを実装して評価しました。ゼロからSwiftを勉強しはじめ、英語の公式ドキュメントを自分の知識と照らし合わせながら読解するなど、この期間では Developer として格闘しました。
ブログ:iOS Accelerateでボイチェン高速化に挑戦したインターン学生の話

また、グリー株式会社開発本部の橋本さんに協力していただき、高速化に関して Intel XeonプロセッサAVX-512環境 を中心にサーバーによる処理との比較を行いました。具体的な検証結果は、ブログ「ボイチェンのFFTをさらに高速化してサーバとiPhoneで比較した話 #ASJ2021a」にまとめていますが、最もサーバーで高速化できた場合では、WORLDが利用しているFFT関数と比較して約8倍から12倍の高速化が見込めることがわかりました。サーバー処理の凄さに圧倒されましたが、、、iPhone端末で処理した場合でも、約2倍高速化が見込めることがわかりました。このような挑戦は、単品の音声処理だけでなく、メタバース時代のコミュニケーション全体に応用できる可能性があると考えています。

音声から表情を生成する

最後に、ラボで行っているメタバース時代のユーザー体験(UX)を探求し、研究開発成果をショートフィルムで発信する「UXDev」プロジェクトにて取り組んだ「Voice2Emote」について紹介します。Voice2Emote のきっかけは、HMDを装着したときに顔トラッキングが難しいところでした。LipSync のような音声特徴量から口の形状を推定する研究は存在しますが、Voice2Emote では話している内容から口の形状や話しているときの目や眉の動きを生成することを検討しました。

今回は、Julius Segmentation Kit を使って、話している内容から音素を取得し、母音から口の形状を決定しています。このパイプラインにより、アニメーションに母音/子音を考慮したキーフレームが打てることや、口の開き具合・眉の動きによる個性などより豊かな表現が実現できると思います。動いているアニメーションは、GREE Tech Conference 2022の後輩の中野さんによる発表 をご覧ください。また、関連研究も含めて中野さんがブログを書いているということで楽しみにしたいと思います。

3年間の主なプロジェクト紹介

ARによるメタバース・UX開発「pARty」

研究リサーチとして Niantic Lightship ARDK に取り組み、ラボメンバーとともに Lightship Global Jam に参加しました。このイベントを通して、ゲームジャムスタイルのプロジェクトマネジメントを担当しました。詳細は、ブログ「"世界のAR"に期間限定で挑戦!Niantic Lightship Global Jam参戦記」や GREE Tech Conference 2021 の発表「ARをメタバースで表現してみた」をご覧ください。

UXDev

Voice2Emote のほかに、REALITY互換のエンジンを利用し細かい表情演技を担当しました。特に「MetaDreamers」にて、実際にツユハナビを再生しながら歌唱シーンの表情演技を収録したのはとても印象に残っています。また、将来のHMDでの体験に向けて、Premiere Pro 上で ambiX v0.2.10 – Ambisonic plug-in suite を用いて360°動画を製作する動画製作パイプラインを構築しました。

CEDEC2022 登壇

Mozilla が公開しているオープンソースWebXR「Mozilla Hubs」について、ソースコードやDiscordコミュニティから調査し、その一環として Mozilla Hubs のローカルビルドに挑戦しました。

最新の M1 Macを使ったローカル環境構築です。音声コミュニケーションもちゃんと動きます。国際的なオープンソースプロジェクトを分析して手元でゼロから動かすいい経験になりました。

Cyberworlds2022 発表

ラボの先輩 山崎さん、ラボディレクター 白井さんとともに、メタバース時代の絵文字を使った視聴体験に関する研究を行いました。
ブログ:絵文字を使ってメタバースの感情を評価する #Cyberworlds2022

はじめての国際会議(金沢)ではしゃいしまいましたが、最優秀論文賞も頂きました。

共著の山崎さん、白井さん、ありがとうございました。

まとめ

このブログでは、音声系の取り組みを中心に堀部が取り組んできたメタバース時代に求められる技術についてご紹介させていただきました。

この3年間を通して、様々な1番力がついたと思ったことはドキュメンテーションだと思っています。もちろん、企業でお賃金をいただきながらR&Dに携わること、業務時間内でスピード感をもって成果を上げること、数百万ものユーザーがいるプロダクトの現場を見る機会があることなど、貴重な体験の連続でした。ドキュメンテーションは、3年間体験したことすべてにおいてベースになったと感じています。研究論文、note、README、知財関連、国際的なオープンソースプロジェクト、社内ドキュメントと様々なタイプのドキュメントを書いてきました。大学の授業や課題では、その目的や読む人が明らかであるため多少の許容はあります。しかし、さまざまな方が関わり、責任感をもって取り組むなかで、他のメンバーに確実に伝わるように丁寧に書きつつも、時間をかけすぎずに仕上げるドキュメントがいかに重要であるかを学びました。

また、ドキュメンテーションの経験値が積まれたことで自分自身の変化も感じています。特に、大きく変化を感じたのは発信活動です。ラボは発信活動にも力を入れています。国際会議・研究会のような研究系の発表から、GREE Tech ConferenceやCEDECのようなテック系の登壇など幅広く経験させていただきましたが、経験を重ねるごとに「発表する目的は何か」「1番に伝えたいことは何か」と考えることができるようになりました。

GREE VR Studio Laboratoryはメタバース時代のUX開発・知財創出が目的であるため、社員のみなさんと関わることや近年コロナ渦のリモートワークにより交流する機会が限られていた3年間でもありました。でも先日ちょっとした社内の交流会の際に「ちょこちょこ名前が出てたから知ってたよ〜がんばってるね!」とリアクションをもらえたのは個人的にとても嬉しかったです。REALITYのインターン生ではありましたが、グリー開発本部の社内の勉強会(有志が持ち回りで自分の研究を発表したり、興味のあるトピックについて話をする、3年以上続いてるAI/ML系の勉強会)にまぜてもらったり、フィードバックいただくことがあったりと、とても幸せな環境で成長させていただいたなと感じています。

このような環境でインターンできたこと、あらためて感謝申し上げます。機会をくださった白井ディレクター、DJ RIO社長(めっちゃ気さくな方でした!)ありがとうございました。そして、このブログがこの先「なりたい自分」を目指す学生が REALITY株式会社・GREE VR Studio Laboratory に出会うきっかけとなれば幸いです。

論文リスト

  1. Takuma Kato, Tomosuke Nakano, Takanori Horibe, Miku Takemasa, Yusuke Yamazaki, Akihiko Shirai, “Cross-platforming “School life metaverse” user experience”, SIGGRAPH Asia 2022 Posters.

  2. Yusuke Yamazaki, Takanori Horibe, Akihiko Shirai, “Evaluation of Time-Shifted Emotion Through Shared Emoji Reactions in a Video Watching Experience”, 2022 International Conference on Cyberworlds. Best Short Paper Award

  3. 堀部貴紀, 橋本順之, 白井暁彦, 森勢将雅,「FFTライブラリを対象とした実時間Vocoderの速度比較」, 日本音響学会2021年秋季研究発表会 

  4. 堀部貴紀, 白井暁彦, 森勢将雅,「『転声こえうらない』を通したボイスチェンジャー品質改善のための定性分析と考察」, 日本音響学会2021年春季研究発表会

  5. 堀部貴紀, 石原達馬, 白井暁彦, 森勢将雅,「『転声こえうらない』利用者の基本周波数分析」, 情報処理学会音楽情報科学研究会. 音学シンポジウム学生優秀発表賞

登壇

  1. GREE Tech Conference 2022「GREE VR Studio Laboratory - UXDev R&D Summary 2022」 (録画による出演)

  2. CEDEC2022「オープンソースで構築するWebメタバース ~Mozilla Hubsで学ぶUX開発から運用コスト最小化まで」

  3. GREE Tech Conference 2021「REALITYアバターを様々なメタバースで活躍させてみた – GREE VR Studio Laboratory インターン研究成果発表」

ブログ

  1. 絵文字を使ってメタバースの感情を評価する #Cyberworlds2022

  2. Webメタバース開発から運用コスト最小化まで #CEDEC2022 発表体験記

  3. メタバースの研究開発を360°動画で表現する - PremierePro/ambiXでパイプライン構築

  4. “世界のAR”に期間限定で挑戦!Niantic Lightship Global Jam参戦記

  5. ボイチェンのFFTをさらに高速化してサーバとiPhoneで比較した話 #ASJ2021a

  6. iOS Accelerateでボイチェン高速化に挑戦したインターン学生の話

GREE VR Studio Labでインターン希望の方へ

GREE VR Studio LaboratoryはREALITY株式会社の研究開発部門です。大学生・大学院生・在外留学生などリモート環境でメタバース時代の研究開発を推進する才能を募集しています。Twitter@VRStudioLabをフォローです!

REALITYの採用はこちら

グリーグループの新卒採用情報はこちら