バ美肉で情報セキュリティ研修を少しだけ「楽しく」したお話

2024年6月18日 10:50

こんにちは！
CAMPFIREで情シス（コーポレートエンジニア）を務めております、いたがきと申します！

CAMPFIREのコーポレートITグループは毎年定期的に、全社員向けの情報セキュリティ教育研修を行っております。

例年通りだと研修ビデオ、研修資料（スライド）、理解度テスト、というよくありがちな3点セットを作成して対応していたのですが…
今年はちょっと趣向を変えてみよう、ということでバ美肉してみました。

バ美肉（バびにく）とは、バーチャル美少女受肉（バーチャルびしょうじょじゅにく）またはバーチャル美少女セルフ受肉（バーチャルびしょうじょセルフじゅにく）の略語 [1][2]。美少女のアバターを纏うこと[3]、あるいは、纏ったうえでサイバースペース（バーチャル空間）の美少女として、VRChat等のサイバースペースで活動したり[2][4]、バーチャルYouTuber、バーチャルアイドルなどとして活動することを指す[5]。

Wikipedia 「バ美肉」より

経緯

「唐突に何を言っているんだ？」と思われますよね。
私もそう思います。
一体どうしてこうなった。

某日某所（オンライン）

情シスチームの定例ミーティングで、情報セキュリティ研修の時期が来たので資料と動画を作ろう、という話題がでました。

常々みんなには情報セキュリティに対する意識を高めて欲しいな、と思っていたので、良いチャンスだと思った私は研修動画の作成に手を挙げました。
その際に先輩が「せっかくだしバーチャル美少女とかで講習したらどうです？」と仰ったのがきっかけです。

私の中でも、
「正直、おじさんがセキュリティの小難しい話をしているだけの動画を観ても眠くなっちゃうのでは？」
「少しでも目を引いて、動画を見てもらったら学習効果も多少上がるのでは？」
~~「趣味で作ってそのまま眠ってたモデルを使い回したらいいのでは？」~~
という思いがあり、先輩の一言がトリガーとなってやる気になった次第です。

こんな感じで、バ美肉研修動画作成タスクに正式なお仕事としてアサインされました。
こういった面白そうなことを「やろうぜ！」って応援してくれるのって、遊び心の溢れる良い会社だと思いますね。

準備編

今回バ美肉するにあたり、バ美肉先達情シスさんのnoteを非常に参考にさせていただきました。
準備から実行まで、半分以上がこちらの記事のトレースになります。

詳しいやり方などは上記の記事に非常に詳細に載っております。
（こちらの記事だけで、美少女に変身してWeb会議可能です）

以下、バ美肉にあたり準備したものをまとめます。

パソコンとWebカメラ

一般的なWebカメラのついたパソコンならなんでも良いです。
ツール類は一応WinでもMacでもいけるものばかり選んでますので、OSはWinないしMacOSであれば問題ないはずです。
ただ、3Dモデルを動かしたり、配信ツール使ったり、音声読み上げしたりするので、多少スペックは要求されます。

VRoid Studio

3Dモデルを作って、VRM形式でエクスポートします。
ゲームなどでキャラクリエイトが好きな人にとっては、とても慣れたインターフェースを備えたツールです。

Kalidoface 3D

フェイストラッキングができるWebツールです。
ブラウザで動くのでインストール不要なのが良いですね。

OBS Studio

配信、仮想カメラ、クロマキー合成などに使います。
配信といえばとりあえずOBS、と言われるくらいにはデファクトなツールだと勝手に思っています。

GIMP

3Dモデルの衣装テクスチャをカスタムする際に使用します。
これは別に必須ではないですが、3Dモデルの衣装などのテクスチャをカスタムしたい人はなんらかのレタッチツールかペイントツールが必要になります。
今回はCAMPFIREで従業員に配っている「CAMPFIREコーポレートロゴのTシャツ」を再現するために、Tシャツのテクスチャをカスタムする際に使用しました。

VOICEVOX

Text to Speechで研修動画の内容を喋ってもらうために使用します。
読み上げツール自体は無償利用可能なのですが、ボイスごとに利用条件があるので利用規約はしっかり確認しましょう。

iMovie / Clipchamp

動画編集に使います。
MacならiMovie / WinならClipchampですね。

ちょっと使うとわかるのですが、上記のツールはどちらも基本無料なツールなので、機能には一部制限があったりします。（個人的にはどちらもキャプションとトランジョン周りがとても力不足に感じました）
商用利用可能で強力な編集ツールを使いたい、となったらやっぱりこちらのDaVinci Resolveでしょうか。

実行編

3Dモデル作成

まずはVRoid Studioでモデルを作成します。

テクスチャのカスタムを行いたいので、テクスチャのエクスポートを行います。

エクスポートしたテクスチャをGIMPで開き、画像データを加工します。
今回はデフォルトのTシャツテクスチャにコーポレートロゴっぽいテキストを入れるだけなお手軽加工に留めました。

テクスチャの加工が終わったらPNG形式でエクスポートしなおし、再びVRoid Studioにインポートします。

これでカスタム衣装を着たモデルができました。

トラッキングと仮想カメラ

モデルの作成が完了したら、VRM形式でエクスポートします。

Kalidofaceを起動し、VRMファイルを読み込ませます。

2024.06.26追記：
一部環境なのかは不明ですが、MacマシンからVRMエクスポートする際、VRM1.0を選択するとKalidofaceでVRMファイルが認識されないという事象を観測しました。
VRM1.0で認識しない場合はVRM0.0でエクスポートしてみてください。認識できる場合があります。

OBSを起動し、Kalidofaceをスクリーンキャプチャするように設定します。

スライドショーと3Dモデルを重ねたい場合は、Kalidofaceの背景をグリーンにし、OBSでグリーンバックでクロマキー合成します。

Kalidofaceはブラウザなので、重ねるとウィンドウのUIが映っちゃいますが、表示画面の範囲をクロップすると良い感じに合成できます。
（WinならAlt、Macならoptキーを押しながら赤いドットをドラッグするとクロップできます）

ここまでの手順で、バ美肉状態でのスライドショーが実現可能です。

声も美少女にしよう

さて、美少女の外見をかぶる準備は出来ましたが、いかんせん中の人がおじさんなので、そのままだと喋りがおじさんなんですよね…。（当たり前）
勿論そういう、男性地声で見た目女性のVTuberさんも世にはいらっしゃいますし、私は違和感ないのですが…みんながそう思ってくれるかはまた別のお話かと思います。

というわけで、せっかくなので声も可愛くしましょう。

声を可愛くする方法は色々あります。
ボイチェンを使う、可愛い声で読み上げてもらう、声帯を鍛えて両声類(※)になる、などなど…。
※ ボイスチェンジャーを使わず異性の声も発することができる方の俗称

今回は録画配信ということなので、「読み上げツールで可愛い声で読み上げてもらう」方法を採用しました。

というわけで、AI読み上げツールであるVOICEVOXを使用します。
安定動作を期待するならCPUモードを選択しましょう。

ボイスによっては利用に制限があるため、事前に必ず確認しましょう。
今回は商用利用可能かつ教育目的で無償利用可能（クレジット表記が条件）のボイスを使用させていただきました。

あとはVOICEVOXに読み上げてもらうテキストを用意するのですが、手打ちしていたら日が暮れてしまいます。
また、3Dモデルでスライドショーの内容を解説している動画で撮影する必要があり、動画と音声の同期をどうしようか悩みました。

結果、今回は録画データからトランスクリプトしてテキストデータを起こす、という方法を採用しました。

ZoomやGoogle Meetなど、文字起こしに対応しているミーティングツールで録画しながらテキストデータを起こしていきます。

Google Meetの場合は、残念ながら文字起こしが日本語に対応していません。
ただし、同じGoogleWorkspaceファミリーであるGoogle Docsで機能を代替可能です。
Google Docsは音声入力として日本語をサポートしており、読み取り精度もそれなりにあります。
このため、Meetで録画する→録画したデータを再生する→Docsで音声入力をオンにしてマイクに聴かせる→文字起こしされる、というパワープレイが可能です。

…なんでしょう、ものすごく既視感が…。
テレビの音声をアナログカセットプレイヤーで録音しているような、ものすごく懐かしい感情を覚えますね。
親が部屋に入ってきて録音が台無しになるまでがワンセット。（世代がバレますね…）

唐突なノスタルジーはさておき、これでテキストデータができたので、テキストを整形していきます。
出来上がったテキストをそのまま読み込ませると、VOICEVOXで読み取るにはなかなかつらい文章になりますので、ツールが読み取りやすい形に内容やワードを整形していきます。

アルファベットはカタカナに直す
センテンスは長すぎないように区切る
正しく読み上げてくれない単語はひらがなにひらく

幸いにして、Karidofaceでトラッキングした状態だと、唇の動きがそんなにはっきりしない挙動になります。（喋ってても3Dモデルの口が開かなかったり、半開きだったりする）
つまり、動画に音声を当てる際にリップシンクなどを厳密に考慮しなくてよく、ある程度セリフをカットしたり改変したりする妥協編集前提の音声生成も可能になります。

整形が終わったテキストデータをVOICEVOXに読み込ませます。

実際に再生してみて、段落ごとに発音をチェックして、気になるところはイントネーションなどを調整していきます。

満足するまで調整したら、ボイスデータをWAV形式でエクスポートします。
あとはこれを動画編集ツールに読み込ませ、で音声を分割、動画に当てはめて編集していきます。

最終的に動画ファイルとしてエクスポートしたら、会社のストレージにアップして完了です！

お名前は「篝火優依」と命名しました。
（CAMPFIREをモチーフとした篝火、ホスピタリティ→優しい依頼対応→優依という感じで、チームで考えました）

おわりに

「情報セキュリティ」って聞いたら、皆さんどんなことを思い浮かべるでしょうか？
おっかない、むずかしそう、よくわからない…などなど、色々あるんじゃないかなーとは思います。

セキュリティの根っこにある考え方は至ってシンプルで、「安全に情報を取り扱って、安心できる働き方をしよう」ということだと思ってます。

交通安全なんかと同じように、危険なことをすると事故が起こって危ない、だから危険なことはしないでおこうね、ということを考えれば良いんですね。

そういった事を、なるべくみんなにわかりやすく、興味を持ってもらいたい、そんな思いから篝火さんは生まれました。
今後もセキュリティだけでなく、コーポレートITのいろんなシーンで活躍してくれるキャラクターになってくれたらいいなぁ、と思います。

…え？それは中の人の頑張り次第？
はい、頑張ります…！

いいなと思ったら応援しよう！

この記事が参加している募集

#リモートワークの日常

10,285件

#やってみた

39,988件