『「サイバーパンク2077」のようなリアルタイム翻訳システムはARグラス普及のキラーサービス。SFプロトタイピング発想』～【新しいweb3ビジネスのアイディアのタネ】2022.12.26

2022年12月26日 10:42

■「サイバーパンク2077」のようなリアルタイム翻訳システムをWhisperやDeepLを駆使して実現した猛者が現る

「サイバーパンク2077」をプレイしたというエンジニアのマルチン・エランコウスキ氏が、同作で登場するリアルタイム翻訳システムのような「話者の上にリアルタイムで会話内容が表示され翻訳まで行ってくれる翻訳システム」の開発に取り組んでいます。

音声認識にWhisper、翻訳にDeepLなど「ありもの」を駆使して高度な同時通訳システムを構築した事例です。

最終的に音声に変換するのではなく、「サイバーパンク2077」に模して画面上に翻訳前の文字起こし＋翻訳後のテキスト表示としています。

■これまでの同時通訳会議システムと何が違うのか？

ここまでなら過去にもZoomでもできました。

UX的に今回新しいのは、話者を顔認識で識別して表示をわけられることと、同時に複数言語の翻訳ができることです。

これまでは字幕の枠が1か所しかなく、また英語→日本語など1言語に固定することが必要でした。

こちらに実際の利用例の動画がありますが、顔認識して話者ごとに字幕の色を変えて表示できています。

エランコウスキ氏はリアルタイム翻訳システムを開発するために以下のツールを使用しています。

・動画ファイルを処理するためにffmpeg-python(オーディオの抽出およびローフレームのストリーミングなど)
・音声認識用にWhisper
・話者ダイアライゼーションとしてNVIDIAのNeMo(注：PyAnnoteもテストしたものの結果は満足のいくものではなかったとのこと)
・翻訳のためにDeepL
・顔検出用にRetinaFace
・顔識別用にDeepFace
・一意に顔を検出するためのscikit-learn(クラスタリングに使用)
・デモ用フロントエンドのGradio
・サーバーレス展開用のModal

動画のフレームに話者の会話内容を文字起こしするためにPython Imaging LibraryとOpenCVを利用。さらに、YouTubeからサンプルをダウンロードするためのツールとしてyt-dlpも使用しています。

これが「ありもの」の組み合わせで実現できているのが凄い。

翻訳された字幕が表示されるのは、ポケトーク字幕をインストールしている人の映像のみだ。Web会議のほかの参加者の発言は翻訳できない。そのため、自分と相手側の双方にポケトーク字幕をインストールすると、お互いの発言が翻訳され字幕で表示される。

お互いにポケトークやUDトークを使うなど、特定メーカーの提供サービスに寄せるなら近いことが実現できますが、自分側だけセッティングすれば自分には複数話者ごとに翻訳されるというのは不特定の人と話す環境では必須要件です。

■ARグラスで通訳同行の海外旅行体験も？

ARグラスと組み合わせれば、目の前にいる人が何語でしゃべっていても翻訳字幕を空間上に表示させることができそうです。そうなるとまるで通訳が同行した海外旅行の体験のようです。

会話するには双方がAR同時翻訳システムを使う必要がありますが、そもそもこの同時翻訳というニーズがARグラスの普及を加速させる起爆剤になるのだろうと見ています。

スマホやポケトークなどでも同時通訳は可能ですが、ボタンを押したりマイクをかざすなど不自然なUXがないARグラスを通じた自動翻訳の方が会話には適しています。

声による会話だけでなく、街中の看板や駅構内の掲示、商品ラベルの文字も画像認識→翻訳が今でも可能です。

これもスマホをかざすよりARグラスで見たそばから翻訳されていく方が自然です。

ARグラスによる同時翻訳が普及すれば日本語というマイナー言語のビハインドがかなり解消できるはずです。

■SFやゲームから着想を得たりSF的に考えるSFプロトタイピング

今回エランコウスキ氏が開発したリアルタイム翻訳システムは「サイバーパンク2077」というゲームから着想を得ています。

またそもそもSF作品のような設定を考える方法で全く新しいサービスを発明的に企画するメソッドとして「SFプロトタイピング」という考え方があります。

私自身も先日ラジオでSFプロトタイピングが紹介されているのを聞いて興味を持ち始めたばかりでこれからきちんと学んでいこうと思っている段階です。

すでに公開済みのSF作品をモチーフにすることかと思っていましたがそうではありませんでした。正しくは全く新しいサービスを逆算的に発明できる手法のようで興味津々です。

web3サービスやNFTのユースケースなどを考える手順が知らず知らずのうちにSFプロトタイピング的になっていたのだろうと思っています。年末年始の休暇中に集中的にインプットしたいと思います。