『「サイバーパンク2077」のようなリアルタイム翻訳システムはARグラス普及のキラーサービス。SFプロトタイピング発想』~【新しいweb3ビジネスのアイディアのタネ】2022.12.26
■「サイバーパンク2077」のようなリアルタイム翻訳システムをWhisperやDeepLを駆使して実現した猛者が現る
音声認識にWhisper、翻訳にDeepLなど「ありもの」を駆使して高度な同時通訳システムを構築した事例です。
最終的に音声に変換するのではなく、「サイバーパンク2077」に模して画面上に翻訳前の文字起こし+翻訳後のテキスト表示としています。
■これまでの同時通訳会議システムと何が違うのか?
ここまでなら過去にもZoomでもできました。
UX的に今回新しいのは、話者を顔認識で識別して表示をわけられることと、同時に複数言語の翻訳ができることです。
これまでは字幕の枠が1か所しかなく、また英語→日本語など1言語に固定することが必要でした。
こちらに実際の利用例の動画がありますが、顔認識して話者ごとに字幕の色を変えて表示できています。
これが「ありもの」の組み合わせで実現できているのが凄い。
お互いにポケトークやUDトークを使うなど、特定メーカーの提供サービスに寄せるなら近いことが実現できますが、自分側だけセッティングすれば自分には複数話者ごとに翻訳されるというのは不特定の人と話す環境では必須要件です。
■ARグラスで通訳同行の海外旅行体験も?
ARグラスと組み合わせれば、目の前にいる人が何語でしゃべっていても翻訳字幕を空間上に表示させることができそうです。そうなるとまるで通訳が同行した海外旅行の体験のようです。
会話するには双方がAR同時翻訳システムを使う必要がありますが、そもそもこの同時翻訳というニーズがARグラスの普及を加速させる起爆剤になるのだろうと見ています。
スマホやポケトークなどでも同時通訳は可能ですが、ボタンを押したりマイクをかざすなど不自然なUXがないARグラスを通じた自動翻訳の方が会話には適しています。
声による会話だけでなく、街中の看板や駅構内の掲示、商品ラベルの文字も画像認識→翻訳が今でも可能です。
これもスマホをかざすよりARグラスで見たそばから翻訳されていく方が自然です。
ARグラスによる同時翻訳が普及すれば日本語というマイナー言語のビハインドがかなり解消できるはずです。
■SFやゲームから着想を得たりSF的に考えるSFプロトタイピング
今回エランコウスキ氏が開発したリアルタイム翻訳システムは「サイバーパンク2077」というゲームから着想を得ています。
またそもそもSF作品のような設定を考える方法で全く新しいサービスを発明的に企画するメソッドとして「SFプロトタイピング」という考え方があります。
私自身も先日ラジオでSFプロトタイピングが紹介されているのを聞いて興味を持ち始めたばかりでこれからきちんと学んでいこうと思っている段階です。
すでに公開済みのSF作品をモチーフにすることかと思っていましたがそうではありませんでした。正しくは全く新しいサービスを逆算的に発明できる手法のようで興味津々です。
web3サービスやNFTのユースケースなどを考える手順が知らず知らずのうちにSFプロトタイピング的になっていたのだろうと思っています。年末年始の休暇中に集中的にインプットしたいと思います。