【2019年5月】旅行用翻訳の定番に? 外国語看板を即座に翻訳、読み上げるGoogle Go発表

ディープラーニングの得意分野である、自然言語処理と画像認識処理を組み合わせた、想像できる最高のものが形になったのではないでしょうか。

ディープラーニングによる自動翻訳の急速な発達の裏側には
は、自然言語処理における2018年の2大トピックとして注目された、新たな二つの手法による自然言語処理「ELMO」と「BERT」が記憶に新しいと思います。

一つ目の「ELMO」
この手法により、「雨」と「飴」や同じ文字列だが意味が異なる言葉を翻訳する際、文脈から判断して適切な意味を選択することが出来るようになりました。

二つ目は「BERT」
この手法では、自然言語処理タスクを教師データなしで、かつ双方向に事前学習することが出来るようになった。これにより、WEB上にある莫大な量のテキストデータが利用可能になりました。

上記二つのトピックにより、テキストデータを取得できれば高精度の翻訳が可能になっています。
問題は日常生活において、視覚情報をテキストデータ化する作業。

しかしこれも2018年画像認識処理におけるトピックで、Alphabet傘下のAI企業DeepMindが
視認できる情報から目で見えない部分を推測する「GenerativeQueryNetwork(GQN)」を開発しています。

GQNは複数の視点の画像だけから、対象の三次元世界を符号化し異なる視点からの視界を復元する事ができます。空間モデルを潜在変数とする潜在モデルで最適化します。Structure from MotionをNNで直接解いたものであり、この1~2年内の最大の進歩と言われています。

3次元的に空間を認知することで、看板などの見える部分だけを認識するのではなく、見えない部分も含めて構造物として認識出来れば、看板の文字表記をテキストデータ化する際の精度は格段に上がるのではないかと思います。
(現段階でここまでの事をやっているかは不明です)

本記事にある、翻訳後のテキスト表示まで数秒というスピードを考えると、看板の文字を単純に認識しているだけに思いますが、グーグルが開発している点を考えると今後さらに精度が良くなる事が予想されます。

ウェアラブル端末での実用化に大いに期待します。

この記事が気に入ったらサポートをしてみませんか?