機械翻訳の精度を発揮させるためのコツ

自分用のメモ。

機械翻訳の本来の精度を得るにはコツが必要

機械翻訳の歴史

機械翻訳の精度が近年飛躍的に高まりました。Webベースでの機械翻訳の歴史を少し調べてみました。

2000年 エキサイト翻訳(アルゴリズム:SMT(?))
    精度は、、、?

2006年 Google翻訳(アルゴリズム:SMT)
     精度はそれなり。まだ日英翻訳はベータ版でした)

2012年 ILSVRC2012でヒントンらが圧勝しディープラーニング革命
(この後は、画像認識アルゴリズムがSVM→ディープラーニングへ)

2014年 ニューラル機械翻訳(NMT)が提案される

20016年 Google翻訳(アルゴリズム:Googleニューラル機械翻訳)
     精度が飛躍的に向上。機械翻訳業界に革命が起こる

2020年 DeepL翻訳(アルゴリズム:ディープラーニング + α )
      精度がさらに向上し、より自然な翻訳結果

Google先生

昔は、機械翻訳は実用には耐えられない精度でしたが近年の翻訳精度は目覚ましく実用に耐え得るものになりました。

DeepLやGoogle翻訳の精度をTOEIC900〜960点程度と仮定します。
最新のTOEICスコア分布によると900点以上の人は、3.9%のようですので日本人の大部分はDeepLやGoogle翻訳を使った方が精度の良い翻訳が出来ることになります(かなり乱暴な結論ですが)。でも、この結論に違和感がありますね。全く意味不明な翻訳になるので、そのままでは使えないと感じる事が多いと思います。その感覚は正しくて、そのまま翻訳をしなければ900〜960点レベルの翻訳が出来るようです。

機械翻訳のコツ

機械翻訳の本来の実力を発揮させるにはコツが要るようです。文章をそのまま翻訳したのでは意味不明な翻訳になるのは当然で、プロの翻訳家は以下の2〜4の翻訳工程で精度を向上させるようです(翻訳エンジンの本来の実力+αを発揮)。1は、個人的に追加しました。

  1. データクリーニング

  2. プリエディット

  3. 機械翻訳

  4. ポストエディット

このような工程は意識せずともビジネスで機械翻訳を使う際は、何気なく実施している方も多いと思います。でも、時間が掛かってしまうので精度はイマイチでもそのままにしてしまう事も多いと思います。

結局、精度がイマイチなのでこちらの意図が伝わらなくて何度もやり取りをするというムダな労力が掛かることもしばしば。

それぞれの工程を主観を多分に入れて私なりの理解でもう少し補足します。

データクリーニング

文章は、見栄えのために改行や空白などを含んでいる場合があります。改行や空白をそのままにして翻訳をかけると、機械翻訳が改行や空白などで文が終了したと判断する場合もあります。このため、見栄えのための無駄な空白や改行を消去する必要があります。

また、OCRで読み取ったデータを翻訳にかける事もあるかと思います。OCRの精度もディープラーニングで飛躍的に高まりましたが、完璧ではないのでOCR間違えなどをリタイプする事も必要です。

プリエディット(文章の書き換え)

日本人でも理解が難しい文章は、機械翻訳にとっても難しいので以下のような事に注意して文章を書き換えます。大前提として、一般的な日本語は難しいと認識して難しい日本語を分かりやすい日本語に変換します。

・一文を出来る限り短くする。
・主語、目的語を明確にする(日本人は主語を抜く事が多いです)。
・動詞を意識する(動詞のない英文は無い
・時系列に沿った表現にする。
・慣用表現や比喩は使わない(日本語を覚えたての外国の方に使わないですよね?)
・指示文は、「〜しなさい」と明記する。

3番目は、林 功氏がTOEFL文法対策書籍で提唱されたパワフルコードの一つから取りました。本当にお世話になった書籍です。

機械翻訳

今のところDeepLが最も精度が高いと思われますので、DeepL翻訳を使って翻訳を実施します。もしかしたら、数年後にはDeepLを凌駕する翻訳エンジンが登場しているかもしれませんので、その時で最高精度のものを選定しましょう。

ポストエディット

機械翻訳結果を見直します。日本人が分からない日本語は、機械翻訳もわからないという大前提があります。ですので、固有名詞、社内用語、専門用語はここで修正します。DeepLに社内用語を翻訳してくれと言っても、それは無理というものです。以下のようなポイントをポストエディットで修正して仕上げます。

・固有名詞、社内用語、専門用語
・数字、単位、日付、誤記
・翻訳抜け

以上の工程を意識すると機械翻訳の本来の精度を発揮出来ると思います。
日常的なコミュニケーションや技術資料くらいまでならば対応できそうです。

クリエイティブな要素のあるブランディング文章や法務に関わるところは、機械翻訳ではなく専門家に頼った方が良いかもしれません。

逆翻訳でプレエディットとポストエディットを効率化

プリエディットやポストエディットはそれなりに時間がかかります。どのようにプリ&ポストエディットすれば良いのか、どこまでやれば伝わるのか?というのを知るためにも逆翻訳が便利です。

逆翻訳はその名の通りで翻訳した文書を再度翻訳します。日→英翻訳した文書がちゃんと意味が通るのかどうかを評価出来ますので、どこが誤訳されているのかが分かります。誤訳されている箇所を重点的にプリエディットすれば、翻訳精度も高まりますしポストエディットの手間も減らすことが出来ます。

また、ポストエディットの前のデータクリーニングについては、人手でやるのではなく改行コードを置換などで一括削除する事も出来ます。




この記事が気に入ったらサポートをしてみませんか?