最強機械翻訳決定戦2020・米国大統領選連動企画!
最近、フェイスブック(FB)が「英語を介さない機械翻訳始めたで!」ってアナウンスをしてはった。
https://www.afpbb.com/articles/-/3310782
そこで、その実力の程を確かめつつ、久々に色んな機械翻訳の実力を試させてもらうことにした。
あんまり本格的にしてまうと、えらい長い記事になってまうから、今回は、英語→日本語の精度を確認していく。
原文として、タイムリーな米国大統領選挙にちなんだものを選んだ。ちょっと大統領選挙の勉強も出来るようにww
その原文は、ずばり、オバマ元大統領が10月30日にポストしたFBの投稿や。箇条書き的で人間には分かりやすいし、さすが心を捉える文章やけども、この箇条書き的な表現ゆうのが機械翻訳からすると結構むつかしくて、かつ現代のアメリカ社会の文脈を捉えてへんと訳しきれへんところもあるから、今回のテストにはもってこいやった。
テストするのは、FB翻訳、DeepL、Google翻訳、Microsoft翻訳、みらい翻訳の5つや。みらい翻訳は「TOEIC950点級」ちゅうなんとも微妙な能力アピールをしてるメイドインジャパンの機械翻訳や。
まあ、結論からゆうたら、DeepLの一択やねんけども、この記事読んだらDeepL他、それぞれの機械翻訳の実用性についてだいたい感覚がつかめるようになっとるから、最後まで見てやー。
まずは、原文見ていこうか。
Barack Obama Dad, husband, former President, citizen. 2020/10/30
まずは、これ。英語がよく分からへん、モマエはここスルーして平気やでw
ま、読んでもよく分からへんやろ。ええねんん。ええねん。
そこで、トド奈津子先生のご登場や。
トド奈津子先生謹製翻訳(11/2誤訳修整済)
トド奈津子先生は、この原文を翻訳するのに、推敲も含めて12分くらいかかったそうや。オバマ元大統領の口調っぽくしたかったんやって。いや、オバマはん、日本語喋られへんのやけどもwww
これを一旦、日本語の正解としたら、あとの機械翻訳のレベルはどんなもんなのか、読者のみんなが自分で判断できるようになるやろ。
1月20日は、大統領の就任日。swear in は「宣誓させて就任させる」ちゅう意味やね(「swear」と混同したトド奈津子先生の誤訳のご指摘おおきに!この訳が正解や。トド奈津子先生もたまに間違えるwww)。
今回、最大の翻訳ポイントとなっとるのは、
vote up and down the ticket like never before
ちゅう、後半の一文。
直訳したら、「かつてないように(Never before)、チケットの上と下に投票しなさい」やねんけど、これやと意味分からへんやろ。
「かつてないように」ゆうのは、ずばり投票率やね。とにかく投票してほしいねん。オバマはんとしては。
トランプの支持基盤は固定的で、浮動票の獲得に難があんねん。しやから、選挙で投票する人間が多ければ多いほど、それがバイデン支持やろうと、消去法の反トランプ票やろうと、バイデンが有利になる。
逆に、投票率が低いとトランプに有利やねん。
今回、トランプ政権を倒すために、史上最高の投票率を目指そう、ってオバマはんはゆうてはるのは、そうゆう訳や。
ちなみに、もう一個、今回かなり大きなインパクトがあるのが、副大統領候補のカマラ・ハリスはんやねん。バイデンはんが勝つと、史上初の黒人女性副大統領になる。そして、もし、バイデンはんが任期中に倒れることがあれば、状況によっては史上初の女性大統領(代行)が誕生する。
いずれにしても次の大統領選挙では、カマラ・ハリスが民主党の大統領候補筆頭やゆう話やねんけども。
で、次の「チケットの上と下に投票」ゆうのは何か。これは、チケットゆうのは投票用紙で、上と下ちゅうのは大統領と連邦議会改選のことや。
ちょっと解説しとく。
あのな、大統領選で選ばれるのは、大統領だけちゃうねん。大統領の他に、上院議員、下院議員も選ばれる(副大統領は大統領とセットやから直接選挙でえらばることはない)。
上院、下院ってなんやゆう話やけど、アメリカの政治は、大統領&副大統領、上院議会、下院議会(あわせて連邦議会)の3つの独立した構成要素で成り立っとるって覚えておいたらええで。参議院、衆議院みたいなもんやね。
今回の大統領選では、上院33人と下院435人が選ばれる。上院議員の任期は6年、100人おる議員の3分の1が2年ごとに改選やから、改選対象は33人。下院議員任期は2年やから、改選対象は435人全員やねん。
で、投票用紙の一番上が、大統領。その下が上院、下院議員投票。つまり、これが「チケットの上と下」ちゅうことやね。
もちろん、バイデン候補も、オバマ元大統領も民主党やから、理想的には上院の多数と下院の多数を民主党でとりたいゆうことになるわけや(そっちの方が成立できる法案数が格段に増えるからな)。
ってゆうのが、この
vote up and down the ticket like never before
に込められとるんや。
な、この一文、英語だけさらっても、絶対に「今までにない大統領、下院上院の投票をすれば」なんて出てきいひんやろ。このあたりが、機械翻訳の最先端の課題やねん。
さて、そんなことを踏まえながら、どの程度、機械翻訳がトド奈津子先生に迫る翻訳ができとるのかみてみようやないか。
見せてもらおうか、機械翻訳の実力とやらを!!!(ゆうてみたかった。ガンダムみたことないんやけどwww)
FB翻訳
最初は、今回の記事のきっかけになったフェイスブック翻訳や!
うん。まあ、大統領選挙のことを語っとる、ってことまでは分かったな。トド奈津子先生のレベルに到達するには、ここからはまだあと1万歩くらいありそうやけど、FBのことやから、その1万歩には1年かからへんかもしれへん。DeepL買収することにしたら、1年かからへんかもやしw
Google翻訳
続いて、Google翻訳。つい先日まで機械翻訳の筆頭やった。いまだに、多言語ゆうところでは、最強機械翻訳ゆうても過言やない。ちょっと見てみようか。
まあ、トド奈津子先生の訳に比べると、だいぶ直訳っぽいし、チケットを上下に投票とかも意味わからへんけども、なんとなく、原文が何いいたいのかは分かるレベルやね。FBよりは、だいぶマシやんな。
MS翻訳
続いて、Microsoftの機械翻訳や。
意外とGoogleとええ勝負やね。以前よりだいぶ、進化してる気がする。
DeepL翻訳
来た!でた!ワイ、一押し、現在最強機械翻訳。見る前から勝利は分かっとるんやけど、興味あるのは、どこまでトド奈津子先生の翻訳に迫っとるかやね。
うーーーん。正味な話、期待を下回った翻訳やね。最後の方は句読点も怪しいし。Vote up and downも訳さずに回避しとる。まあ、このあたりが、うまいところやねんけども。日本語としては、文体の一貫性もあって一番自然やし、訳の精度もまあ、一番上なんやけど、ちょっと期待の水準には到達してへんかった。
関係代名詞が箇条書き形式で連続して使われる、ちょっと詩的な表現のところが、まだ機械翻訳には早かったんやろうな。
みらい翻訳
国産(NTTドコモ)の機械翻訳。TOEIC950点相当なんやってさ。ま、ワイからしたら、TOEIC950点なんて大したベンチマークにならへんのやけど、まあ、みてみよか。
訳の精度は、まあ、こんなもんやろね。他の機械翻訳とあまり変わらへんのは大健闘ゆうところかな。日本発の機械翻訳やから、日本語の自然さや、文体の一貫性は欲しかったけども。
結論
ま、今回は、原文が難しすぎたかもしれへんwww
1位は、DeepLかな。強いてゆうたら。
もう少し普通の文章やったら、それぞれ今回よりはええ結果になったはず。
少なくともDeepLは、ビジネス文書やったらもうほとんどそのままで「まあ、ええか」って感じにはなる。TOEIC860点のやつが訳した文章と同じくらいのクオリティはあると思う。
あとな、トド奈津子先生が12分(720秒)かかった翻訳を今回の機械翻訳は10秒程度で訳しとる。これは、とにかくめっちゃ大事な事実や。特に文章量が多くなったとき、このスピードは絶対に正義やねん。
別の記事で予言した通り、いずれ、機械翻訳は人間の翻訳家の在り方をかえてまうやろう。2020年10月31日時点における人間の翻訳家との実力差は上に見た通り。しやけど、この差は半年後、1年後にはずっと縮まっとるに違いない。
「機械翻訳は文脈が捉えられへん」ちゅう指摘が時々あるし、事実今回もまあ、分かってへんのやけど、これについても、近い将来、問題なくなる日が来ることは確実や。
ワイからして、すでにどうやれば機械翻訳に文脈を載せられるかちゅう、技術的な道筋は見えとるくらいやから。
そういう日がいつくるのか、まだ分からへんけども、時々、今回みたいに制度の検証はしていこうと思う。
どんな言語の文章も、機械翻訳で読めるようになる時代、早く来てほしいもんやなー。楽しみでしゃーないわー!
この記事が気に入ったらサポートをしてみませんか?