最強機械翻訳決定戦2023 ~君たちはどう訳すか~
英語→日本語の機械翻訳サービスを横断的に評価した『最強機械翻訳決定戦2020・米国大統領選連動企画』の執筆から、早3年。
テックジャイアントを向こうにまわし、激戦を制したのは、ドイツ発のベンチャー企業が開発したDeepLだった。
そして今。その当時よりもさらに機械翻訳は身近になり、性能も大きく進化した。その精度の向上を誰もが感じていることだろう。
実際のところ、英文→日本語の機械翻訳はどこまで進化したんやろうか。
ちゅう訳で、Noteアクセス数No.1翻訳家(自社調べ。ただし翻訳以外の記事を含むwww)のトド奈津子先生が、3年ぶりに機械翻訳サービス達の実力をマルっと判定する、NOTE記事機械翻訳サービス最大トーナメント開催や!!!
最大トーナメント開幕ッ!
選手入場!
課題英文
確認するための英文は、2020年の時と同じものを使う。2020年10月30日のオバマ元大統領のFaceboookへの投稿や。
前の記事でも書いたけど、これは大統領選挙に関する知識が必要やったり、文章が一部、箇条書き的になっていたりと、訳すのがかなり難しい部類の英文になっとる。事実、2020年の検証時には、合格とゆえるような翻訳はひとつもなかった。
評価の視点
詳細な解説は、前の記事に委ねるとして、ここでは、まずトド奈津子先生謹製の翻訳を参考例として提示した上で、評価のポイントを3つ提示したい。
こちらが、トド奈津子先生の翻訳や。まあ、多少手を入れたいところはあるものの、こんなもんやろ、ということで2020年版そのままで掲載する。
主な評価ポイントは3つある。
we swear in a President:典型的な誤訳は「我々が大統領に宣誓する」。正しくは「大統領が宣誓する/就任する」。この誤訳はトド奈津子先生も最初にやってしまったから、まあ、レベルが高いw
vote up and down the ticket:正しい意味は「(投票用紙で)大統領・上院・下院選挙すべてに投票する」。実は大統領選挙の投票用紙は大統領・上院議員・下院議員すべての選挙がまとまっている。最初のページの大統領分しか投票しない国民が多い。全部のページに投票することをvote up and down the ticketと表現する。
全体の自然さ。文体の統一や主旨の一貫性
さっそくそれでは早速、試合開始や!!
試合開始ッッッ!
第1試合 みらい翻訳 vs FB翻訳
さて、まずは国産最強・みらい翻訳から見ていこうか。
ポイント1「大統領を宣誓する」→ ✕
ポイント2「チケットを上下に投票すれば」→✕
ポイント3 文体がバラバラ。文章も残念ながら非常に読みにくい→✕
正味な話、ちょっと残念や。せめて日本語の文体の一貫性は保って欲しかった。国産なんやから。
続いて、SNSで使うことを前提に作られたFacebook翻訳を見てみよう。
ポイント1「大統領に宣誓する」→ ✕
ポイント2「チケットの上下投票すれば」→✕
ポイント3 最後「疑いの余地を残す」では意味が正反対。文体は一貫性がある→✕
何について話しとるかは、どっちも明確やから、そういった意味では、もうすでに基本的な翻訳としてのレベルは超えているといえるんやないか。
ただ、この2つ比べたとき、どっちがええんやろうな。難しいところやなー。まあ、しいて言えば、FB翻訳の方が全体の読みやすさはあるか、という感じやね。最後の1文の誤訳は致命的なんやけども。
まあ、ほとんど引き分けやね。
もうひとつ、この3年の機械翻訳としての進歩とゆう観点で見ると、みらい翻訳の進化は、わずかとしかゆわれへん。FB翻訳は、かなり大幅な進化を遂げている。そういった観点からゆうとFB翻訳に軍配をあげたい。
試合結果 みらい翻訳(Loss)(判定:1‐2)FB翻訳(Win)
第2試合 DeepL vs Google翻訳
さて、続いて前回チャンピオンDeepLを見ていくで。登場と同時に全世界を驚愕させた翻訳サービス。3年前は最強だった機械翻訳サービス。DeepLの限界=その時代における機械翻訳技術の限界という感じやった。
それから3年どうなったか。
ポイント1「大統領に宣誓する」→ ✕
ポイント2 記載なし→△
ポイント3 よく分からんところを丸ごと削るスタイルが、間違うよりはマシやけど減点ポイント。文体の一貫性はある→△
DeepLの「分からないところ(訳に自信がないところ)は、とりあえず削る」スタイルは、文章全体の主旨を理解するという観点からは有効だが、なにが抜けているか判定できる英語力がないと、使いこなせない感はある。
これは完全に推測だが、おそらく英語とラテン語系などの言語の間であれば、「訳が分からなくて削る」頻度は遥かに低いのではないか。
次にGoogle翻訳や。DeepL登場前の絶対王者。Google翻訳に助けられた奴は、いっぱいおったはず。その最新の地点を見ていこう。
ポイント1「大統領を宣誓する」→ ✕
ポイント2 記載なし→△
ポイント3 文体の一貫性はある。「vote up and down the ticket」は訳せてへんくて、さりげなく飛ばしとるところが、減点ポイント→△
Google翻訳も、分からんところは飛ばしとるね。
間違った訳をするのと、訳さない(削る)のはどっちがマシなのか、ちゅうのは議論が分かれるところやけど、使い勝手からゆうたら、間違った訳をするくらいなら削る方がマシやと思う。
正味な話、DeepLとGoogle翻訳もほとんど互角やね。両者ともに2020年に比べるとずっと自然な文章になっとることは評価に値する。前の記事と比較するとその進化は一目瞭然や。
DeepLは、適切に句読点が打てなかったんやけど、自然な句読点が打てるようになっとる。
まあ、しいてゆうたら、Google翻訳かな。訳せたところが多いちゅう意味で。でも、ほとんど差はない。人によって判定の変わる超僅差の判定やね。
試合結果 DeepL(Loss)(判定:1‐2)Google翻訳(Win)
第3試合 MS翻訳 vs ChatGPT
さて、最後の試合は、MS翻訳とChatGPTの対決や。
MS翻訳から見てこうか。2016年に見たマイクロソフト社のAI、Cortanaの翻訳デモには、ド胆を抜かれた。その後、Google翻訳が、そのMS翻訳を高速で抜き去っていき、さらにそれをDeepLが抜き去り、機械翻訳は群雄割拠の戦国時代に突入した感があった。
そんなマイクロソフトの機械翻訳の最新版はどんな翻訳を見せてくれるんやろうか。
ポイント1「大統領を誓う」→ ✕
ポイント2 「チケットを上下に投票」→✕
ポイント3 文体の一貫性はある。言葉使いも自然→〇
文体が自然やね。日本人で、ここまでの訳が出せる人間はほとんどいないんやないか。英語力、日本語力の両面で。訳の完成度からすると、今までの5つの中で一番高い。
2020年から派手な進化はないものの、地味にDeepLやGoogle翻訳に追いついとった。
同時にこれまでの5つの機械翻訳がいずれも、ポイント1、2をクリアできひんことも明らかになった。この2つが、いかに難しいハードルなのかが浮き彫りになった形や。
さて、最後はChatGPT。
22年11月に登場し、世界を変えたとゆうても過言やない。しかも、ものすごい勢いでバージョンアップをしとるのも、特筆すべきポイントや。つい数ヶ月前のChatGPTは、間違いなくDeepLに劣後しとった。
今日は、最新版のChatGPT(GPT4.0, Sep. 25 version)を使って、その実力を評価していくで。まずは、「訳して」とだけ言って訳したものをみてみよか。
ポイント1「大統領が就任する」→ 〇
ポイント2 「チケット全体に投票」→〇
ポイント3 文体の一貫性はある。言葉使いも自然→◎
正味な話、文句のつけようあらへん。訳も正確な上に、文章も巧い。
さらに、「これはオバマ元大統領が、バイデン大統領候補を応援するためにSNSに投稿した文章で、日本人が理解できるように配慮した翻訳をして欲しい」というコンテクスト(文脈)をプロンプトで与えた翻訳が、次のバージョンや。
ここまで来ると、もう完全にプロの仕事やないか。日本語としての表現も洗練されとる。
冒頭では、「大統領、ジョー・バイデン」としとって、原文にはない名前を補完するちゅう、日本人に向けた粋な翻訳をぶちかましてきた。
上院下院ではなく、地方の候補者というような訳をしているのも巧み。
実は「vote up and down the ticket」について、ChatGPTは非常に厳密に理解しとることも、このあと確認している。その上で、トド奈津子先生のように「上院・下院」とせず、大統領と地方の候補者とした。おそらくは米国の議会に対する理解がほとんどない日本人に向けた翻訳として、その方が適切という判断が行われとる。
ポイント1「大統領、ジョー・バイデンが就任する」→ ◎
ポイント2 「チケット全体に投票」→◎
ポイント3 オバマ元大統領の投稿として違和感のない文体→◎
もはや、普通の文章で、コンテクストを与えれば、トド奈津子先生に匹敵するか、凌駕するレベルに到達しとるといえるやろう。
試合結果 MS翻訳(Loss)(1R 7秒 KO)ChatGPT(Win)
試合終了!
総合優勝
という訳で、もう改めて書くまでもない。
トド奈津子 「優勝は、ChatGPTや~!!!」
ChatGPTは、機械翻訳界における範馬勇次郎の域に到達しとる感がある。
あえて、順位をつければ、こんな感じやね。
優勝:ChatGPT
ーーーーーーーーーーーーー
第2位:Google翻訳、MS翻訳
第4位:DeepL
ーーーーーーーーーーーーー
第5位:FB翻訳
第6位:みらい翻訳
どれも3年前から見ると格段に進化しとるのは、驚きの一言。
2~4位のGoogle翻訳、MS翻訳、DeepLは、ほぼ横一線で、ほとんど差がない。
そんな中、初登場1位のChatGPTが、ぶっちぎりで飛び抜けていることが分かった。
しかし、1位と2位の差以上の差が、4位と5位の間には存在する。
それでも5位のFB翻訳は、他言語で書かれたFBの投稿をワンクリックで自身の言語で読んで、雰囲気をつかめるという絶大なメリットがある点は、間違いなく、評価できる。
みらい翻訳は、正味な話、精度面ではかなり厳しいのやないかと思うけど、ビジネス面からすれば少なくとも国内では全然ええ勝負になる可能性はあるはず。
さて、1位とそれ以外の差は、実は翻訳能力の差だけで生まれたものではない。むしろ、コンテクストの差から生まれたと言った方がいい。
2020年の記事でコンテクストについて言及し、そのコンテクストを取り入れた機械翻訳の登場を予言したけども、それがまさにChatGPTということになる。
ChatGPTとそれ以外の差
翻訳は、単なる言語学的な知識や理解だけでなく、膨大な知識およびコンテクストと表現力を必要とする。文芸作品になると猶更や。
既存の機械翻訳システムは、英文とそれを翻訳した日本語文の対応を学習データとした機械学習によって開発されとる。たとえば「I am a boy」という英文に対して、「私は少年です」「ぼくは男の子だよ」といった翻訳された日本語文をセットとして学習しているといえば、イメージが湧きやすいかもしれへん。文法ではなく、あくまでも文同士の組み合わせを学習させとるのがミソや。これは原則文法をベースとして、英文を日本語文に変換するルールを作り、そのルール則り翻訳をしとった翻訳ソフトウェアに革命的な進歩をもたらした。
一方、今回優勝したChatGPTはどうか。
もちろん、英文と日本語文の対応も学習しとるんやろうけど、学習対象の範囲はそれに限らない。地球上のあらゆうテキストを学習しとるし、文脈/コンテクストを捉える量とゆうてもええ学習パラメーター数は天文学的な数になっとる。
つまり、ChatGPTは翻訳以外のことをむちゃくそ知っとるし、文脈を捉える力も桁違いなんや。
もはやいわゆる翻訳サービスが、ChatGPTやそれに類するAIに追いつくことは極めて困難やないか。
「AI翻訳とは違って、人間の翻訳家はコンテクストが把握出来る」とゆうのも、ChatGPTの出現によってあっさりと覆されてもうた。
しかも、繰り返しになるが、真に恐るべきは、ChatGPTをはじめとする機械翻訳の進化速度や。
ChatGPTもつい数ヵ月前まではDeepLよりも精度が低かった。そこから高々、数ヵ月でとてつもない進化を遂げとる。次の数ヵ月では、さらに進化しとるやろう。人間では、絶対にこうはいかへん。
さらに、実は今回の評価を通じて、今後の機械翻訳の姿も見えてきた。
まとめ。機械翻訳と翻訳家の未来
ChatGPTの進化
すでにChatGPTは、マルチモーダル(テキストや数値データだけでなく、画像、動画、音声など様々なデータの複合)の学習を始めている。
つまり今後(どんなに長く見積もっても2年以内に)、文書以外の情報やコンテクストも、翻訳に反映されるようになる。
これにより、ChatGPTの翻訳精度は、さらに今(23年10月時点)よりも遥かに高くなるはずだ。
一般的な意味での翻訳は、もはや人間の手から完全に離れるやろう。
機械翻訳と人間の翻訳家の間に、最後に残るわずかな差は身体感覚に根差した表現や解釈になる。
しやけども、それも今から10年以内に人間の感覚(五感から生まれる心情など)に関するデータもそのコンテクストに含まれるようになるはずや。もしかすると10年などという時間はかからず、5年以内にその時は訪れるかもしれない。
そうなれば、翻訳は完全に人間の手を離れることになる。
翻訳家の未来
6年前に、こんな記事を書いた。
この記事では、自動翻訳が言語翻訳家の職を奪うようになる年を2032年と予言した。今から9年後だ。この予言が成就する可能性が、ChatGPTにより大幅に上昇した。
今、国内の翻訳市場は2500億円程度と推計されているそうだが、9年後の2032年には、その規模は文字通り100分の1、1000分の1になっている可能性すらある。
それは、人力車、飛脚に対する自動車、鉄道、飛行機くらいのインパクトになるかも知れない。
今、我々が生きているのは、そういう時代の転換点なんや。この記事では、たまたま翻訳を取り上げたが、それ以外のありとあらゆる領域で、同じようなことがリアルタイムで進行している。
これから先、どうなるのか。
ワイにもわからへんww
とりあえず、次回の最強機械翻訳決定戦は、歌詞の翻訳か何かでやろうと思う。
そう遠くない将来のはず。お楽しみに!
この記事が参加している募集
この記事が気に入ったらサポートをしてみませんか?