AI翻訳の精度比較👀DeepL, Google翻訳, ChatGPT, Claude, Gemini
[読了目安: 4分]
AI系ポッドキャスト(耳で学ぶAI)を運営している矢野(@robothink_jp)です。この記事はAIによる翻訳の精度比較を行う検証記事となります。
DeepLの新モデル
少し前にDeepLが翻訳特化の言語モデルを発表しました。
DeepLはドイツを拠点とする会社で高品質な翻訳ツールを提供する会社でもあります。
DeepLは新しい言語モデルを発表するにあたり他社製品とのブラインドテストを実施したと報告しています。
DeepLが実施したブラインドテストでは
Google翻訳の1.3倍
ChatGPT-4の1.7倍
Microsoft翻訳の2.3倍
DeepLの翻訳出力が好ましいと回答されたそうです。
実際にどれくらい精度が変わってくるのか気になったので以下のツールで比較してみました。
DeepL新モデル
DeepL旧モデル
Google翻訳
ChatGPT
Claude
Gemini
原文
対象とするのは以下の英文です。
BBCニュースのパリ五輪の開幕に関する言及です。
比較
考察
パリ五輪のオープニングセレモニーの動画を添付します。
セーヌ川を選手団が船で航行し、橋の上や船上でパフォーマー達がパフォーマンスを繰り広げるというものです。
動画の内容を見た上で直感的に分かりやすいと感じたのは、DeepL新モデルとClaude 3.5 Sonnet、GPT-4oでしょうか。
Gemini 1.5 Proは一見翻訳が成立しているように見えます。しかし、選手が橋の上でパフォーマンスを繰り広げたと勘違いしてしまうような翻訳です。
Google翻訳は"直訳"という表現がしっくり来るかもしれません。翻訳自体にミスはないと思いますが直訳すぎて近年登場したAI翻訳と比較すると固い文章であることが際立ちます。
DeepLと生成AIの決定的な違い
翻訳結果を比較するとClaudeやChatGPTも翻訳というタスクで使えそうです。実際に私も海外の記事を翻訳・要約するタスクでお世話になっています。
しかし、生成AIという性質であるが故に一つの欠点を抱えています。
それは同じ文章でも翻訳する度に微妙に結果が異なることです。
ChatGPTのような生成AIは前の単語から後に続く最適な言葉を確率的に生成しています。毎回確率的に生成しているので出力される結果は同じインプットでも微妙に異なります。
一方DeepLは毎回同じ翻訳結果を返してくれます。これはDeepLのCEOが以前インタビューにも答えていました。
「(ChatGPTのような)生成AIは毎回翻訳結果が微妙に異なります。しかし、我々の製品は一貫した翻訳結果を返します」
利用者の目的によって変わる
厳密な翻訳精度を求めたい場合はDeepLは活躍してくれます。ちなみにDeepLの新モデルは現時点で課金ユーザーのみが利用できる点に注意が必要です。(月額1,380円から)
一方で翻訳にそこまでの精度を求めないケースではDeepLは持て余すことも考えられます。この場合はChatGPTやClaudeでも十分と思います。ちなみにこれらのAIは無料で利用できます。
DeepLの新モデルも魅力的ですが、現時点で便利と感じるのはPDFの一括翻訳やブラウザの拡張機能による直感的な翻訳でしょうか。翻訳ツールを選定する際の参考にしてください✌️
目と耳で学べるAI情報を発信しています
通勤時間に効率良く目と耳でAI情報をインプットできます。
AI系ポッドキャスト:Apple Podcast / Spotify Podcast
X:矢野哲平(@robothink_jp)
noteでも月に30本ほどAI関連の記事を投稿していますのでフォローよろしくお願いします😼
この記事が参加している募集
この記事が気に入ったらサポートをしてみませんか?