見出し画像

連載企画<Web翻訳 VS 生成AI翻訳>vol.1

はじめに

こんにちは。株式会社言語理解研究所(Institute of Language Understanding、以下「ILU」)の中山です。
機械翻訳ソリューション開発のプロジェクトマネジャーをしています。
 
ILUは、2002年に徳島大学発のベンチャー企業として設立された、「自然言語処理(NLP)」と「自然言語理解(NLU)」に特化したAI開発会社です。
約40年間にわたり蓄積し続けた大規模知識データベース(言語資産)と、約200種のライブラリを元に構築された国内唯一の「言語理解エンジン」を強みとしています。この言語理解エンジンと汎用的な大規模言語モデル(LLM)を組み合わせ、カスタマイズ型のAIエンジンを開発、提供しています。
 
事業のひとつ、機械翻訳ソリューションは、株式会社日本経済新聞社の「日経電子版Pro」などに利用されており、会社名や人名などの固有名詞、日付、金額といった、経済紙において誤りが許されない情報を正確に翻訳し、訳文を生成します。
 
昨今、急速に進化を遂げる生成AIの利用場面が広がっています。
企業の広告から社内文書、問い合わせメールの回答にいたるまで、生成AIが作成する時代になりつつあります。
機械翻訳ソリューションにおいても、生成AIを使った多言語翻訳が注目されています。翻訳してくれるのはもちろんのこと、「翻訳して要点をまとめて」と指示すると要約までしてくれます。一方で生成AIの欠点として、ハルシネーションが起きたり、冪等性べきとうせい(「何度繰り返しても同じ結果を得られる」こと)が担保されないという問題もあります。
 
では従来から用いられている、Google翻訳やDeepL翻訳などのWeb翻訳はどうでしょうか。Web翻訳はニューラル機械翻訳という技術が用いられており、大規模言語モデル(LLM)を用いる生成AIの翻訳とは技術が異なります。
 
両者ともに優れた翻訳が可能ですが、実際のところ、どちらが賢いのだろう?という疑問も沸いてきます。
そこで、ILU TECH BLOG第一回目は<Web翻訳VS 生成AI翻訳>と題しまして、機械翻訳ソリューションで培った知見をもとに、さまざまな機械翻訳の精度調査結果などをお伝えいたします!



調査概要

Web翻訳(Google、DeepL)、生成AI(GPT3.5、4、4o、Gemini、Claude3(haiku)、Claude3(opus))の日英翻訳結果を評価します。

■ 評価対象のWeb翻訳
Google(web)とDeepL(web)を評価対象としました。

評価対象の生成AI

生成AIに入力するプロンプト(すべて共通)

	生成AIに入力するプロンプト(すべて共通)画像

■ 評価コーパス
評価コーパスには、内容を一部改変したニュース記事を使用しています。また、ジャンルごとに翻訳精度が異なる可能性を考慮して、「ビジネス」「スポーツ」「天気」「社会」分野から各1記事(全45文)を評価対象としました。

■ 精度基準
精度とは「記事文の意味(事実情報)が理解できる」ことを基準とし、Web翻訳及び生成AI翻訳特有の一部の情報欠落や不明瞭点があっても、許容できるものを含むものとします(評価基準:評価対象に対する評価A+Bの割合)。

■ 評価基準

試験結果


生成AIは高精度で翻訳できる!

最も精度が良いのは生成AI「GPT4o」、次いで僅差で「Claude3(opus)」という結果になりました。
他の生成AIの翻訳精度も非常に良いのですが、その中でも「GPT4o」と「Claude3(opus)」が高精度です。

ジャンル別記事で比較した結果、それぞれの生成AIの得意領域、不得意領域が見えてきました。たとえばClaude3(opus)はスポーツ記事や社会記事の翻訳には強いですが、天気記事の翻訳は弱い傾向にあります。

DeepLはビジネス記事に強いという結果となりました。


生成AIの冪等性べきとうせいについて

生成AIは結果の安定性が低く、冪等性べきとうせい(「何度繰り返しても同じ結果を得られる」こと)が担保されません。
今回の調査では、同条件で2回翻訳した結果も比較しました。

Web翻訳のGoogle、DeepLでは、精度・出力された英訳に変化はありませんでしたが、生成AIは精度が変化しました。さらに、精度に変化のないGPT4oやGeminiでも、出力された英訳に変化がみられます。
英訳が変化した事例を、以下に記載しました。


Web翻訳の利点は?

今回の調査から、Web翻訳より生成AI翻訳の翻訳精度が高いことがわかりました。ではWeb翻訳の強みは何でしょうか。精度以外の面で、両者を比較してみます。
 
Web翻訳は無償でサービスが提供されています。またウェブページ上で翻訳したい文を入力するだけで実行可能という、使い勝手の良さがあります。
同じ文を複数回翻訳しても、生成される英訳に変化がないのも利点です。

一方、生成AIは有償のものが多く、使うためにはアカウントの登録やプロンプトの作成などが必要となります。
また、Web翻訳よりも翻訳精度が高いのですが、同じプロンプトで翻訳しても毎回回答が変わるため、精度が劣化する可能性があります。これは利用者側では対応できない生成AIの課題といえるでしょう。

まとめると、使い勝手の良さや料金的な面などから、Web翻訳が好まれるケースもあると考えられます。
課題は生成AIより低い翻訳精度ですが、こちらはILUの機械翻訳ソリューションにて、Google翻訳およびDeepL翻訳(※API利用)を使用して、入力文に手を加えることで解決できると判明しています。

図7 ILU機械翻訳ソリューション処理概要:https://www.ilu.co.jp/solution/translation/

今回調査したスポーツ記事(DeepL翻訳にて評価Cとなった文)を例にあげてみます。

原文をそのままDeepLで翻訳すると「本拠地」や「2番」が正しく翻訳されないことがわかります。
そこで原文に対し「である」の挿入、「臨み」の後に読点「、」の追加、「2番・指名打者」を「2番バッターの指名打者」にそれぞれ変換してみました。これにより正確な日本語の区切りや文意がわかりやすくなった結果、原文のままでは欠落していた「本拠地」と「2番」の英訳が正しく出力されました。


まとめ

今回は<Web翻訳VS 生成AI翻訳>をテーマに両者の精度比較や、その他利用条件などについて調査した結果をまとめてみました。
 
精度比較では、生成AIの翻訳精度が高いという結果になりました。
しかしWeb翻訳は、翻訳対象の日本語文に前処理を加えることで、原文そのままを翻訳した時よりも精度向上することが分かりました。
生成AIも、簡易プロンプトを使用した今回の調査では、各生成AIの能力を十分に引き出せていない可能性があります。
どちらも利用者側が一工夫することで、今より高度な翻訳が可能となるのです。
 
そこで今後の調査として、利用者がWeb翻訳と生成AIに対して調整を加えた場合、どのように翻訳精度が変化するかの比較を予定しています。
各生成AIの特徴に基づくプロンプト作成や、Web翻訳の前処理に関するコツもお伝えします。どうぞお楽しみに!


「生成AIサミット」登壇のお知らせ

弊社CRO(事業開発責任者)芳賀が、2024年7月17日に開催される「生成AIサミット-Vol.2〜生成AI×ビジネス活用の最先端を学ぶ一日〜」に登壇いたします。本サミットでは、生成AIとILUの自然言語処理(NLP)技術の融合をテーマにお話させていただきます。
ご興味あるという方は、下記サイトをご参照ください。
是非ご参加いただければ幸いです。

生成AIサミット-Vol.2〜生成AI×ビジネス活用の最先端を学ぶ一日〜

【お問い合わせ先】
会社名:株式会社 言語理解研究所
本社所在地:〒770-0813 徳島市中常三島町1丁目32番地1
ホームページ:https://www.ilu.co.jp