Espacenetの翻訳は実質Google翻訳？

2023年6月22日 14:45

※2023-06-20　ライブ配信の要約です

質問BOXへのおたよりです。

Youtubeチャンネル、NOTEをいつも楽しく拝見しております。
非英語特許文献の機械翻訳について質問がございます。
仕事で中国特許の英訳が必要になり、GooglePatentから機械英訳を入手しましたが、英訳文の構成がおかしい部分があり、また誤りも多くありました。
そこで、Espacenetから検索し、「Claim」「Discription」から機械英訳を入手しますと、GooglePatentよりかなり正確な英訳文になっており、驚きました。

GooglePatentとEspacenetで、機械英訳でこのように差が出た理由等をご存知でしたら、ご教示いただけますと幸いです。

･･･というご質問なのですが
じつは！

欧州特許庁（EPO）のサイトでは
こちらに翻訳機能の説明がまとめられており、

ページ内で
「EPOとGoogleが協力して機械翻訳を提供している」と明記しています。

同ページ内に４分弱の説明動画があり、その動画内で

・翻訳エンジン自体は一般的なGoogle翻訳と同じものを使用
・Espacenetでは特許データを機械学習に利用している
(動画では Specially Trained と出てきます)
と説明しています。

機械翻訳（用の教師あり機械学習）で使われるデータの代表格に
「コーパス（対訳コーパス）」という物がありまして、

Espacenet向けの機械翻訳には
EPOが保有する EuroPat Corpus というデータを利用していると思われます。

■参考文献

ちなみに日本特許庁も日本語・アジア言語を中心としたコーパスデータを保有していて、一部データは公開もされています。

特許翻訳、機械翻訳にご興味のある方は
日本特許のコーパスデータをダウンロードしてみるのも面白そうですね！

この記事が気に入ったらサポートをしてみませんか？