見出し画像

Espacenetの翻訳は実質Google翻訳?

※2023-06-20 ライブ配信の要約です

質問BOXへのおたよりです。

Youtubeチャンネル、NOTEをいつも楽しく拝見しております。
非英語特許文献の機械翻訳について質問がございます。
仕事で中国特許の英訳が必要になり、GooglePatentから機械英訳を入手しましたが、英訳文の構成がおかしい部分があり、また誤りも多くありました。
そこで、Espacenetから検索し、「Claim」「Discription」から機械英訳を入手しますと、GooglePatentよりかなり正確な英訳文になっており、驚きました。

GooglePatentとEspacenetで、機械英訳でこのように差が出た理由等をご存知でしたら、ご教示いただけますと幸いです。

・・・というご質問なのですが
じつは!

欧州特許庁(EPO)のサイトでは
こちらに 翻訳機能の説明がまとめられており、

ページ内で
「EPOとGoogleが協力して機械翻訳を提供している」と明記しています。

同ページ内に4分弱の説明動画があり、その動画内で

・翻訳エンジン自体は 一般的なGoogle翻訳と同じものを使用
・Espacenetでは特許データを機械学習に利用している
   (動画では Specially Trained と出てきます)
と説明しています。

機械翻訳(用の教師あり機械学習)で使われるデータの代表格に
「コーパス(対訳コーパス)」という物がありまして、

Espacenet向けの機械翻訳には
EPOが保有する EuroPat Corpus というデータを利用していると思われます。

■参考文献

ちなみに日本特許庁も日本語・アジア言語を中心としたコーパスデータを保有していて、一部データは公開もされています。

特許翻訳、機械翻訳にご興味のある方は
日本特許のコーパスデータをダウンロードしてみるのも面白そうですね!

この記事が気に入ったらサポートをしてみませんか?