見出し画像

英文化合物名を翻訳ソフト「DeepL」で和訳してみた-想像を超える精度に驚き

三千数百個の化合物の英文名を日本語に訳す必要が出てきました。

化合物名の英和訳ができる JAICI pro Translator(化学情報協会)のような専用ソフトは持ってないので、別の方法を考えないといけません。
数が多いので翻訳ソフトのウインドウで1個づつ訳すのは現実的ではないし・・

まずは、google spreadsheet上で使えるgoogletranslate関数を使ってみました。200個の英文化合物名をエクセルからコピーしてspreadsheetに入れて訳してみました。結果は、200個のうち20個は訳出ミス、まったく未翻訳、一部のみ翻訳、など不完全な状態でした。

googletranslate関数で上手く訳出できなかった化合物名を表にしました。

googletranslate関数の翻訳結果

2,3-Difluoro 2-Bromo, p-Cresolが訳出されませんでした。N ,N-がn,n-へと小文字に変換されてました。isophtalonitrileは菌性眼球性, DEUTERATEDは脂肪加工とかなり変な訳です。Lead(II)Bromideは鉛 (II) 臭化と前後逆になっていました。Basic Green5が「基本的な緑5」となってるのは、まあ正確な訳ですよね。googletranslate関数は化学専用の翻訳ソフトではなく、化合物データは搭載されてないはずなので、当然の結果と思われます。試しに訳した200化合物で180個程は正しく訳せてますから立派な結果です。

但し、3000個を扱うとなると正答率90%だと300個を手作業で修正する必要が出てきます。そこで、googletranslate関数を上回ると評判の「DeepL」という翻訳ソフトを使ってみることにしました。

DeepLの画面

DeepLの画面では、1化合物毎に訳す必要があります。ネットで探したら、幸いgoogle spreadsheet上でDeepLを利用できる方法が紹介されてたので、ありがたく使わせて頂きました。下記のyoutubeでDeepLを載せたgoogle spreadsheetが提供されています。

スプレッドシートでDeepL翻訳を使おう!(GIGAch 安藤昇先生)

googletranslate関数でうまく訳せなかった化合物をDeepLで訳した結果が以下の緑の表です。

DeepL翻訳の結果

 DEUTERATED ACRYLONITRILE-D3は重水素化アクリロニトリル-D3、Lead (II) Bromideは臭化鉛(II)、p-Cresol-d7はp-クレゾール-d7と正確な和訳ででした。Basic Green 5の訳は、ベーシックグリーン5で試薬名称としてピッタリの訳出でした。
唯一訳せなかったのは、2-Oxa-6-azaspiro[3,3]heptane oxalateです。頭の2-Oxaを認識できなかったのでしょうか・・

化学専用の翻訳ソフトではないのに、この精度には驚きです。
(しかも1ヵ月50万文字までは無料)

逆に、DeepLが上手く訳出できないがgoogletranslate関数で上手く行くパターンがあるのか調べてみました。(DeepLをベタ褒めするのはまだ早い・・)

googletranslate関数では下記表のように、ニトリル類は正確に和訳できていました。

googletranslate関数での翻訳結果


一方、DeepLでは「nitrile」という文字が入った化合物はほどんど訳出できていませんでした。

DeepLでの翻訳結果

1H-1,3-benzodiazole-5-carbonitrileは全く訳出されていません。
4-(Chloromethyl)benzonitrileは4-(Chloromethyl)Benzonitrile(ベンゾニトリル)なってます。他のニトリル類の化合物名も、英文名はそのままで最後に(〇〇〇ニトリル)と付け足されてるだけでした。

DeepLではニトリル以外の化合物は、非常に正確な和訳ができていました。正答率は97%位。少しの改良で、JAICI pro Translator(化学情報協会)を凌駕するようソフトになるかもしれませんね。技術革新(深層学習)っておそろしい・・、既存のプレーヤーを駆逐していきそう。

さて、三千数百個の化合物名の和訳作業ですがgoogletranslate関数とDeepLの両方で作業する方法にしました。

googletranslate関数とDeepLを並べて使う

三千数百個の化合物名をspreadsheetに載せて、googletranslate関数で和訳すると数分で完了。一方、DeepLで和訳すると時間がかかりましたが無事に翻訳できました。1月の制限文字数の50万文字は越えなかったようです。

DeepLが訳せてない化合物名はgoogletranslate翻訳からコピペして、誤訳部分は「検索-置換」で修正しました。

この方法で、三千数百個の英文化合物名の和訳を完了。DeepLのおかげで誤訳修正に必要な時間を大幅(多分1/10にはなってる)に減らすとができました。



この記事が気に入ったらサポートをしてみませんか?