見出し画像

DeepLが思い通りに翻訳しない!?③スペース抜けに注意

DeepL はGoogle翻訳を超える翻訳精度を誇り、あまり手直ししなくとも使える文章を出力してくれますので、情報発信している方、海外の情報を直接入手している方はすでに重宝していると思います。

DeepL 活用まとめシリーズ」では使いこなしのための豆知識を紹介していきます。書きたいネタは結構ありますが、よい例に出会うまでは記事にしにくいため、良い例をまた見つけたときにその都度続編をかきます。


その③ 単語、文章の間に本来あるべきのスペース抜けを補って翻訳精度アップ!

This Twitter Developer Agreement (“Agreement”) is made between you (either an individual or an entity, referred to herein as “you”) and Twitter (as defined below) and governs your access to and use of the Licensed Material (as defined below).Your use of Twitter’s websites, SMS, APIs, email notifications, applications, buttons, embeds, ads, and our other covered services is governed by our general Terms of Service and Privacy Policy.

ツイッターのAPIでBotを作ったりする場合の規約を読んでいたら、英文に間違いを見つけました。わかりますか?

そうです。この部分でした。

(as defined below).Your use of

文法的には文章の終わりにはスペースが1つか2つ必要なのですが、ありません。機械翻訳はこういう所で意外に融通が効かなかったりします。

機械翻訳ではトークナイゼーションという過程で単語と文章の切れ目を一つ一つ認識して分けないと行けないのですが、ピリオドというのは文章の中でもDonald J.  Trumpとか普通に使われてしまうので単純にピリオドを見たら文章の終わりとも断定できないのです。

規約の文章なんてTwitterの法務部の人が何人も読み直して推敲してから公開してる文章だし、そんな単純ミスがあるわけがない!なんて思ったかもしれませんが、ありましたね。普通にありますよこういうの。

それではスペースを補う前後で訳出がどう変わるかを比べてみましょう。

スペース入れる前
本Twitterデベロッパー契約(以下「本契約」)は、お客様(個人または法人、以下「お客様」)とTwitter(以下に定義)の間で締結され、お客様のライセンス対象物(以下に定義)へのアクセスと利用について規定します。Twitterのウェブサイト、SMS、API、メール通知、アプリケーション、ボタン、埋め込み、広告および当社のその他の対象サービスのご利用には、当社の一般利用規約および個人情報保護方針が適用されます。

スペース入れた後
本Twitterデベロッパー契約(以下「本契約」)は、お客様(個人または法人、以下「お客様」)とTwitter(以下に定義)の間で締結され、お客様のライセンス対象物(以下に定義)へのアクセスおよびその使用について規定するものです。お客様によるTwitterのウェブサイト、SMS、API、メール通知、アプリケーション、ボタン、エンベッド、広告、および当社のその他の対象サービスの利用は、当社の一般利用規約およびプライバシーポリシーによって管理されます。

・・・あれ?ほぼ実害ない違いだけでしたね(違う部分を太字にしました)。

DeepL先生は賢く、この程度の間違いは割と大丈夫な時もあるようです。

数ヶ月前まではこの辺りの間違いにはシビアだった気がするのですが、現在は割と改善されているようなのです。

しかし、やはり限度があります。

もっと酷い例を示します。

BioClandestineテレグラムより
引用ボタン

このテキストをnoteのエディターに貼ってから選択して、noteエディターの引用ボタンを押すとこうなります。

And yet another anti-Elon narrative bites the dust.
Many in this community believed and spread this false narrative that Elon was part of the WEF. You all did the exact same thing with Tulsi.
The WEF would try to associate themselves with big names to gain clout, and would list them on their website without any permission of these individuals.
The anti-Elon people confidently told me I needed to do my research and that Elon couldn’t be “trusted”.
Lol.

Lolまで含めて5段落あって、段落の間にあった空行が除かれています。それはそれで良いのですが、段落と段落の間にある改行記号をDeepL 先生は認識しないようです。そのために段落と段落の間にはなにもホワイトスペースがないという状況になり、誤訳が生じます。

この引用された文章をさらにコピーして、DeepL で翻訳したのがAで、引用ボタンを使う前のテレグラムからのクリップボードの内容をDeepLに直接渡したのがBです。

A
このコミュニティの多くは、イーロンはWEFの一員であるという誤ったシナリオを信じ、それを広めていました。WEFは、影響力を得るために大物と付き合おうとし、その人たちの許可なくウェブサイトに掲載するのです。反イーロンの人たちは、自信をもって私に、自分の研究をする必要がある、イーロンは「信用」できないと言いました。

B
そして、また新たな反イーロンの物語が埃をかぶった。

このコミュニティの多くは イーロンはWEFの一部であるという誤ったシナリオを信じ、広めていました。皆さんは、Tulsiのときとまったく同じことをしましたね。

WEFは、影響力を得るために大物と付き合おうとし、その人たちの許可を得ずに自分たちのウェブサイトに掲載するのです。

反イーロンの人たちは、自信満々に「自分で調べろ」「イーロンは "信用 "できない」と言ってましたよ。

なんかAでは段落が詰まってるだけではないく、文章が減っていますね。笑もないです。

Aの内容を詳しくみてみると、Tulsi.Theの部分がくっついています。最後のLolも前の文章についちゃってますね。

基本的にDeepL先生の仕様では、くっついた後ろの文章は無視されるために文章が抜けて翻訳文も短くなっているのです。

やっぱりDeepL 先生も完璧ではなかったですね。

noteの引用ボタンは気をつけましょう


#ご乱心