見出し画像

自宅PCで動く機械翻訳fuguMTやm2m100の現状 脱DeepLできるのか?

皆さん、お元気ですか?

しろのは時々落ち込んだりもするけれ(以下略)

さて、最近はDefectedが好きすぎてみんなに紹介したいという思いから文字起こし+翻訳のパイプライン設計をしているのですが、本家はもう74まで上がってますし今は75のライブ予告も見えます。

一回の放送で3時間とか4時間あったりもする重厚な番組だし1分の間にこの二人のしゃべる量が半端ないので全部DeepL翻訳したらすごい課金されそうです。でも素晴らしい情報と見解が満載なのでネット検索できるようにされるべきなので書き起こししています。

この量x74ですから、どのサービス使ってもお値段がすごそうなので最近のAIの発展を活かして自宅サーバーで翻訳サービスを走らせたらいんでない?ということで試して一番よかったのがfuguMTでございます。あとm2m100というFacebookのやつも使えそうです。

ただで使えて大手ネット企業に何を翻訳しているか見られないという利点があるかわり、やっぱり翻訳精度が落ちるというデメリットがあるわけですが、どのくらい落ちるのでしょうか?

今回はこれを検証していく記事です。


トランプのスピーチの例

https://t.me/WTM_deepl_jp/149680

この46秒の短いスピーチをwhisperxで書き起こししたのがこちらの英文です。

New York city, Rudy Giuliani, which accused him of everything under the sun regarding the laptop from hell.
They withdrew it on the basis that everything that he said was true.
For years, he's been fighting for himself.
Everything Rudy Giuliani said was true.
It was not from Russia.
It had nothing to do with Russia.
It only had to do with Hunter.
Think of that.
They try and destroy people.
But think of that.
It wasn't Russian disinformation.
It was made up story for election interference purposes.
And I assume we're going to be talking about that at the debate.
Is anybody going to be watching the debate in this room?

DuckDuckGoの翻訳(中身マイクロソフト)

ニューヨーク市、ルディジュリアーニは、地獄からのラップトップに関する太陽の下ですべての彼を非難した。 彼らは、彼が言ったことはすべて真実であるという理由で、それを撤回しました。 何年もの間、彼は自分のために戦ってきました。 ルディ・ジュリアーニが言ったことはすべて真実だった。 それはロシアからのものではなかった。 ロシアとは何の関係もない。 それはハンターとだけ関係がありました。 考えてみてください。 彼らは人々を滅ぼそうとします。 しかし、考えてみてください。 ロシアの偽情報ではなかった。 選挙干渉の目的ででっち上げられた話だ。 そして、討論会でそのことについて話し合うことになると思います。 この部屋で討論を見ている人はいるのだろうか?

DeepLの翻訳

ニューヨーク市、ルディ・ジュリアーニは、地獄からのノートパソコンに関して、太陽の下にあるすべてのことで彼を非難した
彼らは、彼が言ったことはすべて真実であるとして、告訴を取り下げた。
何年もの間、彼は自分のために戦ってきた。
ルディ・ジュリアーニが言ったことはすべて真実だった。
ロシアからではなかった。
ロシアとは何の関係もない。
ハンターとの関係だけだ。

考えてみてください。
彼らは人々を破滅させようとする。
しかし、考えてみてほしい。
ロシアの偽情報ではなかった。
選挙妨害目的のでっち上げだ。
討論会ではそのことを話すのだろう。
この部屋で討論会をご覧になる方はいらっしゃいますか?

グーグル翻訳

ニューヨーク市、ルディ・ジュリアーニは、地獄のラップトップに関してあらゆることを彼に非難した。 彼らは、彼が言ったことはすべて真実であるという理由で、それを撤回した。 何年もの間、彼は自分のために戦ってきた。 ルディ・ジュリアーニが言ったことはすべて真実だった。 それはロシアから来たものではなかった。 それはロシアとは何の関係もなかった。 それはハンターとだけ関係があった。 考えてみてください。 彼らは人々を破滅させようとしている。 しかし、考えてみてください。 それはロシアの偽情報ではなかった。 それは選挙干渉を目的とした作り話だった。 そして、私たちは討論会でそれについて話すことになると思います。 この部屋で討論会を見ている人はいますか?

fuguMT + Ginza

ニューヨーク市のルディ・ジュリアーニは 太陽の下でノートパソコンを 地獄から奪ったとして 彼を非難しました

彼自身が言ったことは すべて真実だとして それを撤回しました

何年もの間 彼は自分自身のために戦ってきました

ルディ・ジュリアーニが言ったことは 本当でした

ロシアからではなく ロシアからだったのです ハンターとは何の関係もなかったのです 考えてみてください

彼らは人々を滅ぼそうとします

でも そう考えました

ロシアの偽情報ではなく 選挙の妨害目的の物語だったのです

議論で それを話そうとしていると私は考えています

この部屋で議論を観るつもりですか?

m2m100

ニューヨークの街、ルディ・ジュリアーニは、地獄からラップトップに関して太陽の下のすべてについて彼を非難した。彼らは、彼が言ったすべてが真実であるという基礎でそれを撤回しました.何年も彼は自分自身のために戦っている.ルディ・ジュリアーニが言ったすべてが真実でした.それはロシアから来ていませんでした.それはロシアと何の関係もありませんでした.それはただハンターと関係ありませんでした.それについて考える.彼らは試み、人々を破壊します.しかし、それについて考える.それはロシアの不情報ではありません.それは選挙干渉の目的のためにストーリーを作成されました.そして私は議論でそれについて話すつもりです。誰もこの部屋で議論を見るつもりですか?


各種の翻訳はかなり行けてますね。違いが生じたのが二点。

Newyork city, Rudy Giuliani, which accused him of everything under the sun regarding the laptop from hell.

ニューヨーク市、ルディジュリアーニは、地獄からのラップトップに関する太陽の下ですべての彼を非難した。DuckDuckGo 8点
ニューヨーク市、ルディ・ジュリアーニは、地獄からのノートパソコンに関して、太陽の下にあるすべてのことで彼を非難した。DeepL 8点
ニューヨーク市、ルディ・ジュリアーニは、地獄のラップトップに関してあらゆることを彼に非難した。グーグル 9点
ニューヨーク市のルディ・ジュリアーニは 太陽の下でノートパソコンを 地獄から奪ったとして 彼を非難しました fuguMT 6点
地獄からラップトップに関して太陽の下のすべてについて彼を非難した。 m2m100 9点

It was not from Russia.
It had nothing to do with Russia.
It only had to do with Hunter.

それはロシアからのものではなかった。 ロシアとは何の関係もない。 それはハンターとだけ関係がありました。 DuckDuckGo 10点
ロシアからではなかった。ロシアとは何の関係もない。ハンターとの関係だけだ。 DeepL 10点
それはロシアから来たものではなかった。 それはロシアとは何の関係もなかった。 それはハンターとだけ関係があった。グーグル 10点
ロシアからではなく ロシアからだったのです ハンターとは何の関係もなかったのです fuguMT 3点
それはロシアから来ていませんでした.それはロシアと何の関係もありませんでした.それはただハンターと関係ありませんでした. m2m100 9点

翻訳、サービス名、10満点でのしろの採点という感じで比べてみましたが、グーグルがなんと一番まともでした。DeepLも流石。マイクロソフトも悪くないです。全部使えそうです。ちょい昔はDeepLがはっきりとグーグルより上に感じましたが今は差が少ないかもですね。

そして無料で自宅で使えるfuguMTですが、この2部分に関しては意味が違ってしまって誤訳と言えるでしょう。その他の部分はfuguMT結構頑張っていて、惜しい感じです。

この量のテキストをCPUで計算するのにfuguMTは5秒くらいかかります。使える速度ですね。

そして驚きなのが英語ー日本語に特化しているfuguMTを超えてしまった100言語の双方向の翻訳が可能なm2m100でございます。句読点の使い方がおかしくて「。」の代わりに「.」を使いやがるのが玉に瑕ですが、翻訳内容の精度はグーグル並に良いですね。m2m100はCPUで65秒かかりました。

fuguMTの方はGinzaで句読点処理をしているのですがm2m100はまだしてません。なのでGinzaをこっちにも使って句読点キレイにして改行欲しいところに入れてあげたら見やすくなりそうです。

というわけで遅いしたまに誤訳があるというのを踏まえつつも、個人情報が含まれる英語なので自宅で訳したい!みたいな事情があれば自宅のfuguMTやm2m100で十分有用だと思います。

私は英語の翻訳はいらないんですが、ヨーロッパの各種の言語を英語に翻訳することが多いので自宅サーバーに色々な言語モデルで100言語くらい翻訳できるサービスを立てて遊んでいます。

streamlitで一日で作った

Facebookのm2m100というモデルがすごくて、これのお陰で100言語一気にカバーできます。

前にテストしたときはfuguMTの方がm2m100よりいいと感じましたが、この例文だとm2m100の方がいいですね。速度的にはfuguMTの方が早いです。

 

扉絵をみんなのフォトギャラリーから選ぼうと思ってAIで検索したら愛ちゃんかなんか知らんけど女の子ばっかり出たの草。欲しいロボットがあるの2つしか無いやん。

この記事が参加している募集