databricks-dolly-15kのデータセットをfuguMTで翻訳しました。が、すでにもっといい翻訳をされた物がありました…

databricks社による、人の手によるCC BY SA 3.0 LICENSEで公開されているDollyというデータセットがあります。

こちらで公開されているデータセットを、英日翻訳エンジンfuguMTを使ってローカルで翻訳したものです。

↑ fuguMT作者のstakaさんのブログ

出来上がってみたら、すでにもっといい翻訳をされたがクニえもん.inc🤗さん(@kun1em0n)によって公開されていました。ですので、私が作ったデータセットは使わずに以下のものを使うことをおすすめします。

公開しないほうがいいかなとも思った既に意味が無いデータセットではありますが、翻訳プログラムの練習のために作ったものではあるので、翻訳のソースと一緒にGithubで公開しておきます。fuguMTや、transformersのpipelineで翻訳をするときの参考になれば幸いです。

ちなみに、約15000個のデータですが、翻訳にはM1 macbook Airにて20時間以上かかりました。ローカル翻訳はそれなりに時間がかかりそうです。

この記事が気に入ったらサポートをしてみませんか?