見出し画像

alpaca_gpt4_dataのデータセットを日本語訳してみました

AlpacaのプロンプトをGPT-4で回答させた英語版データセットInstruction Tuning with GPT-4というものが公開されており、それを日本語に翻訳したものです。翻訳に用いたPythonスクリプトも一緒に公開しています。

元のデータセットはこちらです。

翻訳にはfuguMTを使わせていただきました。

ローカルのCPUで翻訳したため、40時間以上かかりました。(i7-9700K、メモリ96GB環境)

さすがに膨大すぎてチェックはできなかったため、一部、不適切な訳もあります。たとえば、range(1,num)とPythonの関数が書いてあるところが「範囲(1, num)」となってしまっていたり。折を見て修正していきたいと思いますが、プルリクも歓迎しております。

この記事が気に入ったらサポートをしてみませんか?