見出し画像

ABCIで10万(100K)会話の日本語マルチターンデータセットを作りました

今年もABCIポイント消費月間がやってきました。
ABCIはお国が運営するスパコンのため、毎年3月でポイントが失効します。

ポイントが失効したらもったいないので去年AIスーパーコンピュータ継之助つぎのすけと、彼が社長を務める会社FreeAI社(https://free-ai.ltd)を作ったことで結果的に使わなくなってしまったABCIポイントがまるごと余っていたので何か有意義なことに使おうと思い、(ライセンスはややこしいながら)商用利用も可能とされているOrion14Bを使ってABCIの中では比較的空いているVノードで10万会話ぶんのデータセットを自動生成しました。

V100x4マシンに400GPU時間くらいのタスクを与えたのでこれを短期間に処理できたのはさすが政府のスパコンという感じ。物量で殴る。

https://huggingface.co/datasets/shi3z/ja_conv_wikipedia_orion14B_100K

Orion14Bのライセンスについてはよく読んでから使ってください