日本語Wikipediaのマルチターン会話データセット10万個を作りました

2023年11月27日 00:17

GPT-3.5-Turboを使って、約一ヶ月かけて日本語のWikipediaの項目をもとに先生と生徒が会話するマルチターンデータセットを作りました。

GPT-3.5を使っているため取り扱いには注意が必要ですが、とりあえず「日本語の高性能LLM」を作ってみる実験はできるはずです。

GPT-4でもやってみようかなと思っていますが、GPT-3.5でも一ヶ月でかなりの出費があり、GPT-4で同じ分量のデータセットを作るとなると数十万円から数百万円かかりそうです。また、単純にGPT-4はAPI呼び出し回数制限が厳しいのでもうちょっとやり方を考えてからにしようかなと思っています。