マガジンのカバー画像

Data

55
運営しているクリエイター

#日本語LLM

ABCIで10万(100K)会話の日本語マルチターンデータセットを作りました

ABCIで10万(100K)会話の日本語マルチターンデータセットを作りました

今年もABCIポイント消費月間がやってきました。
ABCIはお国が運営するスパコンのため、毎年3月でポイントが失効します。

ポイントが失効したらもったいないので去年AIスーパーコンピュータ継之助と、彼が社長を務める会社FreeAI社(https://free-ai.ltd)を作ったことで結果的に使わなくなってしまったABCIポイントがまるごと余っていたので何か有意義なことに使おうと思い、(ライセ

もっとみる
日本語Wikipediaのマルチターン会話データセット10万個を作りました

日本語Wikipediaのマルチターン会話データセット10万個を作りました

GPT-3.5-Turboを使って、約一ヶ月かけて日本語のWikipediaの項目をもとに先生と生徒が会話するマルチターンデータセットを作りました。

GPT-3.5を使っているため取り扱いには注意が必要ですが、とりあえず「日本語の高性能LLM」を作ってみる実験はできるはずです。

GPT-4でもやってみようかなと思っていますが、GPT-3.5でも一ヶ月でかなりの出費があり、GPT-4で同じ分量の

もっとみる