見出し画像

ローカルLLM : 最近作成したデータセットについての記録

saldraさんのところで開催されたハッカソンに参加しましたので、作成物の記録を残します

VRAM 168GB の GPU サーバーを無料で使用できる意欲的なハッカソンです

私は最近、日本語のデータセット不足と日本語を堪能な言語モデル(LLM)の不足を強く感じています。この課題を解決したいと考えています。

データ不足を解決する手段の一つとして、合成データセットに着目し、ライセンスの縛りのない LLM を利用してデータ生成の実験を行っています。

しかし、LLMでの翻訳やデータ合成には GPU の処理能力が必要です。1 台のマシンで LLM の推論を行う場合、十分量のデータを生成するのに月単位の時間がかかります。

そこで今回、けん玉さんが参加している合成データセット生成チームに私も参加させていただきました。作成したデータとモデルを紹介します。

作成したデータ、モデルを紹介します!


まずデータ生成は、おそらく日本語LLM最強のSwallow-MX-8x7bのinstructionベクトルを強化した独自改善版を使用しています。

データ生成モデル

Swallow-MX-8x7b-NVE-v0.1に対し、

Mixtral-8x7B-Instruct-v0.1
Mixtral-8x7B-v0.1の差分をマージしたモデルです。

このマージにて、指示応答性能、日本語の流暢性が改善しています
32K tokenまで生成可能となっています

長文用データセット

長文用の多彩なInstructionの質問応答データセットです
上記Swallow-MXの改善版を使用しています
Mixtralの長文Instruction指示応答スタイルの蒸留目的です

長文用要約データセット

長文用の要約データセットです
上記Swallow-MXの改善版を使用しています
Mixtralの要約性能の蒸留目的です

DPOデータセット

上記Swallow-MX改善版から、2つの応答を生成。
時々おかしな応答することがあるので
DPOチューニング用に2つの応答を生成しました
報酬関数でよりよい応答を選択しています

英語で答える傾向も残っているため
応答が英語の場合は除外する調整もしました

マルチターン会話&cosmopediaデータセット

会話のみでなく、知識も学習できるデータセットです
Mixtralで作成された教科書水準の合成データセットの知識と
マルチターンの会話、掛け合いのスタイルを学習できます
会話データセットとして、IQ、EQともに最強を目指しました

今後の課題 TODO

Swallow-MX-8x7bのinstructionベクトルを強化した独自改善版ですが、最近発表132BパラメータのDBRX-instructを除けば現時点、日本語ローカルLLM界最強と感じてます

Swallow-MXはライセンスがApache2.0ですので、この蒸留を極めるのは非常に大事です
DBRXは生成データを他のモデル改善に使用できないライセンスになっているので合成データセット作成には利用できません

今回利用したSwallow-MX改善版、フリーで非常に高性能なのですが、時々英語で応答が返ってくることがあり、まだ改善の余地があります

その他大量に生成すると時々、異常な繰り返し生成が認められました

一部は生成時のパラメータ調整で対処できそうではありますが、
さらにチューニングしていくことで、さらなる高性能化の余地があると考えています

今回のデータは、サンプルとして各1000~3000エントリ程度となっています
本格的に学習に利用するために、Huggingfaceのcosmopediaクラスの200万エントリ目指したいです!


この記事が気に入ったらサポートをしてみませんか?