最近の情報も学習に用いた14億パラメータ日本語LLM stockmark/gpt-neox-japanese-1.4b
モデル概要ストックマーク社が作成した、Common Crawl由来のデータだけでなく、独自のWebデータも学習に使用した14億パラメータの日本語のLLM
データカバー期間:2023年6月までのデータを使用。
使用データセット:
CC100の日本語サブセット
Wikipediaの日本語版
ストックマーク社独自の日本語Webデータ
コーパス全体のデータ量:約200億トークン。そのうち独自のWebデータの量は約90億トークン
ライセンス:MITライセンス
とりあえず