- 運営しているクリエイター
#日本語
400GB程度の清掃済み日本語コーパスを作るまでのメモ書き
はじめに最近は大規模言語モデルを作っています。
来週から始まる学習に向け、400GBほどの日本語コーパスをチームで作成しました。今後、きちんとした作業記録を書ければと思いますので、直近では、かなり立て込んでおりますので、備忘録も含めて、構築経緯などを軽くメモしていきます。
スライド、コード、データなどスライドはこちら
コードはこちら(工事中の箇所がちょくちょくあります)
データは、プロ
Wikipedia日本語データセットの読み込み
日本語LLMの学習にWikipediaの日本語データセットがよく使われているので、使い方を調べてみました。
データセットgraelo/wikipediaを使用Hugging Faceにあるwikipediaデータセットは、なぜか日本語データセットがうまく読めませんでした。
graelo/wikipediaデータセットでは、日本語データセットが読めたので、こちらで確認しました。
データセットを読
日本語の事前学習データセット(OSCAR,mc4)を機械学習でクリーニングしてみる練習
はじめに日本語の事前学習データセットを最近は触っています。
Common Crawlから直接構築することも検討中ですが、まずは既存のデータセットをクリーニングしてみるところから始めてみます。
(ルールベースで真面目に清掃するスクリプトも存在します)
2/21追記 いくらか関連するコードをgithubにuploadしました。
データセットのダウンロードと内訳チェックhuggingfaceのda