- 運営しているクリエイター
#コーパス
400GB程度の清掃済み日本語コーパスを作るまでのメモ書き
はじめに最近は大規模言語モデルを作っています。
来週から始まる学習に向け、400GBほどの日本語コーパスをチームで作成しました。今後、きちんとした作業記録を書ければと思いますので、直近では、かなり立て込んでおりますので、備忘録も含めて、構築経緯などを軽くメモしていきます。
スライド、コード、データなどスライドはこちら
コードはこちら(工事中の箇所がちょくちょくあります)
データは、プロ
日本語の事前学習データセット(OSCAR,mc4)を機械学習でクリーニングしてみる練習
はじめに日本語の事前学習データセットを最近は触っています。
Common Crawlから直接構築することも検討中ですが、まずは既存のデータセットをクリーニングしてみるところから始めてみます。
(ルールベースで真面目に清掃するスクリプトも存在します)
2/21追記 いくらか関連するコードをgithubにuploadしました。
データセットのダウンロードと内訳チェックhuggingfaceのda
CommonCrawlから有益な日本語の記事と文章を機械学習で抽出するスクリプトのプロトタイプ
はじめに大規模言語の事前学習には、Webデータを片っ端からダウンロードしたサイト(CommonCrawl, CC)が大活躍します。
普通はCCを使いやすい形で加工したコーパスを用いるのですが、意外と低品質だったり、最新の情報が含まれていなかったり、諸々の問題があります。
そこで、独自に日本語コーパスを作る動きも出ています。
本記事は、以下の記事の続きとして、CCからWebデータをダウンロードし