マガジンのカバー画像

Data

54
運営しているクリエイター

#コーパス

400GB程度の清掃済み日本語コーパスを作るまでのメモ書き



はじめに最近は大規模言語モデルを作っています。

来週から始まる学習に向け、400GBほどの日本語コーパスをチームで作成しました。今後、きちんとした作業記録を書ければと思いますので、直近では、かなり立て込んでおりますので、備忘録も含めて、構築経緯などを軽くメモしていきます。

スライド、コード、データなどスライドはこちら

コードはこちら(工事中の箇所がちょくちょくあります)

データは、プロ

もっとみる

ウェブの日本語テキストをクリーニングするための基本的な処理コードと課題


はじめに2024年は皆で大規模言語モデルを作るので、日本語のテキストを皆でクリーニングしています。

クリーニングのための、軽い試行錯誤を行いました。
本記事では、清掃作業がどこまで進んだのか、今後やるべきこと、などについてまとめています。

関連記事

コード本記事のコードは、google colabで実行できます。

githubのrepoはこちらです(CommonCrawlのダウンロードプ

もっとみる

ルールベースでWebページから日本語のテキストを清掃する


はじめにmc4などのコーパスを清掃するコードを調べたり書いたりしています。
本記事では、こちらのGitのコードを模倣しながら、若干の追記修正を入れてクリーニングしてみました。

2/21追記
関連コードをgithubにuploadしました。

要するにどうなったのか?以下のコード(MITライセンス)を実行することで、テキストが清掃されます。

def do_filter(text): te

もっとみる

教師なし学習で事前学習用のWebテキストを分類する

はじめに最近は大規模言語モデルの学習に用いるテキストの整形加工にハマっています。
前回は、mc4などのデータセットを教師あり学習でクリーニングするスクリプトを書きました。体感では、webサイトの半分以上は宣伝文や公序良俗に反するページなので、適切にフィルタリングしてあげないと、かなり偏った文章になります。

今回は、フィルタ後のwebサイト群を、教師なし学習でカテゴリ別に分類してみたいと思います。

もっとみる

日本語の事前学習データセット(OSCAR,mc4)を機械学習でクリーニングしてみる練習

はじめに日本語の事前学習データセットを最近は触っています。
Common Crawlから直接構築することも検討中ですが、まずは既存のデータセットをクリーニングしてみるところから始めてみます。

(ルールベースで真面目に清掃するスクリプトも存在します)

2/21追記 いくらか関連するコードをgithubにuploadしました。

データセットのダウンロードと内訳チェックhuggingfaceのda

もっとみる

CommonCrawlから有益な日本語の記事と文章を機械学習で抽出するスクリプトのプロトタイプ

はじめに大規模言語の事前学習には、Webデータを片っ端からダウンロードしたサイト(CommonCrawl, CC)が大活躍します。
普通はCCを使いやすい形で加工したコーパスを用いるのですが、意外と低品質だったり、最新の情報が含まれていなかったり、諸々の問題があります。

そこで、独自に日本語コーパスを作る動きも出ています。

本記事は、以下の記事の続きとして、CCからWebデータをダウンロードし

もっとみる