LLMの事前学習で利用されるmC4のデータを確認

2023年12月30日 17:08

はじめに

LLMの事前学習で広く使われるデータセットmC4の中身が気になったので確認し記事にしてみました！
ダウンロード方法から一部データの確認までします。

mC4とは？

mC4は100以上の言語を含む大規模な言語データセットで、インターネットから収取された膨大なテキストデータセット「Common Crawl」を基にしています。Common Crawlから不要なノイズを取り除く処理はされているものの、かなりノイズが含まれているそうです。

ダウンロード方法

mC4はHugging FaceのDatasetsに登録されており、簡単にダウンロードすることができます。
この記事ではPythonを通してダウンロードします。まず必要なパッケージをインストールします。

pip install datasets transformers

そして、以下のPythonスクリプトを実行することでダウンロードすることができます。

from datasets import load_dataset

# データセットの読み込み、今回は日本語データ'ja'のみをダウンロードする
dataset = load_dataset('mc4', 'ja', split='train')

僕の環境では、ダウンロードに8時間ほどかかりましたたので、実行する場合は気長に待ちましょう。
また、データは全体で1.1TBととても大きいので、ディスク容量は確認しておきましょう。僕は最初、何も考えずに実行した結果、ディスクが死にました。ダウンロードで作成されるディレクトリの説明とディスク容量は以下のようになります。

downloads(298GB)：huggingfaceからダウンロードしてきた(圧縮された)ファイルが保存されるディレクトリ
mc4(774GB)：データセットとして読み込み可能な形式に変更されたファイルが保存されるディレクトリ

load_datasetのデフォルトの保存先は~/.cache/huggingface/datasetsですが、容量の大きい別ディスクを指定したい場合は引数cach_dirを使用して保存先を変更することができます。

dataset = load_dataset('mc4', 'ja', cache_dir="./data", split='train')

データの確認

データセットの確認は以下のように行います。

# 先頭のデータの確認
dataset[0]

次に、実際に確認したデータの例を紹介します。

意味のない文字列が大量に含まれたデータ

以下に示すのは、mC4データセットから抜粋した一部分です。pprintを使用して視覚的に分かりやすいように整理しています。よくわからない文字列ばかりですね。元のデータは中古車販売の検索結果のようです。この様なサイトのリンクやよく分からない文字列データは学習時に削除できる様にしたいですね。

('44 台中 20 台を表示中（一覧表示件数を変更 2050100 ） << 前へ\u30001\u30002\u30003\u3000次へ >>\n' 'http://www.peugeot-approved.net/UWS/WebObjects/UWS.woa/wa/carDetail?globalKey=uwsa1_170dc1e20e5&currentBatch=2&searchType=1364aa4ee1d&searchFlag=true&carModel=36&globalKey=uwsa1_170dc1e20e5 ' 'uwsa1_172febeffb0,uwsa2_172f9c09b3e,uwsa2_17343079ecc,uwsa1_17340da6061,uwsa2_171af9e29c7,uwsa1_17139f9ddc4,uwsa2_172f9a83ba9,uwsa1_17323f93cc7,uwsa2_173228da6ca,uwsa1_171a5ecbee8,uwsa1_171b53438d6,uwsa1_171fd7d44ec,uwsa2_1730e479386,uwsa1_1723b74e180,uwsa2_171b560eca8,uwsa2_171fda21d8e,uwsa2_173033c768a,uwsa1_172ff6b63e5,uwsa1_172ff1a2564,uwsa1_172270122f8 ' 'uwsa2_16f893db7a8,uwsa1_1725a3a2c54,uwsa1_1724a68127a,uwsa1_172ee9c8f78,uwsa1_17225f8e83c,uwsa1_172939e545f,uwsa2_1725f8f6001,uwsa2_1726e008669,uwsa2_17234e68fca,uwsa1_1723019f9af,uwsa1_1716e255592,uwsa1_170fb8fa0ca,uwsa2_1721623f1e5,uwsa2_171d3cdce8f,uwsa2_170a4cdd205,uwsa2_170a4c955f2,uwsa1_17157a1e5e0,uwsa2_1718275d18a,uwsa1_1716dd30d8e,uwsa2_16de87cce53,uwsa2_16ff08a3727,uwsa1_170329a0c41,uwsa2_16c607f126e ' '本体価格 3,780,000 円\n' 'http://www.peugeot-approved.net/UWS/WebObjects/UWS.woa/wa/carDetail?globalKey=uwsa2_16f893db7a8&currentBatch=2&searchType=1364aa4ee1d&searchFlag=true&carModel=36&globalKey=uwsa2_16f893db7a8 ' 'uwsa1_172febeffb0,uwsa2_172f9c09b3e,uwsa2_17343079ecc,uwsa1_17340da6061,uwsa2_171af9e29c7,uwsa1_17139f9ddc4,uwsa2_172f9a83ba9,uwsa1_17323f93cc7,uwsa2_173228da6ca,uwsa1_171a5ecbee8,uwsa1_171b53438d6,uwsa1_171fd7d44ec,uwsa2_1730e479386,uwsa1_1723b74e180,uwsa2_171b560eca8,uwsa2_171fda21d8e,uwsa2_173033c768a,uwsa1_172ff6b63e5,uwsa1_172ff1a2564,uwsa1_172270122f8,uwsa1_170dc1e20e5 ' 'uwsa1_1725a3a2c54,uwsa1_1724a68127a,uwsa1_172ee9c8f78,uwsa1_17225f8e83c,uwsa1_172939e545f,uwsa2_1725f8f6001,uwsa2_1726e008669,uwsa2_17234e68fca,uwsa1_1723019f9af,uwsa1_1716e255592,uwsa1_170fb8fa0ca,uwsa2_1721623f1e5,uwsa2_171d3cdce8f,uwsa2_170a4cdd205,uwsa2_170a4c955f2,uwsa1_17157a1e5e0,uwsa2_1718275d18a,uwsa1_1716dd30d8e,uwsa2_16de87cce53,uwsa2_16ff08a3727,uwsa1_170329a0c41,uwsa2_16c607f126e ' '本体価格 3,580,000 円\n'

記事タイトルがまとめられたデータ

mC4データセットには、FC2から収集された記事のタイトルが集約されたデータも含まれています。こうしたデータでは、関連記事のタイトルが多く含まれています。例えば以下のデータでは記事本文よりも関連記事のタイトルの方が文字が多くなっています。このようなデータは、日本語の学習データとして、あまり意味のある情報を含んでいなさそうですね。

'【V系】LIVE SETLIST【セトリ】\u3000セルフカバー\n' 'セルフカヴァーアルバム「LUNA SEA」試聴曲追加！（2）\n' '3月16日に発売されるLUNA SEAのセルフカヴァーアルバム「LUNA ' 'SEA」ですが本日18時より、試聴曲が追加になるようです又、明日9日からは着うた全曲一斉配信がスタートしますLUNA SEA ' 'Official(avex)\u3000Tweet\n' '杉本善徳 GIGS「エンドレスセブン」一部公演見合わせのお知らせ\t「FANATIC◇CRISIS FILM GIG Vol.4」延期のお知らせ\t' 'ナイトメア（Nightmare）エイベックス移籍と移籍第一弾シングル発売！\t星野英彦&櫻井敦司\u3000栗山千明の1stアルバムに参加！\t' 'wyse復活へのカウントダウン！？今週は月森\t黒夢『XXXX THE FAKE STAR』フジテレビNEXTにて放送\t河村隆一（LUNA ' 'SEA） Myspace、Facebook、twitter開設！\tセルフカヴァーアルバム「LUNA SEA」試聴曲追加！（2）\t' 'INORAN（LUNA SEA） SuperTramp PV公開！\tLUNA SEA CD&DVD購入者特典スペシャルキャンペーン決定！！\t' 'セルフカヴァーアルバム「LUNA SEA」試聴曲追加！\tINORAN（LUNA SEA）の「音旅」次回ゲストはRYUICHI\tLUNACY（LUNA ' 'SEA）黒服限定GIGが3D上映会開催！\tSTEALTH[アルストロメリア] Amazonでも取り扱い開始！\tセルフカヴァーアルバム「LUNA ' 'SEA」試聴開始！\t2011-03-08(15:29) : --- ニュース/情報 --- : このページのトップへ\n' 'セルフカヴァーアルバム「LUNA SEA」試聴曲追加！\n' '3月16日に発売されるLUNA SEAのセルフカヴァーアルバム「LUNA ' 'SEA」ですが本日より、試聴曲に「FATE」と「SHADE」が追加になりました！LUNA SEA Official(avex)\u3000Tweet\n' '星野英彦&櫻井敦司\u3000栗山千明の1stアルバムに参加！\twyse復活へのカウントダウン！？今週は月森\t黒夢『XXXX THE FAKE ' 'STAR』フジテレビNEXTにて放送\t河村隆一（LUNA SEA） Myspace、Facebook、twitter開設！\t' 'セルフカヴァーアルバム「LUNA SEA」試聴曲追加！（2）\tINORAN（LUNA SEA） SuperTramp PV公開！\tLUNA SEA ' 'CD&DVD購入者特典スペシャルキャンペーン決定！！\tセルフカヴァーアルバム「LUNA SEA」試聴曲追加！\tINORAN（LUNA ' 'SEA）の「音旅」次回ゲストはRYUICHI\tLUNACY（LUNA SEA）黒服限定GIGが3D上映会開催！\tSTEALTH[アルストロメリア] ' 'Amazonでも取り扱い開始！\tセルフカヴァーアルバム「LUNA SEA」試聴開始！\tLUNA SEA -3月3日ひな祭りに何かが起こる…-\t' 'LUNACY（LUNA SEA）黒服限定GIG BShiにて再放送\tセルフカバーアルバム「LUNA SEA」3/1より一部先行視聴スタート\t'

複数の商品がまとめられたデータ

元のリンクが辿れないため、データの詳細は分かりませんが、ネットショッピングで検索した結果のようなものもあります。このようなデータは単語の羅列部分が多々ありますが、文も存在しています。全角スペースの\u3000などの処理をしっかりすると学習データとしては使えそうですね。

'【エントリーでP20倍】～8/29:59円形こたつ掛け布団【直径205cm】／こたつ掛け布団スウェード調パッチワーク円形冬おしゃれインテリア人気新生活模様替えモダンシックかわいい\u3000' '家具・インテリア callmedid.com\n' '【エントリーでP20倍】～8/29:59円形こたつ掛け布団【直径205cm】／こたつ掛け布団スウェード調パッチワーク円形冬おしゃれインテリア人気新生活模様替えモダンシックかわいい\u3000' '家具・インテリア\n' '▼円形こたつ掛け布団【直径 205cm】サイズ直径205cm 素材綿100％\u3000詰め物ポリエステル100％（テイジン\u3000' 'マイティトップ2ECO（R）使用、防ダニ・抗菌防臭加工）生産国日本注意事項 ' '※サイズは概算です。※商品の色をできる限り再現するように撮影しておりますが、お使いのモニターにより、色の見え方が異なる場合がございます。家具 ' 'インテリアインテリア雑貨雑貨通販おしゃれオシャレお洒落安い激安特価高級感シンプルデザイナーズかわいいランキング人気北欧 ' 'ナチュラルアンティークモダンおすすめプレゼントギフト贈り物記念誕生日結婚祝い引越し引っ越し新居ワンルーム一人暮らし ' '二人暮らし部屋新生活模様替え布団カバーこたつ布団コタツ布団コタツカバーカバーこたつコタツ ' 'リビングカテゴリ：こたつ掛け布団：直径205～235cm\n' '【エントリーでP20倍】～8/29:59円形こたつ掛け布団【直径205cm】／こたつ掛け布団スウェード調パッチワーク円形冬おしゃれインテリア人気新生活模様替えモダンシックかわいい\u3000' '家具・インテリア,;orange\u3000140×200cm\u3000柄物\u3000おしゃれ\u3000'

日記データ

mC4データセットにはウェブ上で公開されている日記データも含まれています。しかし、以下のデータは元の日記にあった日付が削除され、テキストが統合されているため、文脈が不自然になっている部分もあります。それでも、多くの文章を含んでいるため、学習データとしては有用そうですね。

'jubilo-diary1407\n' 'ミッドウィークのゲームはなかなか辛い。定時で上がるのがほぼ無理なわたしにとってはゲームの前後の勤務日の仕事が押しまくることになるのだ。しかもいつもの駐車場が使えない。\n' 'スタジアムに着いて感じたこと。何か子どもが多いなあ。夏休みってことが関係あるのか？この日は、ヤマハ＆ヤマ発デイと言うことでジュビロ広場にはチケット引換所みたいなものが置かれていた。夕食は、最近のお気に入りであるオーバーライス。\n' 'さすがにミッドウィークのナイトマッチとのことで釜玉のサポは少なめだ。それでも9,000ほども入ったのはどーいんのおかげか？\n' 'ゲーム開始時には何となくのんびりとした雰囲気だったスタンドもゲームの内容があまりにもアレだったこともあって勝ったとは言えすっきりとしない顔をした人たちばかりだった。ま、勝って喜ぶと言うより、やれやれ一安心ってところなんだろうと思う、\n' '次節はフェルジナンドがサスペンド。彼抜きで松本と戦うことになる。アウェイの時も３人ほどいない中で戦ったハズだが巡り合わせが悪いね。松本戦は今季の浮沈どころかこの先２〜３年の磐田の有り様を決定づける大事なゲームとなるだろう。ホームジャックは必至の状況だがやられるわけには行かない。負けられない戦いなんて甘っちょろいもんじゃない、勝たなければならない戦いなのだ。\n' '前節のヴェルディ戦同様に横浜は磐田のディフェンスのほころびを突いてきた。中へ絞れば外へ開き、外をケアすればスカスカになった中央に侵入。敷いているラインが低いからたちまち被弾する。\n' '前からのディフェンスがうまくいかないからラインを下げて受け止めることにしたのに、こうも簡単に崩されるのではどーしたら良いのやら。できないことはやめて、できることで対応するように変えてきての結果がこれでは、もはや打つ手が無いのでは？と思わざるを得ない。正念場は続く。\n' 'ふがいないゲームにタイプアップの5分以上前から席を立つ人が後を絶たなかった。\n' 'ディフェンスの脆弱性がやはり個のチームの不安定要因第一なんだろうね。この敗戦を受けて大佐は戦術をどう変えてくるだろうか？前から言ってもダメ、引いてもダメ、となったらどーすりゃええんぢゃい。\n' '不安定と言えば、天気も不安定で、この日とその前日は日中に激しい雷雨に見舞われて、浜松では野球場に落雷があって隣の陸上球技場で大会に参加していて雷からの避難のために野球場のスタンド下のスペースで休んでいた選手や野球場の観客が過呼吸などで救急搬送されたと言うことです。って、過呼吸で救急搬送ですか？また、磐田駅前が冠水してえらいことになっていたらしいです。この日は、前日ほどでは無く被害も無くゲームもつつがなく行えて、恐悦至極に存じますです。\n' '今日はコメントする気にならないので、いじょ。(^_^)ゞ\n'

Hatena Blogのデータ

Hatena Blogの商品レビュー記事などもデータに含まれていました。個人で大量の文を書くので事前学習のデータとしてはとても良さそうですね。

'ミックスが激安！日本食研\n' 'まだ食べてませんがすぐ届きました( 〃▽〃)楽しみです( ' '〃▽〃)普通に美味しいです。前々から気になっていた品が送料無料のキャンペーンをしていたので買ってみてました。レシピ通りだと！杏仁の香りがしっかり！甘さは控え目ですね。\n' 'あまった牛乳が ' 'おいしい杏仁豆腐に変身して(;^ω^)あっという間になくなっちゃいます。とにかく簡単なのにとっても美味しい〜本当にトロっと濃厚です！好みの味！下手なお店で食べるより美味しく出来ちゃってちょっとビックリ(笑)一気に作り過ぎたかと思いましたがペロリ完食、大好評でした♪トロリとして口当たりの良い杏仁豆腐です。色々検索してこちらにしました。売っている杏仁豆腐と同じく美味しいです。他の市販の物より美味しいです。好みの味に調整して頂きたいと思います。わかりやすい分量比なので牛乳の量に合わせて作れます。牛乳の量に合わせて分量が調整出来るのが嬉しいです。使用する牛乳で触感も変わります。もち麦が購入出来なくなると、コスパが下がるのが残念です。不安がたくさんありましたが、美味しい杏仁豆腐で良かったです。牛乳あたためて混ぜるだけで簡単ですし！お勧めです。購入して良かったです。500mlに対して100gでいいので、残った量に合わせて使えます。今まで食べた杏仁豆腐の中で一番美味しかったです。これから美味しく頂く予定です。自宅で簡単に美味しい杏仁豆腐が作れました。少し硬めで！杏仁も香るし手軽に食べる美味しい杏仁豆腐でした。間違いないと思います。誰が食べても美味しく感じると思います。我が家は ' '牛乳をあまりそのままで飲まないので・・・どうしても ' '残っちゃうのですが！中途半端に残ったときにこちらを使ってます。コンビニのは少し柔らかいので断然此方の商品が良かったです。子供達も美味しいと食べていました。たくさん購入した内の一つです。杏仁豆腐が牛乳のみで作れて簡単です。おやつに便利！！すぐなくなってしまいました業務用で安かったので、100均ぐらいの味かと予想したけど大変美味しかったです。杏仁の風味もくどくなく美味しかったです。。\n' 'オンラインは中古より新品がお得ですメリーチョコレートまとめ買いの購入ならココのお店～！チョコレートお買い得は今がお買い得で安い時期 2017年度 ' 'イースターアーモンドが好評 2017年度\n' '美味しかったので他の種類も購入してみたいと思いました。カカオやアーモンドの産地を記載してほしいです。前回はあっという間に無くなってしまったので！小出しにしてじっくり味わって食べようと思います。\n' '【洋菓子お得】オンライン限定\u3000アーモンドチョコレート\u3000500g入【入学入園新生活引越しイースターこどもの日母の日 ' 'ギフトお祝い帰省出産内祝いお菓子おやつまとめ買いお買い得メリーチョコレート】\n' '市販のものは一箱ぺろっと食べてしまうのですが！こちらは５粒も食べれば十分！甘いから？と思うかもしれませんが！あっさりとしていてしつこくありません。欲しいものがあり！送料無料にするためにいろいろ考えてこちらも合わせて買いました。袋にはジッパーが付いているので、キチント閉めておけば大丈夫！一袋1ヶ月程で終わりました。それほど甘くない少し柔らかめのチョコに包まれた粒よりのアーモンド！表面はカカオの粉をまとった一粒一粒が袋いっぱいに入ってます。これは初めて買ったが！うますぎる。アーモンドやチョコレートは適量なら体に良さそう。また太ってしまう。美味しかったのでリピートです。こちらのアーモンドチョコレートは！甘過ぎないので！余計に進んで止まりません・・・あー！もう太ってもいいや！(^_^;配送の包装も！中身安全！簡便でよかった。気に入ったのでりピします。アーモンドとチョコの味わいがとても美味しいので、食べ始めると止まらなくなるので一回に食べるのは3粒までと決めて食べることにしています。すっかりハマってしまいました。賞味期限は半年ほどです。アーモンドチョコレートも、食べ出すと止まらないアイテムの一つです。おやつにぴったり。。少しでも満足のいく味付けになっています。市販のものと比べても高くはないのでいいかなと。甘すぎず美味しい。ココアパウダーが塗してあるので光沢剤は使用してないようです。\n' 'クッキー購入でポイント獲得ならAmazonより「楽天」！マシュマロまとめ買いが人気♪\n' '自分用にも味見の為１個買いました。。適度な弾力のマシュマロと美味しいチョコレート。\n'

おわりに

LLMの事前学習で広く使われるデータセットmC4をダウンロードし、中身を確認しました。
確認の結果、学習にとって有害かもしれない、意味のない文字列やタイトル、商品名の羅列などが多く含まれていることがわかりました。
これらのノイズデータを適切に除去することで、日本語の大規模言語モデルの性能向上が期待できるかもしれませんね。

この記事が気に入ったらサポートをしてみませんか？