見出し画像

Wikipedia日本語データセットの読み込み

日本語LLMの学習にWikipediaの日本語データセットがよく使われているので、使い方を調べてみました。

データセットgraelo/wikipediaを使用

Hugging Faceにあるwikipediaデータセットは、なぜか日本語データセットがうまく読めませんでした。
graelo/wikipediaデータセットでは、日本語データセットが読めたので、こちらで確認しました。

データセットを読み込むソースコード

長々書いてますがコア部分は次の1行だけ。

# データセットの保存先を外付けハードディスクにしているのでchache_dirを指定
wiki = load_dataset("graelo/wikipedia", "20230901.ja", cache_dir="/Volumes/DataSets/DataSets")


Pythonインタプリタでデータの確認

% python
Python 3.11.6 (main, Oct  2 2023, 13:45:54) [Clang 15.0.0 (clang-1500.0.40.1)] on darwin
Type "help", "copyright", "credits" or "license" for more information.
>>> from datasets import load_dataset
>>> wiki = load_dataset("graelo/wikipedia", "20230901.ja", cache_dir="/Volumes/DataSets/DataSets")

/Users/uchida0masatoshi/PythonProjects/DataSetsScripts/myenv/lib/python3.11/site-packages/datasets/load.py:1454: FutureWarning: The repository for graelo/wikipedia contains custom code which must be executed to correctly load the dataset. You can inspect the repository content at https://hf.co/datasets/graelo/wikipedia
You can avoid this message in future by passing the argument `trust_remote_code=True`.
Passing `trust_remote_code=True` will be mandatory to load this dataset from the next major release of `datasets`.
  warnings.warn(
>>> 
>>> wiki
DatasetDict({
    train: Dataset({
        features: ['id', 'url', 'title', 'text'],
        num_rows: 1383531
    })
})

 trainにデータが1383531個あることがわかります。

>>> wiki['train'][2]
{'id': '81', 'url': 'https://ja.wikipedia.org/wiki/%E3%82%B4%E3%83%BC%E3%83%80%E3%83%81%E3%83%BC%E3%82%BA', 'title': 'ゴーダチーズ', 'text': 'ゴーダチーズ( , 、 )は、オランダを代表するチーズ。穏やかでクセのないマイルドな味わいとまろやかな香りをもつ。熟成が進むとうまみが凝縮され濃厚な味わいと芳醇なコクと風味になる。オランダでのチーズ生産量の60 %を占める。ロッテルダム近郊の町、ゴーダで作られたことからこの名前がついた。正確な起源は不明だが12世紀頃にまで溯るとされることが多い。\n\n概説 \n外見は黄色がかった茶色い円盤型で、正式なサイズが直径35 cm×高さ11 cm・重さ約12 kgと決められており、それより小さなものを総称して「ベビーゴーダ」と呼んでいる。中は白から黄色。熟成と共に色が変化する。熟成されたゴーダの中には表面が黒いものもある。エダムチーズと並ぶオランダの代表的なチーズ。\n\nクミンシードやニンニクなどを用いて香りをつけたものもある。\n\n主な材料は牛乳とレンネット(凝乳酵素)。\n\nチーズの種類としてはセミハードに分類される。味はマイルドで日本では比較的広く親しまれている。\n\nオランダでは土産物として空港などで売られている他、食料品店、チーズ販売店などでもほぼ置いている。チーズ店などでは特に包装をしていないものを常温で積み上げている場合もある(右図)。これは表面をロウでコーティングしてあり、ナイフを入れない限り熟成が急激に進む心配がないため。他に、フィルムにくるんだものや、真空パックのように包装したものもある。\n\n日本では、チェダーチーズと並んでプロセスチーズの主要な原料として用いられているとされる。また、ゴーダチーズを原料としたスライスチーズが明治から販売されている。\n\n脚注\n\n外部リンク \n 雪印メグミルク|チーズクラブ「ゴーダ」\n \n\nオランダのチーズ\n牛乳のチーズ'}

2番目のゴーダチーズの内容

>>> wiki['train'][1383530]
{'id': '4822270', 'url': 'https://ja.wikipedia.org/wiki/%E3%83%96%E3%83%AB%E3%83%88%E3%83%A9%E3%83%A0', 'title': 'ブルトラム', 'text': 'ブルトラム()は、トルコの都市・ブルサの路面電車。超低床電車が使用されている近代的なライトレール路線とドイツで使用されていた旧型車両が用いられる保存路面電車路線が存在し、2023年現在は地下鉄(ブルサライ)や路線バスなどの公共交通機関と共にが所有する(BURULAŞ)によって運営されている。\n\n概要 \nブルサ市内における路面電車の建設計画は20世紀初頭の時点で存在しており、第一次世界大戦を経て運営組織の設立、発電所や車庫などの建設工事が行われたがこの時点で路面電車の開通は実現せず、発電所の電力も各種産業に転用された。以降も路面電車の導入は長らく行われなかったが、2011年にであるT3号線の建設が始まり、同年の5月28日と11月5日の2段階に分けて営業運転が開始された。そして、翌2012年からは本格的な路面電車(ライトレール)路線であるT1号線の建設が進められ、2013年10月12日に開通した。\n\nその後はT1号線から分岐するT2号線の計画が進められたが、不安定な経済情勢やインフレの影響により建設開始は当初の計画よりも遅れ、営業運転が開始されたのは2022年7月2日となった。これを含め、2023年現在ブルトラムは以下の3つの系統で運行が行われている。\n\n車両 \n2023年現在、ブルトラムで使用されている車両は以下の通り。T1号線・T2号線ではトルコ国内で生産された超低床電車が使用されている一方、保存路面電車でもあるT3号線ではドイツから譲渡された車両が在籍している。\n\nT1・T2号線\nシルクワーム - トルコのダーマズラ(Durmazlar)が開発した、同国初の国産超低床電車。T1号線には片運転台車両、T2号線には両運転台車両が導入されている。\nT3号線\nM6C - ドイツ(旧:西ドイツ)のデュワグが生産した2車体連接車。そのうちT3号線で使用されているのはボーフム(ボーフム/ゲルゼンキルヒェン市電)から譲渡された3両である。\nゴータカー - ドイツ(旧:東ドイツ)のゴータ車両製造で製造された2軸車。ドイツ各都市から譲渡された車両に加え、ドイツからイスタンブールのを経て再譲渡されたものも存在する。2022年時点では4両が在籍する。\n\n脚注\n\n注釈\n\n出典\n\n参考資料\n\n外部リンク \n\nふるとらむ\nブルサ'}

一番最後のデータ

参考

日本語データセットよめるgraelo/wikipedia

こっちのデータセットはなぜか日本語データ読めない

https://scrapbox.io/miyamonz/huggingface%2Fdatasets%E3%81%A7%E6%97%A5%E6%9C%AC%E8%AA%9E%E7%AD%89%E3%81%AEwikipedia%E3%83%87%E3%83%BC%E3%82%BF%E3%82%92%E3%83%80%E3%82%A6%E3%83%B3%E3%83%AD%E3%83%BC%E3%83%89%E3%81%99%E3%82%8B


この記事が気に入ったらサポートをしてみませんか?