見出し画像

wiki-40b の使い方

「wiki-40B」の使い方をまとめました。

1. wiki-40b

wiki-40b」は、40以上の言語のWikipediaを前処理して作られたデータセットです。言語ごとに学習/検証/テストのデータ(全記事の90%/5%/5%)が提供されています。

・学習データ : 74万5392件
・検証データ : 4万1576件
・テストデータ : 4万1268件

2. TensorFlow Datasetsのインストール

wiki-40b」は「TensorFlow Datasets」経由で取得できます。
「TensorFlow Datasets」をインストールするコマンドは、次のとおりです。

$ pip install tensorflow==2.4.1
$ pip install tensorflow-datasets==3.2.0

3. データセットの取得

データセットを取得するコードは、次のとおりです。

# データセットの取得
import tensorflow_datasets as tfds
ds = tfds.load('wiki40b/ja', split='test')

# 0番目の記事の確認
wiki = list(ds.as_numpy_iterator())[0]
print('text:', wiki['text'].decode())
print('version_id:',wiki['version_id'].decode())
print('wikidata_id:',wiki['wikidata_id'].decode())
text: 
_START_ARTICLE_
ビートたけしの教科書に載らない日本人の謎
_START_SECTION_
概要
_START_PARAGRAPH_
「教科書には決して載らない」日本人の謎やしきたりを多角的に検証し、日本人のDNAを解明する。_NEWLINE_新春番組として定期的に放送されており、年末の午前中に再放送されるのが恒例となっている。
version_id: 1848243370795951995
wikidata_id: Q11331136

データセットは、tfds.load()で取得します。第1引数には「wiki40b/ja」(日本語)を指定し、splitには「train」「validation」「test」(学習、検証、テスト)を指定します。

取得した記事には、以下の情報が含まれます。

・text : 前処理済みのテキスト
・wikidata_id : WikidataのID
・version_id : バージョンID

前処理済みのテキストには、以下のマークアップが埋め込まれています。

・_START_ARTICLE_ : ページタイトル
・_START_SECTION_ : 節のタイトル
・_START_PARAGRAPH_ : 説明文
・_NEWLINE_ : 改行

4. データセットをテキスト形式で出力

データセットを説明文のみのテキスト形式で出力するコードは、次のとおりです。

import os
import tensorflow_datasets as tfds
ds_test = tfds.load('wiki40b/ja', split='test')

# データセットをテキスト形式で出力する関数
def create_txt(file_name, tf_data):
    start_paragraph = False

    # ファイルの書き込み
    with open(file_name, 'w') as f:
        for wiki in tf_data.as_numpy_iterator():
            for text in wiki['text'].decode().split('\n'):
                if start_paragraph:
                    text = text.replace('_NEWLINE_', '') # _NEWLINE_は削除
                    f.write(text + '\n')
                    start_paragraph = False
                if text == '_START_PARAGRAPH_': # _START_PARAGRAPH_のみ取得
                    start_paragraph = True

# データセットをテキスト形式で出力
create_txt('wiki_40b_test.txt', ds_test)

「wiki_40b_test.txt」が生成されます。

「教科書には決して載らない」日本人の謎やしきたりを多角的に検証し、日本人のDNAを解明する。新春番組として定期的に放送されており、年末の午前中に再放送されるのが恒例となっている。
ライブドア社員であった初代代表取締役社長の山名真由によって企業内起業の形で創業。2005年に株式会社ライブドアから分割されて設立。かつてはライブドアホールディングス(現・LDH)の子会社であったが、ノンコア事業の整理にともない、株式会社ゲオ(現:株式会社ゲオホールディングス)に所有する全株式を譲渡し、同社の完全子会社となった。「ぽすれん」「ゲオ宅配レンタル」のオンラインDVDCD・コミックレンタルサービス及び「GEO Online」と「ゲオアプリ」のアプリ・ウェブサイト運営の大きく分けて2事業を展開している。以前はDVD販売等のEコマースサービス「ぽすれんストア」、動画配信コンテンツ「ぽすれんBB」や電子書籍配信サービスの「GEOBooks」事業も行っていた。オンラインDVDレンタル事業では会員数は10万人(2005年9月時点)。2006年5月よりCDレンタルを開始。同業他社には、カルチュア・コンビニエンス・クラブが運営する『TSUTAYA DISCAS』のほか、DMM.comが運営する『DMM.com オンラインDVDレンタル』がある。過去には「Yahoo!レンタルDVD」と「楽天レンタル」の運営を受託していた。
    :



この記事が気に入ったらサポートをしてみませんか?