マガジンのカバー画像

Wikipedia を完全に理解する

3
運営しているクリエイター

#Wikipedia

Wikipedia の XML をパースする(テンプレート編)

前回からずいぶん期間が開いてしまったけど再始動します。ダウンロードした jawiki-latest-pages-articles.xml をパースします。処理の流れとしては以下。

* ns, id, title, text のタグが始まったらそのタグが始まったことを表すフラグの値を True にし、同じくそのタグが終わったらフラグの値を False にする。
* フラグが True になっている

もっとみる

Wikipedia のデータをダウンロードした

ダウンロードブラウザでダウンロードしようとしたら5時間ほどかかりそうと言われた Wikipedia のデータは、 Wget をしかけて寝るという昔ながらのやり方でダウンロードしました。

jawiki-latest-pages-articles.xml.bz2 2.96G 1.40MB/s 時間 1h 55m
jawiki-latest-pages-meta-current.xml.bz2 3.

もっとみる

Wikipedia データのダウンロードに向けて

前々から Wikipedia のデータを触ってみたいなと思っていて、ときおりデータについてのページとかを見てはいつつも具体的な行動はせずにいましたが、ようやく重い腰を上げることにしました。よっこいしょ。

日本語で書かれている Wikipedia:データベースダウンロード によると、 page-aticles.xml.bz2 が必要そうなので https://dumps.wikimedia.org

もっとみる