- 運営しているクリエイター
#Wikipedia
Wikipedia の XML をパースする(テンプレート編)
前回からずいぶん期間が開いてしまったけど再始動します。ダウンロードした jawiki-latest-pages-articles.xml をパースします。処理の流れとしては以下。
* ns, id, title, text のタグが始まったらそのタグが始まったことを表すフラグの値を True にし、同じくそのタグが終わったらフラグの値を False にする。
* フラグが True になっている
Wikipedia のデータをダウンロードした
ダウンロードブラウザでダウンロードしようとしたら5時間ほどかかりそうと言われた Wikipedia のデータは、 Wget をしかけて寝るという昔ながらのやり方でダウンロードしました。
jawiki-latest-pages-articles.xml.bz2 2.96G 1.40MB/s 時間 1h 55m
jawiki-latest-pages-meta-current.xml.bz2 3.
Wikipedia データのダウンロードに向けて
前々から Wikipedia のデータを触ってみたいなと思っていて、ときおりデータについてのページとかを見てはいつつも具体的な行動はせずにいましたが、ようやく重い腰を上げることにしました。よっこいしょ。
日本語で書かれている Wikipedia:データベースダウンロード によると、 page-aticles.xml.bz2 が必要そうなので https://dumps.wikimedia.org