Wikipedia の XML をパースする(テンプレート編)
前回からずいぶん期間が開いてしまったけど再始動します。ダウンロードした jawiki-latest-pages-articles.xml をパースします。処理の流れとしては以下。
* ns, id, title, text のタグが始まったらそのタグが始まったことを表すフラグの値を True にし、同じくそのタグが終わったらフラグの値を False にする。
* フラグが True になっている状態で文字列が来たら値を変数に代入する。
* page タグが終わり、 ns の