言語処理100本ノック2020解いてみた③ 後編
完全に別タスクが割り込んでしまい、先を解いていない状態なのですが、粛々と前回の続きです。ところでsidecarのご機嫌はまだ直りません。
25. テンプレートの抽出
解法
ちょっと冗長になってしまいました。<ref>系とか<br />系を取り除こうとしたらどうしても長ったらしくなってしまいましたね。
import pandas as pdimport redf = pd.read_json("data/jawiki-country.json", lines=True)t