node.jsを利用したクローラー作成(52)
若干やる気を失ったけど、部屋掃除しまくったら治る。不思議!
クローラーの新設計移行はちょっと時間かかりそうなので一旦保留。
収集済みのデータがちょっとおかしかったので正規化を行った。
やったこと・cheerioで出力したhtmlにて日本語が実体参照文字になっていたデータを全て修正
・収集済みデータ内の外部リンク、hrefの内容がおかしくなっていたので全データ修正
・cloud storageの古いbuscketを削除
・収集済みデータ量が15G超えてたので、cloudsto