node.jsを利用したクローラー作成(52)

若干やる気を失ったけど、部屋掃除しまくったら治る。不思議!
クローラーの新設計移行はちょっと時間かかりそうなので一旦保留。
収集済みのデータがちょっとおかしかったので正規化を行った。

やったこと

・cheerioで出力したhtmlにて日本語が実体参照文字になっていたデータを全て修正
・収集済みデータ内の外部リンク、hrefの内容がおかしくなっていたので全データ修正
・cloud storageの古いbuscketを削除
・収集済みデータ量が15G超えてたので、cloudstorageの機能を使って重いデータは期限が来たら自動削除するようにする。ことの検討。
・サイトのバグ調査など

一応気になってたデータの問題点は潰せたので、ゆるゆると新設計を進める。

寝ます。


この記事が気に入ったらサポートをしてみませんか?