「東京敷礼取れる駅」の作り方
「東京敷礼取れる駅」という地図の作り方のメモ。
東京敷礼取れる駅 とは?
駅徒歩15分以内の賃貸募集物件の敷金・礼金平均値を、駅ごとにプロットした地図。敷金、礼金が多く取れる=供給側が強いという仮定で、いわゆる駅力の高い貸し手有利なエリアを探すときに。
https://www.google.com/maps/d/u/0/edit?mid=1Ks1xrjWneS896taeSRDUnwXf3axslxOK&usp=sharing
1.データの抽出
スクレイピングツール「Octoparse」を利用し、SUUMOからデータの抽出を行った。ツールの利用方法はホームページを参照。
抽出で工夫した点
・なるべくデータの取りこぼしをしないよう、取れるデータは全て取得し、後から必要な部分を削りだす方針とした。なのでスクレイピングはページを丸呑みするイメージでデータを抽出した。
・SUUMOの賃貸物件表示方法は「物件ごと」「部屋ごと」の2種類があるが、物件と部屋の紐づけをしたいため、物件ごと表示するページを選択。
・後続工程での重複排除を行う際、ソートする手間を省くため、予め住所順でソートしたページからデータを取得、極力ページ遷移を少なくするため表示件数は最大の50件(50物件)とした。
・ページを開いてみるまで1物件当たり何件の部屋が募集されているかわからず、都度ページ構成が変わるため、必ず存在する一番外側のタグでデータを取得するようにした。
・東京を6つのエリアに分け、並行してデータ抽出を行うことで抽出時間を短縮した。
2.データのクリーニング
抽出したデータから必要な情報を取り出すためにクリーニングを行った。
(1)ノイズの除去
1.で取得したデータにはノイズが含まれ、レイアウトが崩れているため、そのままExcelにインポートしても分析ができない。以下の手順でノイズ除去を行った。処理にはサクラエディタを利用し、手動で実施。
処理内容
・不要文字(タブ文字、「お気に入り登録」「パノラマ」など関係ない文字列)の削除
・レコード内データの区切り文字である改行コードLFをコンマ「,」に変換。コンマが連続した場合は2つ目以降を削除。
・レコードの区切り文字であるダブルクオーテーションを改行コードCRLFへ変換。
(2)データ整形
(1)で作成したデータは、1物件1レコードで複数の部屋が紐づいている。部屋単位で分析するため、1部屋1レコードとするを処理を行った。また、最寄り駅が複数登録されている物件については、それについても分割した。
データ処理はExcel VBAにてマクロを作成し処理。
(整形前)物件A,東京都港区六本木,六本木駅5分,乃木坂駅13分,1階,10万円,5000円,1K,20㎡,2階,11万円,5000円,1K,20㎡,7階,12万円,5000円,1K,20㎡
(整形後)物件A,東京都港区六本木,六本木駅5分,1階,10万円,5000円,1K,20㎡
物件A,東京都港区六本木,六本木駅5分,2階,11万円,5000円,1K,20㎡
物件A,東京都港区六本木,六本木駅5分,7階,12万円,5000円,1K,20㎡
物件A,東京都港区六本木,乃木坂駅13分,1階,10万円,5000円,1K,20㎡
物件A,東京都港区六本木,乃木坂駅13分,2階,11万円,5000円,1K,20㎡
物件A,東京都港区六本木,乃木坂駅13分,7階,12万円,5000円,1K,20㎡
(3)重複排除
SUUMOでは、同じ建物、同じ部屋が別の物件として掲載されることがあり、物件数が実際より多くなってしまうため排除する必要がある。
一定の基準を満たしたデータを重複情報として削除した。
データ処理はExcelの標準機能を利用した。
次の項目が同値となる部屋は同じ部屋とみなして削除した。
「住所、最寄り駅+駅徒歩、築年数、建物階数、部屋所在階、賃料、管理費、間取り、面積」
建物名も取得することができるが、表記揺らぎが大きく本来重複している物件が別々の物件とみなされるケースが多かったため、採用しなかった。
面積については、小数点以下を丸めるなどの揺らぎが発生する可能性があるが、同じ建物の同じ間取の部屋を分別する場合に有用なため採用した。
なお、SUUMOでは部屋番号が取得できない(できれば重複問題は解決する)
この手法では、募集直後の新築物件など、同じ階に同じ間取・面積・賃料の部屋が複数ある場合は重複とみなされ排除されることに留意。(新築物件は例外的な処理をする、という方法もいいかもしれない)
(4)情報の追加
地図にプロットした情報を追加。
今回はエリアごとの部屋数のカウント、敷金礼金の合計値、ランキングなどを追加している。
データ処理はExcelにて手動、ピボットテーブルなどで実施。
3.地図の作成
google マイマップを利用。
詳細は以下のページ参照。
https://impact777.jp/blogs/1099
4.データ取得元
賃貸住宅データ・・・SUUMO(データ取得日:2021年3月23日)
人口動態データ・・・東京都統計局
5.ツール
Octoparse
サクラエディタ
googleマップ
この記事が気に入ったらサポートをしてみませんか?