見出し画像

京都のホテルの3ヶ月先までの販売価格のデータを3ヶ月間ためて分析してみた

先日書いた以下の記事の続編です。この3ヶ月間、Octoparseというスクレイピングソフトを無料で利用できる範囲で地道にデータをためてみたので、その結果をシェアします。凄い発見とかは無いので、あまり期待しないでくださいね笑

約2,000軒の宿泊施設の各週末の販売価格

まず、データセットのスペックを整理しておきたいと思います。

スクレイピングの対象としたのは、大手宿泊予約サイトBooking.comです。検索エリアは「京都市」を指定。土曜日にチェックインして日曜日にチェックアウトという週末利用を、12週先まで検索。利用人数は標準設定どおり2名1室とします。

検索は、4/21(火)から1週間おきに実施し(基本的に火曜日ですが、たまに前後してますすいません)、先週の6/9(火)までの12回に渡ってデータを蓄積しました。

Booking.comで京都市の宿泊施設を検索すると、だいたい1,400件程度ヒットするのですが、スクレイピングで利用したOctoparseの無料版では、1度に取得できるデータがだいたい1,000件までという制約があるため、残りの約400件の取得は諦めています。人気順で表示されるサイトにおいて、残りの400件の有無はそこまで重要では無いだろうという判断のもと、1,000件ずつデータを取得しています。

たとえば、4/21(火)の調査では、直近の4/25(土)の週末から、12週先の7/11(土)までのデータを取得します。これを毎週行い、データの欠損やらなんやらを処理した結果、データセットのレコード数は85,274件となっています。

データ上に登場する宿泊施設は約2,000軒となりました。Booking.comで客室を販売している施設に限定されるので、どちらかというとゲストハウス中心で旅館はやや少なめではありますが、京都市内の宿泊施設数が約4,000軒なので、半分は網羅していることになります。

Booking.comから取得できる主なデータ

販売価格に影響を与えると考えられる情報としてBooking.comから取得できる主なデータは「販売価格」「宿泊施設の所在地」「中心市街地までの距離」「評価点数(0~10点)」「クチコミ件数」「税・手数料の設定」「ベッド数」「部屋タイプ」「キャンセルポリシー」です。データの概要は下記リンクからご確認ください。

では、以下から分析結果をまとめていきます。

4月末からお盆にかけて価格は2倍に上昇

検索日と宿泊日別に販売価格の中央値をクロス集計した結果は以下のとおりです(本当はiframeで埋め込んでnote上でデータを見てもらいたいのですが、noteがiframe埋め込みに対応していないので、リンク先でデータをご確認ください)。平均値だと、極端に金額が高い施設に引っ張られてしまうので、中央値を採用しています.

4月末の緊急事態宣言下では販売価格10,000円という極めて低い水準でしたが、7月以降になると、15,000円を超え始めお盆の時期には20,000円に届いているケースもあります。約3ヶ月で2倍の水準にまで回復しているということになります。

ただし、予約サイト上での販売価格は、実際に購入された価格とは異なるためご注意ください。強気の価格で販売されたものの、結局そのまま購入されない場合があるので、販売価格は実勢価格より高めに推移します。

また、表を横方向に見ると、同じ宿泊日でも検索する時期によって価格が変動していることが分かります。たとえば、7/4に宿泊する場合、4/21時点の検索では17,000円だったところ、6/9時点では13,000円にまで値下がりしているということになります。

泊まりたいホテルにこだわりがなければ、なるべくギリギリまで予約を待ったほうが、安くで泊まれる可能性が高いということになります。航空便の場合は、いわゆる早割やアーリーバードが設定されているので、早く予約したほうが安くなりますが、宿泊ではその逆の市場構造になっていることはよく知られており、今回のデータでもそれを確認することができます。

新型コロナウィルスの影響で先行きが不透明なことから、数ヶ月先の価格設定を細かく調整することが難しかったり、開店休業状態で価格調整が行われていなかったりと、イレギュラーな要因がはたらいていることも考えらます。

さて、上記のデータはあくまでも中央値の推移ですが、実際には高価格帯から低価格帯まで幅広く分布しているため、価格の分布を把握することも重要です。ということで、次に箱ひげ図を見てましょう。

直前になると最高価格が急落する

箱ひげ図は、中央値だけなく、最高価格から最低価格までの分布を視覚的に把握するための表現手法です。これを、宿泊日別に整理してみた結果が以下のリンク先です。各グラフの右にいくほど、宿泊日が迫ったタイミングで検索した場合の価格分布ということになります。したがって、徐々に分布が安くなる方向に推移していることがわかります。

とくに、いずれの宿泊日においても、宿泊直前の週になると、最高価格が急落しているのがわかります。一方で、最低価格はほとんど変わっていません。つまり、高価格帯のホテルがギリギリまで定価を維持していて、予約が入らないと一気に価格を下げているということがわかります。

評価点数が価格に与える影響は大きい

前回の記事同様、検索日と宿泊日以外の情報(クチコミなど)が、販売価格に与える影響を総合的に分析するため、一般化線形モデルによる推定を行ってみました。モデル推定にあたっては、ガンマ分布を想定し、リンク関数は対数とし、四分位範囲での外れ値処理を行ったデータ(極端に高価格な施設や低価格な施設は省いている)を利用しています。

統計に詳しくない人にも理解しやすくまとめると

中心市街地からの距離が遠くなるほど、価格は下がる
約1km離れると、概ね400円下がる

評価点数が高くなるほど、価格は上がる
0.1点評価が高くなると、概ね500円上がる

クチコミ件数が増えると、価格は下がる
1件増えると、概ね10円下がる
これは、クチコミが多い施設ほど、利用者が多い廉価なゲストハウスが多い傾向にあるためだと考えられるため、解釈には注意が必要です。

ベッド数が増えると、価格は上がる
1台増えると、概ね4000円上がる
2名1室の条件で検索しても、3台以上ベッドが用意されている部屋がヒットするので、当然広い部屋ほど価格は上がります

宿泊施設にとって立地は変えようが無いことを考えると、やはり評価点数と価格の関係性が重要なようです。10点に近い評価を受けることができれば、それだけ高い価格帯で勝負ができるということになります。

部屋タイプ(洋室か和室か)など、ほかにも説明変数を増やして分析できれば、より精緻な分析ができそうなので、引き続きデータをためながら試行錯誤していきたいと思います。

さて、ここまでは全施設の平均的な傾向を分析してきましたが、今回の記事では最後に、個別の宿泊施設ごとの販売価格について集計した結果も発表したいと思います。おそらくこの結果が、もっとも具体的で生々しくて興味をそそるデータになるんじゃないかと思います。全宿泊施設を掲載すると情報量が多すぎるので、なんとなく目に止まった有名ホテル30施設をチョイスしてみました。独断と偏見です。(有名でも、Booking.comに掲載されていない施設は、当然データには含まれませんので悪しからず。また、全ての施設が全ての日程でBooking.comに在庫を出しているわけではないので、データには欠損があります。もし、以下のリストに載っている以外の施設のデータを見たいということであれば、ご連絡ください。)

パークハイアット京都/フォーシーズンズホテル京都/翠嵐/南禅寺参道 菊水/ウェスティン都ホテル京都/嵐山辨慶/八千代/サウザンド京都/エースホテル京都/ハイアットリージェンシー京都/松井本館/セレスティン京都/ホテルグランヴィア京都/ホテルカンラ京都/日航プリンセス京都/ハトヤ瑞鳳閣/クロスホテル京都/三井ガーデンホテル京都三条/都ホテル/リーガロイヤルホテル京都/京都新阪急ホテル/ソラリア西鉄ホテル京都プレミア/ANAクラウンプラザホテル京都/京都東急ホテル/静鉄ホテルプレジオ京都四条/ホテルシー京都/ホテルリソルトリニティ京都/Fujitaya Kyoto/ザミレニアルズ京都/アパホテル京都駅前

ここから先は有料とさせていただきます。こういったリサーチにご関心持っていただける方は、ぜひご支援お願いします。

ここから先は

878字 / 1ファイル

¥ 100

続きに興味を持っていただけましたら、サポートをお願いします。一定の金額が貯まったら、独自の調査活動資金に充てたいと考えています。