見出し画像

パンデミックでシェアバイクの利用は減ったか?

注意書き:以下の文書は、先日終わった大学院の統計の授業(主観的にはほぼ落第しかけてたやつ)で提出したレポートです。先生からは「なんでlinear model使うの?Generalized linear modelのpoisson使ったほうがいいんじゃないの?」とのコメントをもらいました。というわけで、はっきり言って粗だらけのレポートと思いますがご容赦ください(何をどう改善すべきかを教えていただけるとすごく感謝します)。データやRのコードは丸ごと以下に置いておきます。

1. 要旨

このレポートでは、ボストン市民の移動手段として使われている自転車シェアサービス「ブルーバイクス (Bluebikes)」の利用が、コロナウイルスのパンデミックでどう影響を受けたかを調べる。感染拡大を心配した市民は、外出を可能な限り避けるという不自由に耐えてきた。一方で、市民は時間がたつにつれ、自由のない生活に耐えられなくなってきたと指摘する人もいる。市民生活のこうした変化がブルーバイクスの利用に反映されていると仮定して、分析をおこなう。

2. はじめに

ブルーバイクスは、ボストン近郊で人気の移動手段である。月額20ドルの料金を事前に払えば、24時間365日いつでも、各地にある無人のステーションで自転車を借りて乗ることができる。目的についたら、最寄りのステーションで自転車を返せばよい。自転車を借りたのと同じ場所に戻す必要はない。現時点で360以上のステーションがあり、3500台以上の自転車が利用できる。

画像1

ボストン大学キャンパス近くにあるステーション

しかしコロナウイルスのパンデミックを受け、マサチューセッツ州のベイカー知事は2020年3月10日に緊急事態を宣言した。ボストン市での経済活動も市当局によって制限された。感染拡大を心配した人々は外出の機会を減らした。一方で夏以降、ウイルスのことを心配しなくなった一部の人が外出の機会を増やしているようにも見える。市民活動のこうした増減が、ブルーバイクスの利用からよくわかる可能性がある。

ウイルス拡大の程度は、人々がどれだけ社会活動を抑制できたかによって大きく影響される。2020年末現在、米国は感染の第3波の中にあり、累計死者数は30万を超えている。背景に人々の「パンデミック疲れ」があると指摘する人もいる。ボストンの人々が今年最大の悲劇にどう対処したかを推察するため、ブルーバイクス利用の増減を見てみることにする。

幸いなことにブルーバイクス利用の詳細はすべて、1件ごとの貸し出しと返却の時間などが月ごとにネット上で公開されている。このデータをダウンロードし、日毎のCovid-19患者発生数がブルーバイクスの利用にどう影響しているかを分析した。

一方で、分析では注意すべき点もある。

まず、ブルーバイクスのステーション数は一定ではない。ステーション数は利用が始まった2011年には62だったが、2019年末には325に増えた。これに伴い、2011年には14万件だった利用件数も、2019年には225万件に増えた。こうした増加は2020年にも続いている。

このため、2020年の利用件数が例えば2018年と比べて増えていたとしても、パンデミックの影響がなかったということにはならない。影響を正確に見積もるには、ステーション数が増えたことがブルーバイクスの利用に与えた影響を考慮する必要がある。

パンデミック以外で利用件数に影響する要素は、ほかにもある。

例えば平日と休日では、外出を楽しむ人の数は異なるだろう。また、寒くて雨の日よりも暖かくて晴れた日のほうが、外出したがる人は増える。これらの要素の影響も見積もる必要がある。このためデータを「平日」と「休日」に分け、ボストンの日毎の天候を分析対象に含めることにした。

3. 本論

3-1. データ

分析の対象は、データが入手できた2020年の1月から11月までとし、2018年と2019年の同じ期間と比較した。ステーション数のデータも公式ウェブサイトから入手した。個別のブルーバイクス利用の詳細を示すデータを加工し、日毎に何件、何時間分の利用があったかをわかるようにした。

どの日が「米国の祝日」に当たるのかを示すデータは、「Kaggle’s Federal Holidays USA 1966-2020」からダウンロードした。分析のため、土日と祝日を「休日」、その他の日を「通常の日」と定義した。

ボストンの降水量と最高気温を含む天候のデータは、米国海洋大気庁のウェブサイトからダウンロードした。本来は平均気温と降水量、風速のデータを分析したいと考えていたが、平均気温と風速のデータは一部が欠損していたために断念した。

コロナウイルスの流行については、ニューヨークタイムスがGithubで提供しているデータを、ボストンがあるマサチューセッツ州サフォーク郡のものについてダウンロードした。Covid-19の日毎の新規患者数を分析の対象とした。


3-2. 探索的データ分析

まずブルーバイクスの利用件数をグラフ化した。日毎の変動が激しく、そのままではグラフの意味するところを読み取るのが難しいため、7日間の移動平均を見ることとした。2019年と比べ、2020年は3月まではブルーバイクスの利用は継続して多かったが、パンデミックが米国を直撃して以降は少なくなったことがわかる。

次に、ブルーバイクスの利用時間を7日間の移動平均にしてグラフ化した。2019年と比べて2020年の利用時間は全体として少ないものの、その違いは利用件数ほどははっきりしていない。これはおそらく1回あたりの利用時間が長いためだと見られる。

さらに1回あたりの利用時間を示すグラフも作った。2020年にはパンデミック直後に急増し、2019年の2倍近くに達している。それ以降は次第に減少し、通常のレベルに近づいている。

画像2

3-3. 手法

3-3-1. ウイルス拡散の影響

ブルーバイクスの利用件数と利用時間に、どんな要素がどれだけ影響しているかを見積もった。

まず、パンデミックの影響を含まないモデルとして、4つの説明変数を含む重回帰分析をした。ほかに考慮すべき要素がないかを検討するため、日付を横軸に、残差を縦軸にとったグラフを描いた。フィッティングは以下のように行なった。

model <- lm(X ~ PRCP + TMAX + off + station, bb)

各変数の意味は以下の通り:

X: ブルーバイクスの利用件数(あるいは利用時間)
PRCP: 降水量
TMAX: 最高気温
off: 休日かどうか
station: ステーション数
bb: 分析対象のデータセット

次に、コロナウイルスのパンデミックがボストン市民の行動に及ぼした影響を見積もるため、新規患者数の7日間移動平均を上記のモデルに組み込み、重回帰分析をした。モデルは以下の通り:

model <- lm(X ~ PRCP + TMAX + off + station + rm_ncases, bb)

変数「rm_ncases」はCovid-19新規患者数の7日間移動平均を示している。ここでも日付を横軸に、残差を縦軸にとったグラフを描いた。

3-3-2. パンデミック疲れの影響

「はじめに」で記したように、パンデミックが始まってから時間がたつにつれ、人々が疲れ、感染拡大を防ぐ行動をとるのを嫌がるようになってきたとの指摘がある。こうしたことが起きていれば、ベイカー知事が緊急事態を宣言して以降、実際には感染拡大が続いているのに、ブルーバイクスの利用を減らす効果が薄れてきている可能性がある。

これが起きているかを検証するため、2020年の4月から11月までを月ごとに分割し、2018年と2019年の同じ月と比較した。とくに以下の重回帰分析を利用し、パンデミックの影響を見積もった。

model <- lm(X ~ PRCP + TMAX + off + station + corona, bb)

「corona」には2020年なら「1」が、その他の年なら「0」が入る。こうして得られた係数を月ごとに抽出し、ブルーバイクスの利用を減らす効果がどう変化したかを検証した。


3-4. 結果

3-4-1. ウイルス拡大の影響

新規患者数の影響を考慮していないモデルで残差をプロットすると、以下の図の赤い丸で囲われた部分にあるように、2020年春に負の方向に拡大していることが見て取れる。これは利用時間よりも利用件数を示すグラフで、よりはっきりしている。このモデルでは、パンデミックが直撃したときにブルーバイクスの利用が急減したことを捉えられていないためである。

新規患者数の影響を考慮に入れたモデルのグラフでは、同じ期間に残差はさほど拡大していない。

赤池情報量(AIC)は、ブルーバイクスの利用件数でも利用時間でも、Covid患者数を考慮しているほうが小さく、より良いモデルであることを示している。

画像3


モデルから得られた係数は、新規患者数が1人増えるごとに、利用件数は11.6件減り、また利用時間は3.2時間減ることを示している。P値はそれぞれ2e-16、1.47e-10より小さく、その効果は明らかである。

しかし、新規患者数の影響を考慮に入れたモデルでも、残差は2020年下半期になると正の方向へ増大した。この傾向はブルーバイクスの利用件数についてのモデルで、よりはっきりしていた。これが意味するのは、ウイルス拡散から時間がたつにつれ、患者数の増加がブルーバイクスの利用を抑制する効果は小さくなってきた、ということである。

3-4-2. パンデミック疲れの影響

ブルーバイクスを利用したいと思う人々の心理に与えるパンデミックの影響を、2020年の4月から11月まで、月ごとに、2018年と2019年の同じ月と比較することで見積もった。以下のグラフが示すように、夏から秋にかけて新規患者数が増えているのにも関わらず、パンデミックがブルーバイクスの利用を抑制する効果は、利用件数と利用時間のどちらでも次第に小さくなった。グラフ中で灰色の領域は95%信頼区間を示している。

画像4

4. 結論

重回帰分析によって、日毎のCovid-19新規患者数が増えることがボストン市民の行動に与える影響を分析し、ブルーバイクスの利用件数と利用時間がいずれも顕著に抑制されていることがわかった。いずれもP値は十分に小さかった。

しかしウイルス拡散が始まってから時間がたつにつれ、その効果は小さくなった。新規患者数が8月から11月にかけて数倍に増えているにも関わらず、ブルーバイクスの利用を抑制する効果はむしろ減っていた。この結果から、「パンデミック疲れ」がボストン市民の間で実際に起きていることが確かめられた。

残された課題もある。例えばCovid患者数の影響を考慮したモデルでも、残差は年の後半になって正の方向へ拡大する傾向があった。これはブルーバイクスの利用に影響を与える要素が、モデルに組み込んだもの以外にもあることを示唆している。それが何かを突き止めることはできなかった。

5. 参考文献

ブルーバイクス利用についての公式データ:
https://s3.amazonaws.com/hubway-data/index.html

ステーション数:
https://www.bluebikes.com/system-data

新規患者数のデータ:
https://raw.githubusercontent.com/nytimes/covid-19-data/master/us-counties.csv

ボストンの天候データ:
https://www.ncdc.noaa.gov/cdo-web/orders?id=2385472&email=ryomakom@bu.edu

米国の祝日データ:
https://www.kaggle.com/gsnehaa21/federal-holidays-usa-19662020 

「パンデミック疲れ」について書いたニューヨークタイムスの記事:
https://www.nytimes.com/2020/10/17/us/coronavirus-pandemic-fatigue.html

この記事が気に入ったらサポートをしてみませんか?