Appleのオープンデータの扱いの難しさについて

Appleが先日公開していたデータ(Mobility Trends Reports)についてさっそく報道があったが、いくつか扱いをミスっていると思われる部分があったのでまとめておく。

結論を先にまとめる。
 * 実際の交通量を反映しているとは言えないので注意が必要
 * 日本の都市のデータは数%程度、感染を恐れて外出していない方向に値が強調されるバイアスが残っていると思われる (ここは当初公開していた内容は誤りで、結論が全く逆でした)

前提となっているデータはこちらで公開されている。

「About This Data」というセクションから本筋と関係ある部分をまとめると以下のポイントがある。

 * ルート検索の検索数を集計したもの。
 * 公開されている値は2020/1/13日を基準日とする割合のみ。
 * 日付の境界はPST(アメリカ西海岸時間)で定義されていて現地時間ではない。
 * 曜日効果の正規化はユーザーの手に委ねられている (*)

以上の点と実際のデータから導き出されるいくつかの注意点をあげてみる。

 - Apple Mapのルート検索の回数であり、通勤/通学/日常の買い物 などの定型の移動ではなく、非定型の移動を反映した値になる。実際の交通量とはかなり差がありうる。
 - (非定型の移動は週末/祝日やその前日に多いと思われる。実際にデータを見ても金/土曜日に値が大きく増え、日曜の伸びは少ないことが値からうかがえる)
 - 人々の行動を間接的な形で観測しているため、曜日の境界のずれ、祝日の有無、気象条件、交通システムの利用傾向、都市環境、ライフスタイル、アプリの使い方、国ごとの地図データの充実度などに大きく左右される。
 - 基準日の1/13 は日本では成人の日であり、日本時間では1/13 17:00 - 1/14 17:00 が該当する。3連休最終日の17時以降という条件がルート検索にどのように影響するか簡単には分析できないが、単純な比較は危険かもしれない。(ただし実際の値はそれほど変調にはなっていないように見える)。

実際にデータを見ていくと他にいくつか興味深い注意点もあった。
 - 曜日の変動傾向が国によって大きく違う。例としてメルボルンでは土・日に激しく落ち込む傾向がある。日本では週末の利用が逆に大きくなっている。
 - すると祝日が基準日になっている日本の平日の値は多少(おそらく最大5%程度?)変動が高く出るハンデが乗っている。
 - 日本の1/27にはかなり深い落ち込みがあるが原因はよくわからなかった。データの欠落などの外的要因でないといいのだが。

アップルが社会に貢献しようという志は買いたいところだが、ルート検索の実行数を単純な交通量と考えるにはやはり無理がある。確かにそれっぽい値が出ることは出るのだが、それっぽい値であることは正確な分析に使えることを保証しない。実際に東京都交通局が出しているデータとはかなりの差異があるように見える。交通量の分析を行いたければ交通量のデータを、なるべく複数使うのがよいと思う。

(*) ただし詳細データがなく、日中の途中で切られている国のデータを正しく曜日で正規化できるかは疑問

この記事が気に入ったらサポートをしてみませんか?