2年間の天気予報データの分析(降水確率と信頼度)
天気予報は私たちの生活で重要な情報です。毎朝毎晩、天気予報を見てその日の行動を決める材料にするのみならず、その日の気分までも影響を受けてしまいます。一方、日々の天気予報を見てはいても、一日の終わりに覚えているのは実際の天気で、天気予報がどうだったかはおぼろげになってしまいます。長いスパンで見て天気予報にどんな傾向があるのか、あまり意識する機会がないかもしれません。本記事では過去の天気予報データを分析した結果から、天気予報にどのような傾向があるのかご紹介します。
天気予報の過去データ
天気予報には気象庁が発表しているものと、民間の気象会社が発表しているものがあります。多くのメディアでは、気象庁が発表している天気予報の見た目を整え、一部の情報を省略して報じています。元となる気象庁発表の天気予報には以下のような情報が含まれています。(他に天気概況や警報・注意報などもあります)
上記に例示した天気予報は、その時その時の最新の予報はWebページなどで確認できるのですが、過去の天気予報については公式には蓄積・公表されている情報がありません(2024年2月現在)。このため、さかのぼって過去の天気予報を知りたくとも、容易には実現できません。
話が変わりますが、AI・機械学習において、天気の影響を受ける多くの事象、例えば需要予測や交通量予測などにおいて、予測モデルの構築を求められる状況や案件は多いです。このとき、より高精度の予測モデルを構築するには過去の天気予報のデータが必要となります。過去の天気予報データが手に入らないからと、代わりに過去の実際の天気の情報を用いてモデルを学習させてしまうとうまくいきません。予測モデルが「天気予報が外れることがある」ということを学習できないからです。結果、モデル構築時には好成績だったモデルが本番・実運用時に思うような成績が出ない、という事が起こります。過去の天気の予報データを用いることには、以下のようなメリットがあります。
「天気予報のどの情報をどの程度あてにできるか」をモデルが学習できる
モデルを作り込めば「天気予報のどの情報をどの程度あてにできるかについて、季節ごとや地方ごとに学習したモデル」を構築できる
「客足が減り始めるのは降水確率が50%を超えてから」等と学習できる
「同じ寒さの日でも、前日の天気予報が『寒くない』だったときのほうがコートがよく売れる」等と学習できる
このように過去の天気予報のデータがいかに有用かは明らかです。そこで、自ら情報を収集し蓄積することに決め、2021年11月から天気予報のデータを集め始めました。今やこのデータは2年以上にわたって蓄積され、意味のある分析が可能になりました。この記事では、その分析結果を皆さんにお届けします。分析に用いたアーカイブデータ自体はこちらにあります。
(なお、他にも個人や企業が公開しているアーカイブデータは存在しますが、これらは特定地域に限られていたり、機械が読み取りにくい形式であったり、有料であったりするため、分析への利用は手間やコストがかかります。これらの他のデータのリンク先や特徴については、沢木技術士事務所のこのページにまとまっています。)
いつのデータを分析するか
きりが良いところで、2022年1月1日から2023年12月31日の間に発表されたデータを扱います。また、毎日11時に発表される「今日、明日、明後日の予報」と「週間天気予報」を対象とします。
何を分析するか
天気予報のデータを分析しよう、と考えたときに、即座に思いつくのは天気予報がどの程度実際の天気を予測できていたのか確認しよう、という点だと思います。ただ、そのような検証分析はすでに気象庁自身で行われていますし、他の方が分析なさってる例もあるので、まずここでは(実際の天気はさておいて)天気予報データのみでできる分析を行ってみます。
天気予報データをどのように分析するか考えるにあたって、まず改めて天気予報データにどのような情報が含まれているか確認します。先ほど「全国の天気予報」のイメージを示しましたが、ここに含まれている情報のうち、メディアの報道で省略されることが多いのは「信頼度」と書かれた情報です。上図ではこの信頼度が何の信頼度を表しているのかやや不明確ですが、この信頼度はすぐ上の「降水確率」の信頼度を意味しています。(さらにその上の「曇一時雪」等に対する信頼度ではありません)まず、この「信頼度」を分析対象としてみます。
他にメディア報道で省略されることが多い情報として、最低最高気温の予測振れ幅の情報もあります。これは上図でも略されていますが。ただ話が細かくなりすぎるので、今回は紹介・分析を略します。
「信頼度」とは
「信頼度」とは、
このA,B,Cの意味も気象庁のWebページに記されています。
上記の説明に出てくる「適中率」の意味は先に挙げた気象庁ページでなされていますが、ざっくり「信頼度が高い=翌日に降水の有無の予報が変わりにくい」「信頼度が低い=翌日に降水の有無の予報が変わりやすい」ととらえられます。
信頼度の分布
信頼度Aが最も多く、次いで、B、Cとなっています。
降水確率の分布
季節も場所も予報対象日時もまぜこぜで、降水確率の分布を見ます。
20%が最も頻度が高いです。ただ、単峰分布ではなく、40%より50%の頻度が高くなっています。
信頼度の詳細分析
降水確率と信頼度のクロス分布
「今日、明日、明後日の予報」の降水確率には「信頼度」が含まれません。(11時発表予報では)3日後以降の「週間天気予報」のみ「信頼度」を含みます。この点に注意して見ます。
傾向として
週間天気予報では降水確率0%や降水確率100%が発表されない
今日、明日、明後日の予報では、降水確率0%が最頻値で単調減少傾向があるが、降水確率50%は降水確率40%より頻度が高い
信頼度Aでは降水確率40~60%とはならない
信頼度Bでは降水確率50%とはならない
信頼度Cでは降水確率30~70%とはなる
予報対象日と信頼度のクロス分布
どの予報対象日でも、信頼度Aが最頻値
どの予報対象日でも、信頼度Aの度数>信頼度Bの度数>信頼度Cの度数、という大小関係は変わらない
予報対象日が近いほど、信頼度Aの割合が増え、信頼度Cの割合が減る
信頼度の数値化と傾向
信頼度がA,B,Cと3階級で少し扱いにくいので、信頼度A=1.0, 信頼度B=0.5, 信頼度C=0.0 と数値化し、以降ではこの信頼度の値の平均を用いた検討を行うことにします。上記の「予報対象日と信頼度のクロス分布」は信頼度の値を用いると以下のようにも表現できます。予報対象日が近いほど、信頼度Aの割合が増え信頼度Cの割合が減る傾向を、数値として示せています。
予報対象日別、都市別の信頼度
数値化した信頼度を用い、予報対象日別、都市別で信頼度がどのようになるか見てみます。念のため、参考に日本地図を示します。
秋田、青森、新潟、札幌、旭川など、日本海側北寄りの都市では7日後の予報の信頼度が小さい
仙台、名古屋、大阪、高松、広島、福岡では、3日後の予報の信頼度が高い
月別、都市別の信頼度
11月~1月の信頼度が高く、6月と8月の信頼度が低い(梅雨と台風?)
冬期の信頼度が特に高いのは、釧路、仙台、東京、宇都宮、名古屋、大阪、高松、広島、高知
6,7月の宇都宮、7月の長野、1,2月の札幌、青森、秋田、11,12月の石垣で信頼度が小さい
上記の傾向は全体的には感覚的に納得できるのですが、6,7月の宇都宮、7月の長野、11,12月の石垣で信頼度が小さい理由はよくわからないです。
予報対象日別、月別、都市別の信頼度
3日後予報と、7日後予報の結果を示します。(コメントは略)
予報対象日別、月別、都市別の平均信頼度が高い10件
平均信頼度が高いのは11月や1月、宇都宮、広島、名古屋、大阪、3日後や7日後予報が多いです。
予報対象日別、月別、都市別の平均信頼度が小さい10件
平均信頼度が小さいのは、11、12月、石垣、札幌、宇都宮、旭川、7日後予報が多いです。
降水確率の詳細分析
降水確率と予報対象日のクロス分布
見て取れる傾向は
2日後~7日後の予報では降水確率20~30%が最頻値
当日・翌日と2日後では降水確率の分布が顕著に異なる
(当日・翌日の予報は6時間の間の降水有無を予報対象としているのに対し、2日後以降では24時間の間の降水有無の予報を行っていることによる影響が大きいと考えられる)当日12-18時、当日18-24時の予報でも降水確率50%が顕著に多い
高降水確率となった日、都市
上のクロス集計で6日後の降水確率が90%となったのが5例、2日後の降水確率が100%となったのが19例、それぞれありました。実際にいつどこでこの予報が発表されたのか見てみます。
6日後の降水確率が90%となったのは5例中4例が2023年12月15日に集中していました。一方、2日後の降水確率が100%となったのは19例中5例が2022年9月17日、3例が2022年6月4日となっていたのみで、他は比較的バラけています。梅雨時期が多いかと予想していましたが、そうではありませんでした。
降水確率のエントロピー表現
「降水確率が50%」と聞いて、「降るのか降らないのかどっちなんだ、役に立たない予報だなぁ。」と感じませんか? このような感覚はエントロピーを用いて数値化できます。降水確率とエントロピーの関係は以下のようになります。
情報理論において、エントロピーは情報量とも呼ばれます。エントロピー(情報量)は値の「乱雑さ」を表す尺度であるといえます。
エントロピーが大きい=乱雑さが高い=降るか降らないか見通せない
エントロピーが小さい=乱雑さが低い=降るか降らないかの見通しが立つ
このことを踏まえて上図を見ると、降水確率50%前後の、なんともどっちつかずな感じが数値化できているように思えませんか?
このエントロピーと、先ほどの降水確率と予報対象日のクロス分布を用いて、予報対象日ごとの平均エントロピーを見てみましょう。
予報対象日ごとの平均エントロピー
見て取れる傾向は
2日後~7日後では予報対象日が近いほど平均エントロピーが小さい
2日後~7日後に比べ、当日・翌日では大きくエントロピーが減少する
当日・翌日では、予報対象時が近づくにつれ平均エントロピーが小さくならず、直近24時間では次第に平均エントロピーが大きくなる
この結果は、(私個人的には)まったく予想をしていませんでした。予報対象時が迫れば迫るほど、降るのか降らないのかハッキリした降水確率になるのかと思っていましたが、その逆でした。天気の影響を大きく受ける外出予定があるとき、その前日や当日や頻繁に天気予報をチェックしても、もやもや・やきもきは解消しない、と(平均的には)言えそうです。
予報対象日別、都市別の平均エントロピー
以降、信頼度と同様のヒートマップでグラフ化していますが、平均エントロピーは小さいほど嬉しい(信頼度と逆)ので、色使いを逆にしています。(黄色=平均エントロピーが小さい=嬉しい)
釧路、仙台、名古屋、広島などでは、今日明日の天気の平均エントロピーが小さく、降水確率にメリハリが効いている
長野、奄美、那覇、石垣では、今日明日の天気の平均エントロピーが大きく、判断に困る降水確率が予報される事が多い
月別、都市別の平均エントロピー
6~9月、梅雨から夏にかけては全国的に平均エントロピーが大きい
奄美、那覇、石垣では、一年を通じての平均エントロピーが大きい
旭川、札幌、青森、秋田、新潟、金沢、長野、松江では12~2月の平均エントロピーが大きい
一方、東京、宇都宮、名古屋、大阪、高松、広島、高知、福岡、鹿児島では、10~5月にかけて平均エントロピーが小さい月が続く
予報対象日別、月別、都市別の平均エントロピーが高い10件
7日後、12~1月、札幌、秋田、青森が多い
予報対象日別、月別、都市別の平均エントロピーが小さい10件
当日18-24時~翌日12-18時、10月、広島、名古屋が多い
(上記の分析は「事前情報に対する知識がない」との前提で行っています。実際に降水があった日の実績割合(東京だと約3割)を事前情報として、実績割合から離れた降水確率ほど情報価値がある、との見方で分析することも可能です。)
まとめ
長くなってしまいましたが、顕著な傾向を整理すると以下のようにまとめられます。
11月から1月にかけての予報は信頼度が高く、翌日になっても降水確率が変わりにくい
6月と8月の予報は信頼度が低く、翌日になると降水確率が変わりやすい
2日後から7日後の予報では、最も一般的な降水確率は20~30%
ただし、50%になることも多い2日後予報と比べると、翌日予報は降水確率が(0%寄りか100%寄りかに)比較的はっきり分かれる傾向にある
当日・翌日予報では、予報時間が近くなるほど降水確率が(0%寄りか100%寄りかに)明確になるわけではない
太平洋ベルト地帯では、相対的に信頼度が高く、比較的降水確率のメリハリが効いている
日本海側北寄りでは、相対的に信頼度が低く、比較的降水確率のメリハリが効いていない
日常における天気予報への理解と楽しみが、この記事を通じて少しでも深まれば嬉しいです。
この記事が気に入ったらサポートをしてみませんか?