花粉データで振り返る2024/3/3(レノファ山口FCホーム開幕戦) データアナリストへの道#28
勝手にレノファ山口FCを応援しているハラマルです。
2024年3月3日(日)に開催された、レノファ山口FCの今シーズンホーム開幕戦は、約9千人の方がお客さんがスタンドに駆け付け、2対0での勝利となりました。
1万人に届かなかったのは残念ですが、朝から雪がちらついていましたし、地上波テレビ中継もあったので無理して行く必要ないかというマインドも働いたでしょうし、そこは仕方ないなと思います。
肝心要のサッカーの試合自体が非常に面白かったので、観戦に行かれた多くの方は、また行きたいなと思っていただけたのではないでしょうか?
私も、自主的に、周りの方を観戦に誘うという趣味の活動?(詳しくは下記の記事を参照ください)をしているのですが、当日は総勢10名で観戦しまして、そのうち3名の方は、なんと、初めてユニフォームを買って観戦されました。
観戦をきっかけにファンになってもらい、さらに周りの方も誘っていただくというサイクルが動き出しているのではないかと思います。
今シーズン中に、1万人達成できる試合があると思います!皆さん、このムーブメントに乗り遅れないように!
さて、そんなホーム開幕戦ですが、前回のnote記事で事前に全国の花粉飛散量を可視化した結果、山口県の3月3日は「スギ花粉のピークが過ぎて、ヒノキ花粉のピークが来る前」ではないかと予測したところです。
この日、私は、9時半に(←早過ぎ?)にみらスタに着いて、ずっと屋外にいて、体を張って実証してきましたので(←単にグッズを買ったり🍺を飲んでいただけです)、データで検証してみたいと思います。
また、「あのデータ分析ってどうやっているの?」と聞かれたこともあり、今回は、その過程を、いつもより詳しく紹介してみたいと思います。
山口県の花粉飛散データはここにあります
前回のおさらいになりますが、私たちが普段目にする「やや多い」「非常に多い」といった花粉情報は、花芽の発育状況や気象データから計算された「飛散予測」です。
分析に使うのは、この予測結果ではなく、実際にどれくらい飛散したかという実測の「花粉飛散データ」です。
山口県の場合、一般社団法人山口県医師会さんのHPで公表されています。
こちらに、下図のように、県内の東部・中部・西部・北部の19箇所で観測された結果を、随時更新しながら公表されています。
こちらに、早速、3月4日まで更新されたデータがありました。
これを分析してみたいのですが、大きく2つの課題があると思い、前回は見送りました。
1つ目は、これはwebサイトに書き込まれているので、データにしていく必要があります。
といっても、これは以前、別の案件でやったことがあるので、実は目途が立っています。多分、簡単にExcelデータ化できると思います。
2つ目は、表内に「/」や「→」といった記号が入っています。
「/」は測定していないくらいの意味かな?と想像がつきますが、「→」はどういう意味でしょうね?これを解読して、修正するか、又は削除するかしないと、データとしては取り扱えません。
ここの検討や修正作業が必要だと思います。
データを整形してみます
①Excelデータにしてみます
それでは、1つ目の課題、webサイトに書き込まれている数字を、Excelに移す作業ですが、意外と簡単です。
まず、こんな風に、webサイトの画面を選択して、
Excelに貼り付けると…
このように、表形式で貼り付けられます。
これを繰り返せば完成なんですが、スギ・ヒノキの別に、10日程度ずつの表に細分化されていますので、かなり面倒です!
つまり、この課題は、労力さえかければ簡単に解決します。はい、せっせとコピペを繰り返しましょう。
②記号を修正してみます
一旦、スギ花粉の2023年分(2月~5月)を一つの表にしてみました。
ここで、後で手戻りが生じないよう、まずは、この段階で、2つめの課題の解決に向けた道筋を確認した方が良さそうです。
同じサイト上に「2023年のスギ・ヒノキ花粉飛散のまとめ」というPDFデータがあったので、これと答え合わせをしながら、記号の解読をしてみようという目論見です。
PDFデータが以下の画面になりますが、赤線を引いた辺りで答え合わせができそうです。
先ほどExcelにしたデータで、突合ができるように合計値や平均値を算出してみました。
そうすると、「県内測定機関の平均値6,430」「美祢地区の11,482個」「防府地区の3,509個」が、ほぼ一致することが分かりました。
美祢だけ100程度ずれがありますが、別形式で記載されているため今回データ化していない5月以降の飛散量もあることを考慮すると、「この表内に入っている数字」=「正解の合計値」であろうことが分かりました。
そうなると、「/」は、おそらく測定していないという意味でいいでしょう。
「→」は、おそらく複数日でまとめて測定したという意味だろうと思いますが、「→」の先に入っている数値は、複数日分の平均値ではなく合計値なんだろうと想像がつきました。
想像がついたのは良かったのですが、このままだと、複数収集日の数字が大きくなり過ぎて不自然になってしまう気がします。
このため、複数日分は、合計値を平均値に分解して、「→」の日にも平均値を入れていくことにします。
この修正作業が手作業になるので、元々の合計値とズレが生じていないか確認しながら修正作業をしていきます。
はい、これも、ここからは単純作業を頑張るフェーズです・・・。
③Tableau用に加工してみます
最後のデータ整形作業は、このデータ形式をTableau用(BIツール用)に加工します。
表形式(縦と横がクロスする箇所のデータを見る形式)は、人間が目で見た際には非常に分かりやすいですが、BIツールでの集計が難しい形式です。
このため、下図のようにデータを「縦持ち」にしていきます。
この「縦持ち」の良いところは、例えば、「測定機関」を追加したり日付を追加しようとすると、表形式の場合は、表全体の構成を修正する必要がありますが、この縦持ちの場合は、そんなこと考えずに、行を追加すればOKなんです。
測定機関や日付の追加は、BIツールの中で自動で処理してくれますので、ツールに任せてしまいましょう。データを更新していく必要がある場合などには、表をいじりながら時点修正していくより、データはこういう形で追加していき、ツールを使って整形して視覚化するというやり方が効率が良いと思います。
また、例えば、Excelを使う方だと、日付を「年」「月」「日」に分解して列を分けておかないと、年別・月別の集計ができないと思われるかもしれませんが、Tableauの場合は、日付であることを自動認識してくれて、年別・月別も、別に計算することなく、簡単に集計区分を変えることができます!
このため、日付はまとめて1つの列に入れておきます。
ということで、表形式のデータを縦持ちにしていき、この作業の結果、2018年以降で約2万6千行のデータとなりました。
データを可視化・分析してみます
①経年比較してみます
それでは、整形したExcelデータをTableauに読み込ませます。
Tableauは、無料で利用できる「Tableau Public」というツールがインターネット上からダウンロードできますので、それを使わせていただいています。
直感的な操作で、簡単に分析できますので、いろいろやってみましょう。
最初に、今年の花粉飛散量がどれくらいなのか確認したいため、他の年と比較できるような形で可視化してみましょうか。
どうやったら比較できるかな?と考えてみると、いろいろな方法があると思いますが、まずは同じ表内で比べてみたいですね。年ごとに色を変えて重ねてみましょうか。スギとヒノキは分けた方が良いよね。
と思って操作してみたのがこちら。
2024年を赤色にして、それ以前を青色にしました。2023年を最も濃くして、昔になるほど色を薄くしています。
上段にスギ、下段にヒノキを配置しました。
また、年によって測定機関の数が違ったり、日によっては測定結果がない(空欄や「/」)の施設があったので、測定結果がある施設の平均値でグラフにしました。
この結果を見てみると、やはり、2024年(赤)は、昨年に比べて大幅に減少しているのが分かりますね。(耳鼻科と眼科でそのようにお聞きしました!気休めで言ってくれたのではなかったですね。)
今年から使われ始めた「極めて多い」という100のラインを入れていますが、わずかの日数・量しか超えていないようです。このラインも簡単に追加できます。
上段のスギ花粉を見てみると、2023年(一番濃い青)は、2月28日に794個というピークを迎えていて、確かに昨年はひどかったなぁと思い出しましたが、実は2019年にも814個というピークがあったようです。
また、よく見てみると、毎年、2月中旬から3月中旬の1ヵ月間で、4~5回の山があるようです。
今年も3月中旬までの間に、あと1~2回、飛散量が多い日が来るかもしれません。もうちょっとの間、気が抜けませんね。
下段のヒノキ花粉を見てみると、今年も例年と同様、この時期にはまだ飛散が始まっていません。
ただ、こちらは、スギと違って、ピークになる時期が徐々に早まっているような傾向が見受けられるので、昨年は3月15日にいきなり「極めて多い」を超えていることを踏まえると、そろそろ注意が必要なようです。
さて、冒頭の検証ですが、レノファ山口FCの今シーズンのホーム開幕戦があった2024年(赤)の3月3日は、前回私が推測したとおり、本当に、スギ花粉のピークが過ぎ、ヒノキ花粉のピークが来る前の「奇跡的な狭間」になっていましたね。
確かに、私の体を張った検証(服薬+点鼻薬+点眼薬+マスクの対応はして、屋外にずっといた)でも、大きな身体的なダメージはありませんでした(笑)
多くの観客が来場し、勝利を収めた良い試合でしたが、花粉症の方にとっても「観戦日和」だったようです。
いやぁ、素晴らしい日だったということが改めて分かりましたね!
②ブロック別に比較してみます
次に、せっかくデータがあるので、違う視点からも分析してみようと思います。
ここからは思い付きです。Excelと違って、一度作ったグラフを思い付きで簡単に変形できるのがTableauの長所かなと思っています。
観測所毎に、東部・中部・西部・北部のブロック分けされていましたので、そちらで見てみましょうか。
操作としては、先ほどのグラフで、色分けの指示を、年別からブロック別に変えるだけです。
上段のスギ花粉を見てみると、どのブロックも、同じような時期にピークを迎え、同じような形になっているのが分かります。
強いて違いを見出すと、西部(青)は県内では飛散量が比較的少ないこと、北部(緑)はピーク時に一気に増える(増え幅が大きい)こと、また、3月中旬に飛散量が大きく増えているのは北部、といった傾向があるようです。
下段のヒノキ花粉を見てみると、これは北部の飛散量が突出していることが目立ちます。こちらも西部が比較的少ないようです。
これは意外でした。というのも、前回、全国傾向で見た時には福岡県のヒノキ花粉飛散量が多い(全国3位)ことが分かったので、地理的に近い西部も多いのかと思いましたが、そうでもないようです。他の気象と同じように、西からの風に乗って花粉が飛んでくるんではないかと思いましたが、北部の特徴の方が圧倒的のようです。
続いて、このブロック別をさらに年別に分けてみましょうか。
操作としては、行に年別を加えるだけです。後は、数が多いので、フィルターをかけて、スギとヒノキを別々に表示しました。
スギ花粉では、今年の低調さが目立ちますね。2022年は全体的に飛散時期が遅くなっていますが、それくらいの飛散量が例年の時期に来ていると考えたらいいでしょうか?このまま低調に推移してほしいものです。
2019年の2月下旬に東部・中部で大きなとがった山がありますが、それ以外は、大きな山を作っているのは北部のようです。
これを見ると、今年の残りシーズン、スギ花粉で飛散量の増加に注意するのは北部ということが言えそうです。
ヒノキ花粉は、今年の飛散が始まっていないので何とも言えませんが、スギ花粉が2022年を除く年とほぼ同じ頃に飛散が開始していることを考えると、3月15日頃に北部で急に飛散量が増加しないか注意が必要だと思います。
北部以外は、比較的飛散量が安定しているのがよく分かりますね。
③スギ花粉とヒノキ花粉の関係を見てみます
先ほど、「ヒノキ花粉は今年の飛散が始まっていないから」と言ったときに思ったのですが、スギ花粉とヒノキ花粉って、飛散結果に関係性があるのでしょうか?もしあるのであれば、今年のスギ花粉の状況から、今後のヒノキ花粉の飛散が予測できるんでしょうか?
こちらも新しく思いついたので比較してみましょう。
飛散量の総量を、スギとヒノキで並べて見てみましょうか。ブロック別にしてみましょう。
う~ん、パッと見、関係性はあまりないようですね。スギ花粉の方が多い年もあれば、ヒノキ花粉の方が多い年もあります。
ゴチャゴチャしていて分かりづらいからでしょうか。特徴的な北部だけ色を残して、他は色を落としてみましょう。
こうすると、4ブロックのバラツキ具合に特徴がありそうなことが見えてきました。
スギ花粉の飛散状況で、各ブロックのバラツキが少ない年は、ヒノキ花粉のバラツキも少ないようです。
逆に、スギ花粉でブロックのバラツキが大きい(北部だけ突出している)年は、ヒノキ花粉もバラツキが大きい(北部がさらに突出)しているようです。
2024年の3月4日時点では、スギ花粉のバラツキが少ないため、今年のヒノキ花粉もブロック別のバラツキが少ないのかもしれません。
ちなみに、遊びとして、Tableauの「予測値」機能を使うとこのような結果になりました。
こちらは、花芽の発育状況や気象データなどの通常の予測とは違って、データの動きからTableau機能で予測されたものなので、信ぴょう性は「?」ですが、今年も来年も少ない状態で推移してほしいものですね。
④個別に見てみます
最後に、ブロック別で見たときに一番特徴的だった北部ブロックの中身を個別に見てみたいと思います。
フィルターで北部ブロックだけにして、地区別に色分けしてみましょう。
(美祢が北部なのかという疑問もありますが、)美祢地区(赤)は、スギ花粉のピークが2月下旬の早い時期にやってきて、その後スギ花粉が落ち着いた後、3月下旬にヒノキ花粉の大きなピークがきています。
長門地区(青)と萩地区(黄)は同じような動きをしていて、スギ花粉が落ち着く前にヒノキ花粉も増えてきている(狭間がない)ようです。
若干、長門の方がスギ花粉が少なくヒノキ花粉が多いという違いがあるようです。
3地区を個別に見た状況は以下のとおりです。
いずれも、スギ花粉の前半は低調で乗り切っているので、残る期間は、3月に入ってからのスギ花粉のピークがあるかどうかと、年によって差が激しいヒノキがどうなるか、ですね。
まとめ
今回、山口県内の観測データを用いて花粉データ分析する様子を、いつもより丁寧に説明してみました。
想像いただいたかもしれませんが、要する時間のうち、データ分析する前の内容確認や整形作業が大半を占めていて、ツールを用いた作業は簡単に実施できます。
もし、社内等にデータがあれば分析ツールの操作自体は簡単ですので、試してみてはいかがでしょうか。
やまぐちDX推進拠点「Y-BASE」では、そうしたデータ分析もサポートしていますので、お気軽にご相談ください。無料で利用できますよ。
また、今回使用したTableauは、直感的に操作できますので、私みたくまずは我流でやってみて困ったらネットで調べてという使い方もできますし、来年度もハンズオン研修を引き続き実施したいと思っていますので、楽しみにお待ちいただければと思います。
それから、今回、データを拝借させていただいた山口県医師会さんですが、同サイトに、毎年、花粉飛散のまとめをされています。
その中で、予測は〇だったが実測は〇だったと丁寧に記載されており、飛散予測をするための観察木が雄花(花粉)を着ける力が少なくなってきたのではないか?雄花(花粉)を着ける力の強い木の分布が北部に移ってきているのではないか?など、様々な要因を考えながら予測と実測を整理されていらっしゃいます。
現在は、AIを活用した予測について研究されているそうです。
確かに、そのようなお話を聞くと、同一条件の木が均一に分布しているのかどうかも分からない中、正確に予測をすることは非常に困難だろうと思われます。
このため、予測だけでなく、結果(実測)も確認することは重要です。
天気予報の場合は、予測が当たったかどうかはすぐに分かりますが、花粉の場合は、目に見えない・個人で知覚できないので、こうして予測だけでなく飛散結果を整理・公表していただいているのは非常にありがたいことですし、せっかく公表されているので、世の中で有効に活用されたらいいなぁと思っています。
私の場合、こうして結果を知ることで、「これくらいだったら体に負担が少なかったな」というのを身をもって理解できましたので、今後も参考にさせていただこうと思います。
そういえば、今シーズンのJ2リーグ順位予想で、レノファ山口FCがJ3への降格候補に挙げられているものが多いようです(知らんけど!)。
が、先日の試合を観て、「そんなわけないだろ!」と、今年の躍進を確信された方も多くいらっしゃると思います。
そんな予測は目にしないようにして、結果(実測)に基づいて、一緒に応援していきましょう!