
【行政関係者に聞くシリーズ】検索データの医療や保健行政における活用の可能性 〜インフルエンザ、熱中症の発生件数と検索データ量の相関分析をやってみた〜
はじめに
医療関係者の間で人々の検索行動の分析はホットな話題です。2020年にはアメリカの著名な医療機関の一つであるメイヨー・クリニックから、新型コロナウイルスの陽性者数とグーグル検索のキーワードとの間に相関関係が見られるとの論文が発表されました。新型コロナウイルスの感染拡大と検索トレンドを分析対象とした論文はアメリカにとどまらず、ほぼ同じ時期にインドなどでも発表されています。
しかしなぜ疾患に関する検索データは医療関係者の注目を集めるのでしょうか?
その謎を解くために、実際にヤフーのDS.INSIGHTで得られる検索キーワードのデータと患者数の統計の関係を筆者の方で比べてみました。筆者は医療や統計分野の専門家ではないのですが、それでも検索データと疾患の流行の間に強い相関がありそうなことが分かり、医療関係者が検索データに寄せる期待の一端を実感することができました。
どのように分析を行ったのか、また、どういった結果が出たのかについて詳細を共有する前に、本コラムの前半では検索データが医療分野で期待されている理由や、保健行政や消防行政などの場面でも応用できる可能性に述べていきます。そして後半で熱中症の救急搬送者数やインフルエンザの患者数と検索データとの関係を分析した結果を報告します。
人々の検索行動を調べるメリット
従来、ある疾患が流行しているか否かは救急搬送されたり実際に診断を受けたりした人の数を通じて判断されてきました。しかしこの方法は消防や医療機関等から提供された患者に関する情報を取りまとめる作業が発生するため発表までに時間を要したり、患者数が増加した後でしか流行を判断できなかったりとするという欠点がありました。
そこで注目されているのが人々の検索データです。ある疾患が流行する時に、疾患に関係した用語の検索ボリュームも増加していることが統計的に証明できれば、今度は検索データを手がかりとして今後の患者数の予測ができるようになるのではないかと期待されます。
検索データが患者数増加の先行指標として機能すれば、医療機関は実際の流行に先立って手を打つことができるようになるでしょう。また、この先の患者数に関する予測は消防行政や保健行政にとっても有益なものとなるはずです。救急搬送者や患者が増えそうな兆候を検索データの分析から把握した場合には、事前に体制を厚くしたり重症化を避けるための予防措置を積極的に広報したりできると考えられるためです。
こうしたことから、医療関係者の方だけではなく、行政関係の方にも検索データにぜひ注目していただきたいのですが、データの収集や分析がなかなか難しいのではないかとの懸念を抱かれることがあるかもしれません。
しかし、基礎的な分析であれば公的な統計とヤフーのDS.INSIGHTで入手できる検索ボリュームのデータ、そしてエクセルの3つを用意するだけでできてしまいます。ここからは筆者の方で行った熱中症やインフルエンザと患者数等の相関分析について、手順を含めて紹介していきます。
検索ボリュームと患者数の分析例
DS.INSIGHTを用いると、あるキーワードの検索ボリューム(日本全体でどれくらいの人がキーワードを検索しているかを表す推計値)が調べられます。公的な統計と検索ボリュームを突き合わせ、両者のデータに相関があるかを次の5つのステップで分析しました。
ステップ1:救急搬送者数や患者数の統計の入手
ステップ2:救急搬送者数や患者数に関係が深そうな検索キーワードの絞り込み
ステップ3:検索ボリュームのデータの準備
ステップ4:エクセル上でのデータの整理
ステップ5:グラフ化と相関の分析
ステップ1:救急搬送者数や患者数の統計の入手
まず初めに、熱中症やインフルエンザの発生数に関してどういった統計があるのかをインターネット上で調べました。
熱中症の場合は、総務省消防庁が毎年の熱中症シーズンの救急搬送者数を日単位で公表していたのでこれを利用することとしました。この統計は全国の都道府県別にまとめられているものですが、今回の分析では東京都のみを対象にしています。

インフルエンザの場合は、厚生労働省が全国約5,000カ所の定点医療機関でインフルエンザと診断された患者数のデータを公表しています。患者数全体ではないですが、増減がわかる統計値であるため用いることにしました。このデータは週単位で患者報告数が取りまとめられているという特徴があります。

ステップ2:救急搬送者数や患者数に関係が深そうな検索キーワードの絞り込み
疾患に関するデータがそろったところで、そのデータの単位(熱中症の場合は日単位、インフルエンザの場合は週単位)に合わせて検索データをそろえていきます。
分析の際に用いる検索キーワードについては闇雲に選ぶのではなく、検索ボリュームが大きいものから選定しました。検索ボリュームについてはDS.INSIGHTの「共起キーワード」という機能を利用して調べています。
この機能を使うと、入力したキーワードと一緒に検索された言葉に加え、それぞれの検索ボリュームを把握できます。共起キーワード分析は全国を対象とするだけではなく、都道府県を特定して調べることができるため、熱中症は東京都のみを対象に、インフルエンザは全国を対象として選択しました。そうした調べたものが次の図です。

「熱中症」の共起キーワード分析で最も検索ボリュームが大きかったのは「熱中症 症状」(8.2万人)でした。次点以降は「熱中症」(約3.2万人)や「熱中症対策」(約1.8万人)と続きます。
「インフルエンザ」の場合は、「インフルエンザ」(約225万人)という一語のみの検索が最も多く、2位以降に「インフルエンザ 潜伏期間」(約133万人)や「インフルエンザ 症状」(約94万人)といったキーワードが並びました。
この中から今回の記事では「熱中症 症状」と「インフルエンザ 潜伏期間」を分析対象として選択しました。インフルエンザの場合は「インフルエンザ」の検索ボリュームが最大ですが、患者数が増えていない時期でも検索ボリュームが上下する傾向が見られたのでここでは除外しました。
ステップ3:検索ボリュームのデータの準備
次に行ったのは、選択した検索キーワードのデータを用意することです。
DS.INSIGHTでは特定のキーワードについて検索ボリュームをグラフで把握したり、CSVでデータをダウンロードしたりできます。「熱中症 症状」の検索ボリュームの推移(図の上部)と「インフルエンザ 潜伏期間」の検索ボリュームの推移(図の下部)についてそれぞれ2018年11月からの3年分について調べ、データをダウンロードしました。

ちなみに、「熱中症 症状」の検索ボリュームは気温が高くなる時期に毎年上がっていました。「インフルエンザ 潜伏期間」の方は2020年の冬を最後に検索ボリュームの増加が見られなかったのが特徴的です。
検索ボリュームに関するデータの準備はこれで完了です。次はステップ1で用意しておいた患者数等のデータと組み合わせていきます。
ステップ4:エクセル上でのデータの整理
ステップ1で準備した熱中症やインフルエンザの統計はフォーマットがまちまちであったため、統計処理のためにエクセル上で再整理し、ステップ3で準備しておいた検索ボリュームのデータと対応させました。

ステップ5:グラフ化と相関の分析
患者数と検索データがうまく整理できたので、ここからはいよいよ分析に進みます。ステップ4で準備したデータを使い、それぞれの疾患についてグラフ化や相関分析を行いました。
次の図は2020年夏期の東京都内の救急搬送者数と「熱中症 症状」の検索ボリュームの推移です(ここ3年で「熱中症 症状」の検索ボリュームが最も多かったのが2020年であったため、この年を分析対象として取り上げました)。
「熱中症 症状」について調べていた人の数(青)と熱中症により救急車で運ばれた人の数(赤)の動きを比べてみると、増えているところや減っているところ、ピークとなっているタイミングなどに共通点が多く、何やら関係性がありそうです。

相関分析にはエクセルのCORREL関数を用いました。2020年の「熱中症 症状」の検索ボリュームと同期間の東京都の搬送者数の相関を分析したところ、相関係数は0.95と非常に強い相関を示すことが分かりました。

「インフルエンザ 潜伏期間」と患者数についてはどうでしょうか?
その2つのデータをまとめてグラフ化したものが次のものです。青色は報告されたインフルエンザ患者の数、オレンジ色は「インフルエンザ 潜伏期間」の検索ボリュームです。ピークのタイミングや増減のタイミングなどがとてもよく対応しているように見えます。新型コロナウイルスの流行下ではインフルエンザの患者数増は見られなかったのですが、検索データにもその傾向がしっかり現れています。エクセルを使って患者数と「インフルエンザ 潜伏期間」の検索ボリュームの相関係数を調べてみると0.98であり、統計的にも相関が非常に強いことが確認できました。

これらの分析から、多くの人が熱中症に関する「症状」やインフルエンザの「潜伏期間」に関する情報を集めているタイミングで搬送者数や患者数も増えているという関係性が確認できたといえるでしょう。
実際に分析してみて
ここまで熱中症やインフルエンザの統計と検索ボリュームの比較を行ってきました。実際に手を動かしてみて驚いたことは、当初予測していたよりも奇麗に検索ボリュームと患者数等との間に相関が描けたことです。医療関係者が疾患に関する検索データに注目する理由は、こうした相関の良さに可能性や手応えを感じているからではないかと思います。
本分析は基本的な相関分析にすぎませんが、検索が増えるタイミングと実際の患者数が増えるタイミングの日数的なズレなどを詳しく分析すれば、先行指標としてより高度化できる可能性もあるのではないかと思いました。
筆者は医療や保健行政等の専門家ではないため、各専門分野における検証も必要ですし、検索ワードは時代で変化するため日々ルールを見直すなど、実利用にあたってはより深い考察が必要と想定されます。
国や自治体が提供するオープンデータも増えてきており、民間のビッグデータを含め手軽に分析できる時代になってきました。医療、保健などの分野においても、よりデータ活用が進むようになればと考えています。
筆者プロフィール
渡邉 俊幸(わたなべ としゆき)
2001年より愛知県旧西枇杷島町の防災担当として災害対策に従事。2005年に民間気象会社に移り、情報を伝える側として全国の自治体などに向けて防災気象情報を提供。その後、民間シンクタンクを経て、2013年よりオーストラリアの大学院にて気象情報の利用に関する研究を進める。2014年から水害対策で世界の先端を行くオランダに拠点を移し、気象情報の利用や水害対策についてコンサルティングを行う気象とコミュニケーションデザインを設立。2017年から2018年にかけて、世界銀行の防災分野のシニアコンサルタントとしてエチオピア政府を対象としたプロジェクトにも参画。リスク対策.comにて連載を持つ他、気象情報の利用方法をまとめた『情報力は、避難力!』を執筆(2021年10月以降発行予定)。
気象予報士。
好評連載!行政関係者に聞くシリーズ
・政策プロセス毎のデータ活用の可能性(ヘルマン 真実子)
・(1)課題認識(ヘルマン 真実子)
・(2)政策立案(ヘルマン 真実子)
・(3)実施(ヘルマン 真実子)
・(4)評価(ヘルマン 真実子)
・ビッグデータを活用した新しい広聴広報の可能性(佐久間 智之)
・検索データの分析で見えてきた、防災情報が「伝わりにくい」理由とは?(渡邉 俊幸)
・大雨の際に地域住民はどのような情報を探すのか?(渡邉 俊幸)
・災害時の孤立集落対策に活きる人流データ(渡邉 俊幸)
・アフター・コロナの観光政策をデータから考えてみる(前編)(ヘルマン 真実子)
気軽にクリエイターの支援と、記事のオススメができます!