見出し画像

ヘルスケアスタートアップでデータサイエンティストとして働く理学療法士。 モデル実装編

 データマネジメント編の続きです。

 ヘルスケアベンチャー企業での解析プロダクトの立ち上げ経験を題材にヘルスケア分野におけるデータサイエンスの実務をお伝えできればと考えています。理学療法学を学び→基礎研究分野から転職→ヘルスケアスタートアップ企業の駆け出しデータサイエンティストの奮闘記だと思ってお読みいただければ幸いです。

 日頃お世話になっている方からの依頼で、テンションが上がり過ぎて字数を大きくオーバーしてしまった原稿。そのお蔵入り部分を公開してみました。大きくジョブチェンしてデータサイエンティストになりましたので、同じ境遇の方やデータサイエンスに興味のある方にとって何か参考になれば幸いです。

はじめに・・・

 株式会社PREVENTは、“一病息災の健康づくり支援モデルを社会に”という事業ミッションを掲げ、データを活用した疾病管理プログラム(Disease Management Program 以下、DMP)事業を展開しています。

 保険者(企業の健康保険組合や自治体など)を対象とした医療データ解析サービス「Myscope」により生活習慣病や脳梗塞や心筋梗塞などの脳血管疾患および心大血管疾患の発症リスクが高い組合員を抽出します。その中から、医師の承諾を得た希望者に対して生活習慣改善指導プログラム「Mystar」に参加いただきます。Mystarの目的は、脳血管疾患、心大血管疾患の発症リスクを低減するために参加者一人ひとりに合わせてリスク習慣の評価と、そのリスク習慣の改善支援を実施することです。介入後はMyscopeによってDMPの評価をレポートし、保険者と協働しよりよいDMP事業を目指していきます。

 Myscopeの最もわかりやすい機能の一つがリスク判定です。血管発症・重症化する確率を算出しているのですが、その裏側では独自開発した数理モデルを用いています。

モデルの社会実装について

 問題の種類(回帰、分類など)を特定し、アルゴリズムの選択をすれば予測モデルや分類モデルを作成することはできます。私もデータサイエンティストという仕事に就くまではそのくらいの認識でいました。しかし、実際にはモデルに対する期待の調整や説明、保守、改善などサービス運用後にも多くの仕事が待ち受けていました。

 特に社内使用ではなく、クライアントが使用するとなると様々なことが起こります。なかなか具体例は開示できないのですが、弊社のMyscope導入過程からモデルのサービス展開のポイントについてお伝えできればと思います。

導入の事例と障壁

 データ活用で思いつくのはやはり、蓄積されたデータを用いた数理モデルの構築だと思います。構築された数理モデルは事象の理解や予測、判別を可能とし、事業戦略の立案や顧客へのリコメンドなど様々なビジネス応用が期待されます。

 Myscopeのリスク判定は、保険者にとってリコメンデーションのような機能を果たしています。健康診断結果とレセプト情報から、大血管疾患の発症確率を予測し、ランキングします。そのランクに応じてMystar案内対象者を選択していただくというものです。

 このサービスが社会実装されるまでには、大きく二つの障壁がありました。1つはモデルの受け入れ、もう一つはモデル導入によるベネフィットの理解です。

モデルの受け入れ

 モデルの受け入れについては、これまでの業界スタイルの影響が大きいと思います。全くの未開拓の地にいきなりモデル導入っていう事案はそうそうないと思います。我々がチャレンジしているヘルスケア分野では、医療系の数多くの知見が蓄積され、日々アップデートされています。そして、これまでの知見からメカニズムがある程度説明され、既に有用なモデルが存在しています。そんな分野にいきなり企業からXGBoostなど真新しいモデルを提案されても、当然説明コストが高くなり受け入れ(実装)までの時間がかかる、極端に言えば拒絶反応を示される可能性すら出てきます。

 そこで、すでに論文で紹介されているようなベーシクかつ専門家からのコンセンサスが得られたモデル(例えば、吹田スコア )をサービスに取り入れることから始めました。仮に業界でよく使えわれているモデルがなくても、重回帰分析で先行研究や現場の感覚と近い変数を選択したモデルだと中身の説明がしやすいです。これは一般的ではないかもしれませんが、ヘルスケア分野だとバリバリの機械学習で高精度を叩き出すモデルよりも、解析対象に合わせてチューニングしたオーソドックスで結果の解釈ができるモデルの方が受け入れが良いと感じています。言い換えると、結果よりも使った変数や実際に出てきた対象者の特徴を見て納得してもらえるかということだと考えています。

ベネフィットの理解

 モデル導入よるベネフィットの理解については、先行して手を打つ必要があります。PREVENTでは、健康保険組合で医療費を使っている上位5%の人で組合全体医療費の約50%を使っているという事実と生活習慣関連疾患の医療費に占める割合の高さから生活習慣関連疾患へのハイリスクアプローチの重要性を訴えました。加えて、生活習慣関連疾患である脳血管疾患や心血管疾患への効果的な介入ができるという実績を示すことでMyscopeのハイリスク者抽出の価値を押し出してきました。

 実際に導入後の効果として、健診項目の数値の変化やリスクスコアの変化、将来予測医療費を算出しお伝えするなど価値のビジュアライゼーションも効果的であったと考えています(このビジュアライゼーションもデータサイエンティストのスキルの一つですが、今回は割愛したいと思います)。

 このようなベネフィットを明確に打ち出すことが何よりも重要だと考えています。モデルが受け入れられたあとの説明コストは下がります。Myscopeでも取集したレセプト・健康診断データを用いて弊社サービス集団に対して最適なリスクスコアモデルを再構築し、これまでにバージョン1、2、3とモデルを更新させています。このように有用性受け入れたモデルについてはより高い精度や異なる母集団への適用などブラッシュアップが寧ろ望まれるものになります。

サービスとモデル

 これまでの例は、ヘルスケア分野でBtoBのビジネスのサービス対象者を選択する際のモデル導入についてです。一般化することはできないと思います。なぜなら、サービスによって解決したい課題が違うので、導入するモデルもその考え方も異なります。Myscopeのケースでは、変数と推定方法がある程度これまで知られている知見やメカニズムと対応し、当事者(医療関係者や保険者)が納得できること/説明できることが第一に優先されます(その後精度に関しても様々な要望がでてきますが・・・涙)。

 一方で、メール送信の振り分けやリコメンデーションについては、中身はともあれ結果のみが重要なケースもあると思います。”経験”を数理モデルに落とし込めれば、メカニズムはどうでもいいってタイプの課題です。そう言った場合には、常時モデル更新が可能なMLOpsが最適だと考えています(DSチームでもこの辺りを進めており、強化学習なんかを組み合わせてやりたーねーとは妄想していますが、その領域には到達していませんので、現状は分類問題を解き、ラベル付けは実務者と行い、そのラベルに応じた施策を試していくスタイルです。)。MLOpsの課題でよく上がってくる、過学習やコールドスタートへの対策などについてもノウハウが蓄積されていますので、導入のベネフィットさえ明確であればサービス実装への障壁は低いと考えています。

 このように、サービスによってモデルが解決する課題や期待値は大きく変わります。そのため、想定されたベネフィットが出るのかをチェックするPOCが必ず行われ、サービスに対してモデルをチューニングしていきます。

まとめ

 今回いただいたお題が、仕事内容やデータサイエンスの知識を使った社会実装の具体例ということでしたので、データサイエンスチームの実績の一部を公開してみました。

 PREVENTのデータサイエンスチームは、Myscopeや社内データ活用基盤の構築・データマネジメント・新規数理モデルの検討・KPIの可視化(ダッシュボード作成)など多くの仕事を行なっています。日々の業務で蓄積されたデータを質の良い状態で管理し、その質のいいデータから価値を生み出していくことがデータサイエンティストの仕事であるとメンバー一人一人が意識しています。

 まだまだ発展途上で、人数も多くありませんが少数精鋭という感じ(?)で各々の強みを生かしながら、データをどうやって価値に変えるかを云々言いながら日々精進しております。興味がある方はぜひメッセージください。

 いつも勉強noteばかり書いていますが、たまにはこんな記事もいいなと思いました。また報告できる成果が出ましたらまとめてみたいと思います!!



この記事が気に入ったらサポートをしてみませんか?