ヘルスケア分野でのデータサイエンスチーム立ち上げ戦略。
株式会社PREVENTのデータサイエンスチームの活動ブログです。
この記事では、チームづくりに焦点を当て弊社データサイエンスチームのこれまでを振り返っています。
以下のような読者の皆様を想像しながら記事を書きました。
これからデータ活用を考えている経営者
データ分析チームの立ち上げに孤軍奮闘中のマネージャー
ヘルスケア部門のデータサイエンティストが何をしているのか興味があるデータサイエンティスト
ヘルスケア分野におけるデータサイエンスチームの奮闘記として、読んでいただければ嬉しいです。コメントとかいただければ、さらに嬉しいです。
はじめに
弊社データサイエンスチームは、部門横断型のチームです。
メンバー構成は以下のようになっています。
※ 2022.9月時点
データサインティスト3名
データアナリスト1名
データエンジニア1名
取り扱うデータの種類や規模、解決すべき課題が数多くあり、非常にやりがいのある状況となっています!
少数チームですが、各々の専門性を意識しながら仕事をしています。
仕組みの一つとして、各職種ごとにジョブディスクリプションを定め、月次の1on1などを通してメンバーと期待値のすり合わせを実施しています。
キャリア形成については、社内メンターがいない欠点を補うため、社内勉強会や社外での知見取集の支援制度、外部コンサルなどの活用を積極的に薦めています。
具体的な仕事内容に興味を持たれた方は、こちらの記事も参考にしてみてください。データサイエンスチームの代表的な業務であるMyscopeについてまとめられています。
サマリー
PREVENTのデータサイエンスチームのミッション
チームミッションを達成するには?という視点でチームづくりを考えていました。そのため、ミッションについて詳細に解説しました。会社の成長に合わせてチームミッションも変わっていきますので、あくまで現時点のものであるとご理解ください。データサイエンスチームの立ち上げ戦略
データ活用事例の創出、データの集約と活用(データ分析基盤の構築)、データインフォームドな意思決定の推進と段階を区切って、何を考えてきたのかについて解説しています。
汎用性が高い情報とはなっていいないかもしれませんが、何かの参考になれば本望です。まとめ
サクッと斜め読みの方は、まとめから読んでいただければと思います。
PREVENTのデータサイエンスチームのミッション
◆ 昔話
弊社データサイエンスチームは、2018年に開発部内の一つのチームとして立ち上がりました。チームと言っても所属メンバーは1名で、医療データ解析事業を専任で行い、主にレポーティングを中心とした業務がほとんどでした。
その時の1名が、今回の記事を担当させていただきます戸田です。
大学生の時はトッティと呼ばれていました。よろしくお願いします。
弊社には、
医療データを活用してサービス対象者を絞ることで費用対効果の高い重症化予防事業が可能である
というコンセプトがありました。具体的には、過去の医療情報および現在の健康診断結果からイベント発生リスクの高い対象者に優先的に重症化予防事業に参加いただくというものです。
このコンセプトが浸透していたので、会社にはデータを活用するという意志が深く根付いていました。
私もこのコンセプトに共感し入社を決意しました。
当時、重症化予防事業の市場や保健事業、健康保険組合について何も知らなかったのですが、ヘルスケア分野におけるデータ活用の一つの答えだと感じていました。
一方で、
データサイエンティストという職業については、社内で認知されていませんでした。私自身も立ち上げ期のベンチャー企業でデータサイエンティストがどうやって価値を出していくのかわかっていませんでした。
とにかくフワッとした熱意を採用面接の際にぶつけたことを覚えています。データ活用が現在のサービス品質を向上させるだけではなく、さらなる価値を生み出す。それが今後の保健事業および医療の社会課題にチャレンジするものであると。
しかし、データサイエンスチームがヘルステック企業に存在する価値や戦略的な役割について何にも具体的な構想はありませんでした。そのため、入社してからの1年くらいは、何をどうやったらいいのか模索しながら過ごす日々でした。
考えてばかりでは進まないので、
『データに基づいた意思決定は、企業価値を高めることに貢献できる』
というよく聞くフレーズですが、一旦はこれがデータサイエンスチームの存在意義であると考え、動き始めました。
◆ チームミッション
弊社のデータサイエンスチームが求められるミッションです。立ち上げ時期はチームの意味や意義みたいなものが重要です。協力メンバーや他部門への説明にも必要ですし、何よりチームが迷わないためにも。
シンプルなフレーズなので、サービスを標準化し、数をこなすようにするのか?など誤解を生む可能性があります。
このような誤解を生まないために、弊社ではメンバーとの共通認識を持つことを最重要視しています。定期的にミッションについて共有する機会や雑談的に考えを話す機会を意識的に設けています。
この記事でも、まずミッションの行間を補うための具体的な目標を解説するところから始めたいと思います。
→ 業務プロセスの見えるか・効率化
具体的な目標をまとめると以下の3つになります。
重症化予防事業の品質管理と改善
指導の均質化
重症化予防事業の一部機械化
現在提供しているサービスは、2週間に1回の医療専門者とのオンライン面談を含めた6ヶ月プログラムを通し、疾患を持った方に対して一人ひとりに最適化された健康づくりプランを提供するというものです。そのため、医療専門者の個別指導が主軸になっています。
医療専門者が指導品質(効果量)を落とすことなく、効率的にサポートできるかが直近の課題になります。単純に業務効率を上げるというよりも、どこを自動化させることができるのかを見つけていくイメージに近いです。
加えて、満足度も重要な視点です。適切な参加者を集める方法やスムーズなプログラム導入、情報共有などサービスとしての完成度も追求していかなくてはなりません。
ユーザーおよび顧客(B to B to Cなので)に対して高品質なサービスを提供するため、多角的にサービスをモニターできる状態を構築することが重要です。
さらには、個別化や機械化など少ないリソースでの持続可能なサービス提供に焦点を当てた課題にも取り組む必要があります。
そのため、サービスをモニタリングできるだけでなく、取得したデータを基に将来的に役立つアルゴリズムの考案も含まれています。
→ 成果の最大化
具体的な目標をまとめると以下の2つになります。
適切な評価軸の共有
インサイトの共有
予防医療において指導効果を示すことそのものが大きな課題です。成果の定義や結果の示し方など、意思決定者に合わせてチューニングしなくては伝わりません。
必然、成果が複数存在することになりますので、一つのデータから方針を決定するデータドリブンな意思決定ではなく、複数の情報を加味したデータインフォームドな意思決定を推進する必要があります。
さらに、その成果を最大化させるためには、素早くPDCAを回すための情報の準備や関係者への共有などが必須です。
他にも新規事業のPOCやフィジビリティスタディ、新規数理モデルの開発などを担当することがあります。
上述したようなPDCAを回すための評価軸の提供や新規事業の種になるインサイト提供などを実現するには、高いレベルで再現性・迅速性・拡張性を担保したデータ活用基盤が前提となります。
そのため、成果の設計やインサイト共有に加えて、データ解析基盤の構築も含まれています。
データサイエンスチームの立ち上げ戦略
チームミッションは壮大なのですが、当然立ち上げ時点は何もない状態でした。道のりは険しく、データコレクションから始まり、クレンジング、解析、アウトプットを含めたデータマネジメント体制の構築が最重要課題でした。
リソースも限られている中で全社的に取り組むことは難しく、ミッション達成を目指しながら現実的に可能な戦術を積み重ねていきました。クイックウィンってやつです。(ウィンしていたか置いておいて・・・まず結果を残すということを意識していました。)
戦術は段階に区切って、次の段階に進むタイミングで必要なスキルを持った方を採用しました。(採用は完全に運がよかったと思っています。)
以下のように段階を区切りました。
データ活用事例の創出
データの集約と活用(データ分析基盤の構築)← 今ここ。
データインフォームドな意思決定の推進
(上記の段階は、この順番がいいというよりもこのやり方しかできなかったという表現が正しいです。)
1. データ活用事例の創出
とにかく社内データを使って成果を出すという段階と割り切っていました。チームと言っても専属メンバーもおらず、解析基盤もありません。
解析業務は、完全に属人的な状態でした。
メンバーを増やすにしても投資対象になると会社に判断してもらうには、成果を出すしかありません。
そこで、使えるデータを確保し、データサイエンティストの社内的な役割を認知してもらうことに努めました。この時期は結構辛かったです。
→ 戦術
成果を出すには使えるデータが必要です。そこでまず、使えるデータを確保することを考えました。考えたことは2つです。
クレンジングの工数削減(既存データ、受動的データ)
データ品質の担保(能動的データ)
既存データやログデータのような受動的データの場合は、クレンジングの方法を考えなくてはなりません。立ち上げ初期では前処理に膨大な時間がかかり、解析する時は瀕死の状況でした。
クレンジングの自動化を進め、DB構築は後回しにcsvのデータセットからアウトプットを提示できるところに着手しました。(※ DB構築が後回しになったのは、私のスキルセットの影響が大いにありました。)
その後、メンバーが増えてきたタイミングで処理の作り込みやスケールへの対応を実施していきました。
能動的データ(実務者が入力するデータ)の場合は、データ入力側の認識に品質が左右されます。
社内に対しては、データをOOに使っています!ということをアピールするため、アウトプットの共有を意識しました。
エンドユーザーに対しては、弊社にデータを集約させるメリットを感じていただくため、アウトプットの共有を意識しました。
このように、データコレクションについてはとにかくアウトプット重視で、不十分でも何ができるのかを示し続けることが重要と考えていました。
少しでも関心が向いた後は、継続的なアプローチが重要で、ある種の当たり前になるまではリソースを投入し続ける覚悟をしています。
ここを組織的に運用するために、データスチュワード制度の導入なども検討しています。
→ 人材・チーム体制
ここで必要な人材は、とにかくデータ整備されていないところからデータセットをつくり、成果を生み出せる胆力を持った方です。
修士や博士で、0からの研究を経験した方や企業でのプロダクト立ち上げ経験のある方をイメージしながら採用活動を実施していました。(あまりにもドンピシャの方が入っているので後付けのように思われるかもですが、本当です。)
組織としては、このレポートでいうところのA fully distributed data science team(分散型チーム)を採用していました。
担当者は単体でプロジェクトにアサインされ、課題解決をサポートします。
ドメインの理解や応答性は向上しますが、属人的な解析になります。その結果、チームとしてのサポートが取りづらくなります。
一般的にメンターシップの欠如や孤立を感じる可能性があるので推奨されていませんが、この段階ではどうしようもないと割り切っていました。
一方で、私自身が孤独感を感じやすいタイプであることもあり、プログレスや勉強会のようなチームで集まる機会を設けていました。
2. データの集約と活用(データ分析基盤の構築)
現在進行中という感じです。
今後のブログでも登場してくると思いますが、統合データベースを構築するということです。
→ 戦術
引き続きデータコレクションについては着手しながらも、より複雑な解析に耐えうる基盤を整理していきます。
チーム内では解析基盤ができることの恩恵を直接感じることができますが、なかなか他部門や経営陣には伝わりません。
そこで、基盤の恩恵を可視化することにも意識を向けています。
例えば、BIツールの導入やチーム依頼タスクの消化数、レポート納期の期間などです。
データ解析基盤の構築を目的思考で実施するために、定期的なアウトプットを出して意思決定者にフィードバックをもらうという基本方針で構築を進めています。このようにすると、部門外の人に説明するという工程が含まれるので、仕様書や図などの分かりやすいドキュメントの整理も推進できます。
→ 人材・チーム体制
ここで必要な人材は、ずばりデータエンジニアです。
企業の規模によっては既に基盤がある、データエンジニアみたいな方がいるケースが多いと思います。
弊社の場合はいませんでした。(ので、苦労しました。)
立ち上げメンバーに、インフラエンジニア出身のデータサイエンティストですとか、クラウドわかるデータサイエンティストですとかがいる時点で勝利確定BGMが鳴り響いていると思います。そのくらい、データサイエンスチームにとって要となるポジションです。
採用だけでなく、チームメンバーに集中的に学習してもらうことも検討していました。(運よく採用できたので、これは実践していません。)
組織としては、共通のデータ解析基盤を使うことで、A centralized data science team(集中型チーム)による対応が可能になります。
集中型チームのメリットとして、再現性向上、知識の共有化が挙げられます。一方で、解析の幅が統合データベースの範囲に限定される危険性もあります。
ここに対しては、分散型の性質を残しデータサイエンティストを派遣することで対応しています。航空母艦のようなイメージです。
※ 2022.9月時点の弊社データサイエンスチームの体制です。
3. データインフォームドな意思決定の推進
今後の達成目標です。まだまだ不十分ですが、構想を紹介できればと思います。
→ 戦術
まずは、データインフォームドという馴染みのない言葉を伝えなくてはいけません。弊社事例で、より具体的な説明するようにしています。
要するに、データインフォームドな意思決定とは複数情報を統合して判断するということです。
複数情報を組み合わせることで仮説をより論理的なものにでき、結果の再現性が高まると考えています。
この複数情報を統合した意思決定を推進させるためには、以下の2点が必須と考えています。
簡便なデータへのアクセス
データの集計、要約、ドリルダウンなどの民主化
データマネジメントの一旦の区切り的な位置付けです。
出力の際には、単純に情報量が多ければよいわけではないので、これまで以上に要素の構造化を進めなくてはなりません。そのためには、各専門家が有機的に繋がる必要あり、そのハブを担うこともデータサイエンスチームの役割になると思います。
→ 人材・チーム体制
ここで必要な人材は、アナリストやビジネス寄りのデータサイエンティストだと考えています。
データを価値に変換できる段階なので、マーケットや経営など広いビジネス視点を持った方を探しています。さらに、自身が解析するだけではなく関係者を巻き込むような動きも期待しています。
組織としては、集中型チームです。
2の段階との違いは、データサイエンスチームからの派遣形態が社内コンサル的な関わりにしたいと考えています。
これから
今までのチームづくりは意思決定を促進させるという視点が強いです。サービス自体も人の介入を前提としているので、紹介してきたミッションを求められていました。
今後は、プログラムでいうとアプリケーションでのサポート範囲の拡張です。業務でいうとRPAです。そのため、PdM的な動きやMLOpsなどの基盤整理が鍵となってくると考えています。
エンジニアやPdMと協業して、プロダクトを作成しているデータサイエンティストの方々の情報を集めて、参考にしたいと考えています。
まとめ
この記事では、以下について記載しています。
PREVENTのデータサイエンスチームのミッション『業務プロセスの見えるか・効率化、成果の最大化に寄与すること』
具体的な行動指針とミッションとの関係重症化予防事業の品質管理と改善
指導の均質化
重症化予防事業の一部機械化
適切な評価軸の共有
インサイトの共有
各段階ごとの考え方や実践してきたチームづくり
データ活用事例の創出 → とにかく成果を泥臭く出す!
データの集約と活用(データ分析基盤の構築) → 統合DBはアウトプットありきで作る。
データインフォームドな意思決定の推進 → 言葉の定義からアクセシビリティまで、どうやって巻き込むのかが重要。
汎用性のある内容ではありませんが、ヘルスケア分野のデータサイエンスチーム体制をどのような考えで選択してきたのか振り返ってみました。
私の場合は、社内メンターがいない状態での立ち上げでした。そのため、いろんな方の記事や文献を拝見しながら、試行錯誤で進めてきました。
コツやフレームワークは知識として必要です。そういった情報はすぐに手に入り、学習することは容易です。
一方で、思想や体験についての情報は得ることが難しいです。しかも、こちらの方が重要なんじゃないかと思う局面が何度もあります。
そんな時に、他社のデータサイエンスチームがどのような考えで動いているのかなどのブログは、非常に励みになりました。(ブログ読まずにコミュニティに飛び込めよ!というご指摘はごもっともです。個人的に苦手なのといいコミュニティが見つけれなかったという言い訳しています。)
この記事は、発展途上のチームの奮闘記程度のものですが、似たような環境にいる方にとって何かしらの参考になれば嬉しいです。
また、今後も悩みながらやっていますので、コメントや応援いただけますと非常に嬉しいです。
これからも定期的に活動記録を上げていきますので、よろしくお願いします!過去ブログ記事についても是非読んでみてください。