3つのバイアスについて
分析屋の藤島です。
データにバイアスがあると、分析結果や調査結果の精度が悪いといった話は一度は聞いたことがあるかと思います。
例えば神奈川県内の労働に関する調査(就業率、失業率、労働時間など)を調査対象者が調査票に答えてもらう調査があるとします。
選ばれた調査対象のうち、20〜40代が90%、50代以上が10%だとしたら標本に偏りが生じるため、調査結果も20〜40代に依存してしまいます。
今回はヘルスデータサイエンス領域(臨床解析、RWDなど)を勉強する際によく出てくる3つのバイアスについて、紹介したいと思います。
1.選択バイアス
選択バイアスとは、サンプルやデータを選択する際に生じるバイアスのことです。
本ブログの例が選択バイアスとなります。
大腸がんのスクリーニング検査を例に説明していきたいと思います。
試験内容としては、40歳以上〜75歳以下の方を対象に大腸がん(疑いを含む)のふるい分けを行う検査を行い、どういうリスクがあると大腸がんになる傾向があるのかを実施するとします。
年齢や性別等でバイアスがないかどうかを確認するために、検査対象者を調べてみたところ、下記の結果であることがわかりました。
検査参加者の年齢構成比は40代:5%、50代:70%、60代:20%、70代:5%であった
性別を調べたところ、男女比が8:2であった
上記の結果から、標本について2点問題があることがわかりました。
年齢層について、50代が多く、40代と70代が極端に少ないため、年齢で偏りが生じている
性別について、男性の方が多いため、性別で偏りが生じている
このような問題があると、仮に大腸がんのリスクが特定できたとしても年齢や性別によって特定のリスクが発生している可能性があるため、検査結果としては良くないものになってしまう可能性があります。
選択バイアスを回避するには、目的に合わせて偏りが生じないようデータやサンプルを選択する必要があります。
今回でいうと、各年代の全体に占める割合を25%ずつにする、男女比をなるべく5:5に近づけるように工夫することが必要です。
臨床試験の場合、薬剤の割り付けはプログラムやツールによってランダムに割り付けられています。
標本が割り付けられた薬剤群によって性別や年齢、薬剤初投与時での評価等で偏りが生じていないことを確認するための帳票を必ず作成しています。
2.情報バイアスについて
情報バイアスとは、リスクや治療効果を測定する際に、情報の取り違いや測定方法が不十分であるために一方向に偏って測定結果が出てしまうことである。
例えば、新薬とプラセボの2群試験(被験者・医者にはどちらの薬が投与されているかどうかは漏らしてはいけないということにする)を行う場合に、ある被験者が新薬投与されていることを知ってしまったとします。
すると、以下のような事象が起きる可能性があります。
被験者が新薬投与されていることを知る。
被験者はちょっとした不調でも医者に問い合わせをする。
医者も被験者が新薬に投与されていることを知れば、いつも以上に配慮する。
その結果、新薬の安全性のみ不当に多く収集されてしまい、安全性に関する情報が投与群で偏ってしまった。
安全性に関する情報が投与群で偏ると、新薬が誤って安全ではないと判断される可能性があり、有効な薬だとしても中止せざるを得ない状況になる可能性があります。
このようなことを防ぐために、新薬とプラセボの2群で比較する場合だと、少なくとも被験者にはどちらの医薬品が投与されているのかを提示しないことが多いです。
ちなみに、飲酒歴や喫煙歴など、ネガティブだと思われていることに対しては過少申告になりやすいと言われています。
過少申告してしまうと、病気の早期発見や正しく診断できない可能性もあるので、正確に伝えることが大切です。
3.交絡バイアスについて
交絡バイアスは、要因とアウトカム(治療や予防による臨床上の成果)の双方に関連し、片方の集団に偏って存在する交絡因子の存在によって生じます。
日本疫学会によると、交絡因子は2つの集団のアウトカムを比較する際に、
アウトカムに影響を与える
要因と関連がある
要因とアウトカムの中間因子でない
という3つの条件を満たすと定義されています。
図にすると下記の通りです。
上記の説明だけだとよく分からないと思うので、【高血圧であればあるほど高収入である】を例に交絡因子の定義に則って説明していきます。
➀アウトカムに影響を与える
年齢が高いと一般的に経験豊富・スキルが高い傾向にあり、その結果収入が高くなります。
そのため、アウトカムに影響を与えるという1つ目の条件は満たします。
②要因との関連がない
年齢が高いと一般的には、高血圧になりやすくなります。
そのため、要因とアウトカムの中間因子ではないという2つ目の条件は満たします。
➂要因とアウトカムの中間因子ではない。
➀と②から高血圧と高収入の間には関連が生じているように思うかもしれませんが、年齢という交絡因子があるため、高血圧と高収入の中間因子が年齢とはいえません。
そのため、要因とアウトカムの中間因子ではないという3つ目の条件は満たします。
上記のことから、高血圧であれば高収入であるというのは年齢という交絡因子があることで、交絡バイアスが生じています。
交絡因子は上手く調整しないと、適切に新薬による効果かどうかは判断することが難しいです。
(この辺の話は、解析手法も交えて紹介したいと思います。)
また交絡因子は医学研究のみならず、社会科学の分野でも考慮されることが多いと思っています。
4.最後に
現場でお仕事し始めて間もない頃に、「あなたは統計解析を行う上で医学的な観点を大事にするのか、統計的な観点を大事にするのかどちらですか?」と現場の方から聞かれたことがありました。
その時は答えられなかったのですが、最近は統計的な観点が大事なのかなと考えるようになってきましたが、まだ漠然としているため、色々落ち着いたタイミングで考えてブログに投稿してみようかと思います。
これまで書いてきたヘルスデータサイエンスの記事は下記リンクから参照できるので、興味ありましたらぜひ読んでみてください!
株式会社分析屋について
弊社が作成を行いました分析レポートを、鎌倉市観光協会様HPに掲載いただきました。
ホームページはこちら。
noteでの会社紹介記事はこちら。
【データ分析で日本を豊かに】
分析屋はシステム分野・ライフサイエンス分野・マーケティング分野の知見を生かし、多種多様な分野の企業様のデータ分析のご支援をさせていただいております。 「あなたの問題解決をする」をモットーに、お客様の抱える課題にあわせた解析・分析手法を用いて、問題解決へのお手伝いをいたします!
【マーケティング】
マーケティング戦略上の目的に向けて、各種のデータ統合及び加工ならびにPDCAサイクル運用全般を支援や高度なデータ分析技術により複雑な課題解決に向けての分析サービスを提供いたします。
【システム】
アプリケーション開発やデータベース構築、WEBサイト構築、運用保守業務などお客様の問題やご要望に沿ってご支援いたします。
【ライフサイエンス】
機械学習や各種アルゴリズムなどの解析アルゴリズム開発サービスを提供いたします。過去には医療系のバイタルデータを扱った解析が主でしたが、今後はそれらで培った経験・技術を工業など他の分野の企業様の問題解決にも役立てていく方針です。
【SES】
SESサービスも行っております。