【読了】統計を身につける5つのステップ



はじめに

・データ解析で迷子になっている人の多くは、「有意差を出すこと」にこだわりすぎている(たとえ有意差を出せたとしても先行研究とのギャップに悩んでしまう)
・本書の主眼は、あくまで「学会・論文発表のために必要な統計的思考」(「統計学の教科書」ではない)

一番伝えたいこと

①「クリニカルクエスチョン(研究目的)」と「PICO(もしくはPECO)」をどれだけ具体的に設定できるかが、解析手法の選択よりも重要
②アウトプットを重視するべき、統計解析を使うためにはアウトプット(第三者に説明して伝える)の練習に多くの時間をかける必要あり

統計学者の業務プロセス

以下の各ステップ(目的)を達成するための手段に過ぎない(最低限の知識だけあればOK)

⓪データを理解する
①適切にデータを収集する
②適切な分析手法を適用する
③適切に処理結果を解釈する
④適切に可視化して伝達する

臨床研究における解析代行サービス

・「データさえ送れば、委託先が勝手にいい感じの解析結果を納品してくれるサービス」ではない
・解析の意図を汲み取ってくれたり、解析できる状況までデータをクリーニングしてくれる委託先はかなり高額になる、しかも、委託元もリテラシーがないと納品物を活かせない

第1章 計画することの重要性

統計学の目的は、「有意差を出すこと」では決してない
(有意差を出すために誤った分析手法を採ってしまう事例がよくある)

統計学の2つの目的
・要約する(記述統計学):要約統計量を算出する
・母集団を推定する(推測統計学):母集団から抽出した標本に対して推測統計量を算出する

要約統計量
・平均値
・標準偏差
・中央値
・四分位範囲
・割合

推測統計量:抽出した標本により異なる
・標本平均
・標本標準偏差

何かしらの結果が得られた時に考慮すべきこと
・標本は母集団を代表していたか?偏った抽出方法になっていなかったか?
・得られた結果は先行研究(他の標本集団から導かれた結論)と同じなのか?違うのか?

分析計画の考え方

・設定した目的に対して適切な答えを得るためには、適切に計画する必要がある(研究デザイン)
 ・Garbage in, Garbage out

正しい思考法でしっかりと悩むことが重要(誤った思考法で悩んでも意味がない)
・正しい思考法:統計的に意味のある差はどれくらい?→統計的な有意差を出すためにはどう分析したらよいか?→どんなデータを取得すればよいか?
・誤った思考法:このデータから何が言えるか?→どんな分析(検定など)をすればよいか?→これは統計的に意味がある差なのか?

標本誤差(SE)と標準偏差(SD)

・混同しやすいので特に注意する
・関係式(SE=SD/√n)により、標準偏差SDよりも標本誤差SEは必ず小さくなるため、グラフの見栄えを良くするためにSEを使う人がいるが、明確に区別すべき

標本誤差(SE)
・「推定値のバラツキ」であり、推定結果を示す時に使うもの
・標本サイズが大きいほど標本誤差は小さくなる
・測定精度が高いほど標本誤差が小さくなる
・95%信頼区間は標準誤差を拡張した概念であるため、SEの代わりに信頼区間を使ってもOK

標準偏差(SD)
・「標本を構成するデータのバラツキ」であり、標本データを記述(要約)する時に使うもの
・正しくは「標本標準偏差」、あくまでも標本に対する要約情報

点推定と区間推定

・原理的には標本サイズを最大化すれば、標本平均は母平均に一致するが、実務上は実現不可能
・そのため、実務上は点推定に区間推定を組み合わせて、2種の推定値(点推定値+95%CI)を併記する
・関係式(正規分布の場合のみ成立):95%CI=点推定値±1.96SE
 ・信頼区間CIが、標準誤差SEの拡張概念であることが分かる
 ・「1.96」とは、正規分布において95%のデータが入っている区間
  ・±1SE区間には約68.3%、±2SE区間には約95.5%のデータが含まれる
  ・正規分布以外の分布に従う場合は値が異なる

95%信頼区間の解釈

「95%信頼区間」とは、「正規分布に従う母集団から標本を取ってきてその平均から95%信頼区間を求めた時に、その区間の中に95%の確率で母平均が含まれる」という意味だと思う人がいるかもしれませんが、これは不正確です。
(頻度主義統計学では、)母平均は決まった値(定数)であり、確率的に変化することはありません。つまり、算出された信頼区間に母平均が「含まれる」か「含まれない」かのどちらかしかありえません。したがって、「母平均が、95%の"確率"で推定した信頼区間に含まれる」と言うことはできません。
正しくは、「区間推定(母集団から標本を取ってきて、その平均から95%信頼区間を求める作業)を100回やったときに、95回はその区間の中に母平均が含まれる」という"頻度"もしくは"割合"を意味します。

ヒストグラムと確率分布

・ヒストグラム:縦軸は度数(Frequency)、個数
・確率分布(正規分布など):縦軸は確率密度

95%信頼区間と有意差の関係

「95%信頼区間を見れば、有意差があるかどうか判定できる?」
・判定できるが、それは副次的な事実に過ぎない。信頼区間の本質は、あくまでも「得られた点推定値の推定精度」のみ。
・信頼区間を表示することは、p値を表示することと意味が異なる。

第2章 研究目的の4分類

・「とりあえず手元にあるデータでも統計解析をうまくやれば何かしら分かるだろう」という思い込みは、「冷蔵庫には魚しかないけどカレーを作ろうとしている状況」
・料理法をそれなりに駆使すればカレーっぽいものに近づくかもしれないが、努力の方向性としては、以下のどちらかを選択するのが普通
 ・定めた目的に適うデータを取ってくる:「カレーを作るための材料を手に入れてこよう」
 ・目的を見直す:「魚を材料にできる料理を作ろう」
・最初に目的が決まってから、はじめて最適な料理法(手段)を選択できる
 ・フライパンを使う
 ・圧力鍋を使う
 ・市販のカレールーを使う

クリニカルクエスチョン

・臨床研究における研究目的のこと

研究(論文作成)のステップ

①クリニカルクエスチョン(CQ)の設定
②先行研究のレビュー
③イントロを書く(研究の背景・目的・仮説)
④メソッドを書く(研究方法を固める)
⑤研究の実施(データの収集)
⑦データ解析の実施
⑧リザルトとディスカッションを書く
⑨アブストとタイトルを書く

論文の構成

①イントロ
・「先行研究ではここまで明らかになっている、しかしこの部分はまだ明らかになっていない」(「先行研究レビュー」のステップ)
・「この研究では、この部分を明らかにするための研究調査を行った」

②メソッド
・メソッドの一部として「Statistical Analysis」を記載する
・研究開始前に決めておくべき内容
・「研究目的」と「アウトカム(エンドポイント)」さえ決まっていれば、分析手法はほぼ理論的に決定できる(逆に、決まっていなければ、分析手法を適切に選ぶことは不可能)

・例えば、観察的疫学研究であれば、STROBE声明により「メソッド」に記載すべき推奨項目が定められている
 ・研究デザイン
 ・セッティング:実施場所、基準日付、など
 ・参加者
 ・変数:アウトカム、予測因子、潜在的な交絡因子、など
 ・データソース、測定方法
 ・バイアス
 ・サンプルサイズ
 ・量的変数:量的変数の分析方法、など
 ・分析方法

③リザルト
・適切な分析手法を適用した結果を書けばいいだけ
・結果として「有意差があるかどうか(p値が小さいかどうか)」は関係ない、有意差が出なかったからといって分析手法を変える必要はない(むしろそのような行為はp値ハッキングに繋がる)

④ディスカッション
・先行研究と比較し、合致している部分と合致していない部分の理由を論じる

アウトカムに基づく分析手法の選択

連続データ
・要約統計量:平均、分散(標準偏差)、中央値、四分位範囲
・検定:t検定、マンホイットニーU検定
・回帰分析:共分散分析

カテゴリカルデータ
・要約統計量:
・検定:カイ2乗検定、フィッシャー正確確率検定
・回帰分析:ロジスティック回帰分析

生存時間データ(https://www.ariseanalytics.com/activities/report/20211027/
・要約統計量:中央値、X年生存率
・検定:ログランク検定、一般化ウィルコクソン検定
・回帰分析:Cox比例ハザードモデル

研究目的(QC)の4タイプ

自分の持っている疑問はどのタイプか?

①病気や診察の実態を調べる
②診断法や予後予測モデルを評価する
③要因とアウトカムの関係を調べる:疫学研究の王道、リスクファクター研究、フラミンガム町コホート研究(1948年~)が有名
④治療法の効果が、プラセボ(もしくは標準治療)よりも優れているか/劣っているかを調べる


研究目的を構造化する

・研究目的を統計解析手法に落とし込むためには、PICO/PECOフレームワークを使って構造化すると、さらに分かりやすくなる
・PICOを使って構造化できないとき、自分でも分析は難しいし、解析代行してもうまくいかない
・PECOは観察研究、PICOは介入研究の用語だが、本質は類似している

PICO
・Patient(Participant):今回の研究対象
・Intervention(Exposure):介入
・Comparison:比較相手
・Outcume:アウトカム(エンドポイント)

第3章 p値で一喜一憂する時代の終わり

・昔は、データの出処や、手法の適切性は無視して、結果的に0.05を下回るp値が算出できれば、論文として意味があると見なされてきた時代があった
・その結果、p値ハッキングなどの行為により論文不正が横行した(2007年~、ディオバン事件
・2016年:米統計協会ASAによるp値声明(6指摘)
・2019年:「統計的に有意差が無いため、2群のデータには差がない」という間違った結論が791論文中51%に及んでいた(Nature声明)

「統計的に有意差がある」と「医学的に意味がある」は全く異なる
・2群間t検定の場合、p値が小さくなる要因は以下なので、単にデータ数が多いだけでも有意差が出てしまう。しかし、「薬剤Xを投与したら血圧が1mmHg下がった」という結果は、医学的に意味がない。
 ・2群間の平均値の差が大きい
 ・バラツキが小さい
 ・データ数が多い
・結果の4区分
 ①「医学的に意味あり」かつ「統計的に有意差あり」:ここを狙うべき
 ②「医学的に意味あり」かつ 「統計的に有意差なし」:検出力不足で有意差が出なかった可能性あり、症例数が増えれば有意差が示せるのかをディスカッションに書く
 ③「医学的に意味なし」かつ「統計的に有意差あり」:コストの無駄(症例集めすぎ)
 ④「医学的に意味なし」かつ「統計的に有意差なし」:この研究結果も重要

プロトコル(研究計画書)に事前記載していない結果は、Post Hoc Analysisとして区別すべき

第4章 統計の苦手を克服する方法

・書籍やセミナーで理論を最初から学ぶこと(インプット重視)だけでは、統計を使えるようにはならない

統計の学習に必要な3要素
・インプット:「①理論」しか鍛えられない
・アウトプット
・継続

統計の3つの力
①理論:t検定とはどんな手法か?
②判断力:どんな場合にt検定が必要か?
③実践力:統計ソフトなどを使ってt検定を使えるか?

「②判断力」を鍛えるためには、統計専門家が査読者に含まれている論文を読むのがお薦め
正しい判断の事例(最適な解析手法が選択された事例)をストックしておくとよい

統計の問題では、データが同じでも目的が異なれば、最適な解析手法は異なる
材料が肉の場合、目的が焼肉のときとカレーのときでは最適な調理方法が異なる

第5章 論文を読んで統計を使う5ステップ

判断力を鍛える5ステップ

①適切な論文を選ぶ
②統計を意識して読む
③統計専門家と答え合わせする
④①〜③を継続する
⑤自身でデータ分析してみる

統計専門家がレビュアに含まれていない論文を読んでも、統計学の勉強にはならない
NEJM(New England Journal of Medicine)がお薦め
プロトコル(研究計画書)の提出が義務付けられているから

統計を意識した読み方
①CQを確認する
②メソッドからPICOを確認する
③PICOに対してどんな分析を実施しているか確認する
④リザルトを確認する
⑤知識をデータベース化する
・論文の識別子
・CQ
・PICO
・解析手法
・リザルト
・特記事項

第6章 統計の3つの力

以下をバランスよく鍛えるべき

①理論
②判断力
③実践力

この記事が気に入ったらサポートをしてみませんか?