第60回理学療法士国家試験対策　統計学講義（7）統計用語

2023年6月29日 15:19

　理学療法士を含め、医療系の国家試験には毎年統計学の問題が出題されます。理学療法士では出題数が平均2問（1点問題）で、配点が少ないですが、諦めて対策をしないよりも、ある程度出題範囲が限られているので、対策を講じておきたいところです。
　息子が通っていた養成校の統計学の講義は、いくつかの検定方法を教えるだけで、国試対策としては全く役に立たないものでした。したがって、過去の国試問題を分析して必要な知識を改めて勉強し直す必要がありました。　　
　ここでは、問題を解く前に、ある程度知識を整理しておきたいと思います。
　理学療法士の国家試験では、次に挙げる分野で出題されます。

1．ガイドライン
2．研究デザイン
3．95%信頼区間
4．エビデンス
5．検定方法
6．感度・特異度・陽性尤度比
7．統計用語
8. リスク比とオッズ比（補足）

　これらについて、以下、国試に必要な知識を整理していきたいと思います。あくまで国試に必要な知識という事で、統計手法を根本的に理解するという趣旨ではありませんので、ご注意ください。また配点が少ないので、すみずみまで対応しようと勉強するのは、労力vs効果効果が低いです。2問出題された場合、最低1問（できれば2問）得点できるようにしたいものです。

　今回は7．統計用語です。すべてを説明できませんが、国試に出そうな点についていくつか紹介しようと思います。

【サンプル（標本）と母集団】
たとえば変形性膝関節症の患者を調べる場合、変形性関節症の患者すべてを調べる事はできません（厚労省によると症状を有する患者は日本国内で約1000万人います）。それらすべての集団を母集団といい、研究を行う際にはそこから一部分の患者を抽出して調べます。一部分抽出した患者群を標本（サンプル）をいいます。

【交絡因子】
2つの要因の関連をかく乱する他の因子。結果の評価に影響を与えます。

(例）
　肥満が膝関節症の発症に影響を与えるかどうか、糖尿病患者と健常人で肥満合併の割合を調べたところ、膝関節症では肥満が80%に対して、健常人では肥満の合併が40%でした。
　しかし、背景因子を色々調べると、糖尿病患者では糖尿病の合併が60%に対して、健常人では20%でした。これらから、糖尿病も膝関節症の合併に関連しているかもしれません。また、肥満と糖尿病とどちらが膝関節症の合併に影響しているか、はっきりわからなくなってしまいました。

　このように、2つの群を比較する場合、できれば、背景因子を均一にそろえる方が良いです。上の表の糖尿病のように、研究結果に影響を与えるような背景因子を交絡因子といいます。
　前向き研究の場合、交絡因子を均一にするために2つの群への割り付けを無作為化して比較する（ランダム化比較試験）と、交絡因子の影響が取り除かれ、信頼性の高い研究になります。

【バイアス】
バイアスは「広い意味で」明らかにしたい真の結果を誤らせる要因のことであり，日本語では「偏り」や「誤差」と訳されています。

　前述の交絡因子（患者の背景因子が結果の解釈をゆがめる）もバイアスの一種です（交絡バイアス）と呼ばれます。
　他のバイアスとして有名なものは情報バイアスがあります。たとえば、ある薬の効果があるかどうかを判定する場合、判定者が薬を使った患者と、薬を使っていない患者を事前に知っていると、効果判定する場合、薬を使った患者の方が、効果が良いはずだと、思い込んでしまう場合があります。いわば、患者を色メガネで見てしまっていて、結果の解釈をゆがめてしまいます。このような情報バイアスを取り除くには、目的とする薬投与する場合、本来の薬と偽薬を用意して、研究者にはどちらの薬を使ったわからなくして研究を行う方法があります。このような方法を盲検法といいます。

【帰無仮説と対立仮説】

【第１種の過誤と第２種の過誤】（国試未出題）

　【正規分布を示す（パラメトリック）データ（群）の特徴の表し方】

正規分布を占めすデータは平均値±2×標準偏差で表される場合が多いです。

これは、＋２×標準偏差(SD)からー２×標準偏差(SD)の間にデータの95%が含まれるので、データを表す場合に平均値±2×標準偏差で表す事が都合良いからです。この場合95%信頼区間も表現しやすいです。

当然分散や標準偏差が小さい方が、2つの群が交わりにくくなるので有意差が出やすくなります。

【正規分布を示さない（ノンパラメトリック）データ（群）の表し方】
（国試未出題）
ノンパラメトリックデータではデータは正規分布を示さないので、下図のようにデータがいびつな分布を呈します。右端の10,000のようにとんでもなく外れたデータが存在したりします。

この場合、平均値を計算するとどうなるでしょうか？
平均値＝(1＋２＋11＋11＋11＋15＋17＋110＋120＋130＋500＋510
＋10,000）÷13=879
となります。879という値は上の図の平均的な値を示しているとは思えませんようね。なぜこのような値になったかと言うと、この平均値の計算には外れ値の10,000の値の影響が大きくなります。

したがって、外れ値(10,000)を除いて平均値を計算するとどうなるでしょうか？
外れ値なしの平均値＝(1＋２＋11＋11＋11＋15＋17＋110＋120＋130
＋500＋510)÷12=119
となり、外れ値を入れた場合よりも、平均値が小さくなりました。

ただし、実際に数の多いのは、10〜17ぐらいの値のはずです。

このように、ノンパラメトリックデータでは、平均値は全体の特徴を表す上で適当な値とは言えません。