見出し画像

臨床研究に用いる統計学①基礎知識と用語の把握

今回は統計の基礎について、めっちゃざっくりと解説していきます.何でめっちゃざっくりかというと、結局統計って実際に研究で使う場面じゃないとしっかり勉強しないし、しても頭に入らない.ただ、「さあ,統計を勉強するぞ!」と思った時に全く用語の意味が分からないと挫折するので,今回の記事は【統計解析をする前に最低限知っておく必要がある用語集】として,辞書代わりに使ってもらえるといいかなと思います.

おススメの本(統計をイチから学びたい方向け)

まずは,おススメの本を紹介します.今回の用語の説明もこの本を参考にしています.これ,めっちゃ分かりやすいです.確かに統計をしっかり勉強するには物足りないかもですが,Q&A形式になっていてイチから統計を学びたい方にはおススメです.kindle版もあります!


統計の基礎① 尺度ー名義・順序・間隔・比率尺度ー

では、まず尺度について用語の説明をしていきます.
尺度は、名義尺度,順序尺度,間隔尺度,比率尺度の4つに分けられます.
最初は,各尺度の定義を読んでもよく分からないと思うので,まずは例)をみてざっくりとイメージをつかんでもらえればいいと思います.

名義尺度
・他の者との区別という分類にのみ意味をもつ尺度
例)血液型 (A型 ・B型 ・AB型 ・O型),性別(男 ・ 女),住所(北海道 ・ 東京都 ・ 愛知県 ・ 大阪府 ・ 福岡県……), 障害側(右側 ・ 左側) など
・合計や平均を算出することに意味をもたない 

順序尺度
・分類に加えて順序や大小関係に意味をもつ尺度
例)学年(1 年生・2年生・3年生……),成績順位(1位・2位・3位……), 病気の重症度(軽度・中等度・重度) など
・数値の間隔や差の程度,比率に意味をもたないため, 四則演算(+・- ・×・÷)はできない
・名義尺度と順序尺度のデータは質的データともよばれる

間隔尺度 
・ 順序や大小,優劣に加えて一 定の間隔により区分され, 数値の間隔が等しいという意味をもつ尺度
例)気温 (20 ℃・21 ℃・22 ℃……), 年齢 (10歳 ・11 歳 ・12歳……), 知能指数 (100・120・150……) など
・加減の演算が可能となり, 平均や合計値の情報を利用することができる

比率尺度
・数値の間隔や差に加え, 数値の比にも意味をもつ尺度 
例)身長 (cm), 体重 (kg), 絶対温度 (K) など
・原点と単位とが定義されており, 四則演算のすべてが適用となる
・間隔尺度と比率尺度のデータは量的データともよばれる

統計の基礎② 代表値ー平均・中央値ー

多くのデータは平均値・中央値を代表値とします.大切なのは,尺度や正規分布によって,代表値が異なること!

平均
・データの合計をデータ数で割った値
間隔尺度や比率尺度で適応←名義・順序尺度では平均を出す意味がないので注意!!

中央値
・データの中央に位置する値,つまりデータを小さい順 (または 大きい順) に並べたときにちょうど中間に位置する値を指す
・順序尺度や、正規分布に従わない(後述)間隔尺度、比率尺度で適応

統計の基礎③ 散布度ー標準偏差・四分位範囲ー

散布度とはデータのバラツキを表す値であり, 標準偏差,四分位範囲などが一般的に用いられています.

標準偏差
平均に対応したバラツキの指標として用いられており,SD と略して標記される
・標準偏差と平均を示すことで,そのデータがどの範囲でどのように散らばっているかを知ることができる
・標準偏差の数値が大きいほど分布の幅(データのバラツキ)が広くなることを意味する
・平均と同様に, データの分布に偏りがある (正規分布に従わな い) 場合はよい情報とならない( 四分位範囲 が適用となる)

四分位範囲
中央値(50% タイル値)に対応したバラツキの指標として用いられており,75% タイル値(第3四分位数)と25% タイル値(第 1 四分位数)の差で表記される(下図参照)


画像1

統計の基礎④ 正規分布

正規分布は,分布の真ん中(平均)で最もデータ数が多く集まっており, 真ん中から遠ざかるほど(値が小さくなる,または大きくなるほど)データ数が少なくなっている分布形状をしている(下図は正規分布の例)

画像2

なんで正規分布に従うかを確認する必要があるの?
→調べたいデータの代表値が平均なのか,中央値なのかが正規分布に従うかどうかによって決まる

正規分布に従う;代表値は平均と標準偏差
正規分布に従わない;代表値は中央値と四分位範囲

もちろん、その後に統計解析を行う際にも正規分布に留意することは大切ですが,とりあえず今回説明した中で話すならこんなところでしょう.正規分布の確認(Shapiro-Wilk検定)から統計手法の選択については別の記事で解説します.

統計の基礎⑤ その他の用語ー分散・標準誤差ー

統計解析をする前に最低限知っておく必要がある用語を,ここまで解説しました.実際に解析する際は,先述したShapiro-Wilk検定やらt検定やら色々ありますが,これらの解説は今回説明した用語を知っていないと理解できないので,辞書代わりに何度も確認してもらえればと思います.
さて,その他によく出てくる用語,且つ混乱しやすい用語として,分散・標準誤差がありますので,またしてもざっくりと解説します.

分散
・データのバラつきを表す指標

分散=Σ(測定値-平均値)2 /データ数(n)

・分散と標準偏差の違いは?

標準偏差=√分散(標準偏差は分散の平方根)

細かい式は省きますが,実際の研究においてデータのバラつきは,先述したように標準偏差か四分位範囲で示すことが多いです.ただ,統計解析を勉強していくと「分散分析」など、分散というワードはよく出てきます.その時にそもそもの分散の意味を理解できていないと,統計手法の選択ミスに繋がります.例えば,分散の算出には平均値を用いているので,正規分布に従わないデータは分散分析の適応となりません(だいぶ初歩的ですが、、).

標準誤差 standard error of the mean(SEM)

SEM=標準偏差/√データ数(n)

はい,混乱しますね.日本理学療法士学会のEBPT用語集から引用すると,

データそのもののバラツキを表すのは標準偏差で,平均のバラツキを表すのが標準誤差

一般的に研究データそのもののバラつきを示すのなら標準偏差を用います.標準誤差とは現実の値ではなく,理論的な推定値であり,母集団の平均値が入る確率の高い範囲を示します.と,説明してもよく分からないと思うので、先の日本理学療法士学会のホームページに標準誤差の例が記載されているのでリンクを載せました.なんとなくこんな感じなんだなあという理解でとりあえずよいと思います.

本記事の活用方法

スマホやPCにブックマークしておいて,「あれ?この用語の意味何だっけ?」と思ったときにサクッと検索して頂ければ幸いです!

少しでも参考になりましたら、サポートして頂ければ幸いです。