12　心理学研究を支える最大の仮説

2024年1月27日 10:31

＃１　評価尺度の総スコアとは何か
評価尺度は心理現象を測定するためのツールである。その目的に応じて、抑うつ評価尺度、幸福度評価尺度、知能評価尺度、といった様々な評価尺度が存在する。

科学では対象を計測するための物指しが必要がある。そして心理学研究における物指しは評価尺度である。実際、心理学において学術論文の９割以上は評価尺度を使用していると思う。現在の心理学は評価尺度のおかげで成り立っていると言っても過言ではない。

これまで様々な評価尺度が作成されたが、そこには共通するルールが存在する。それは、評価尺度の総スコア（項目スコアの和）をその心理現象のレベルと見なす、ということである。しかしこの取り決めはあくまで仮説である。実際これまでこの仮説が実証されたことはない。

この仮説を証明できない理由は簡単だ。真の測定対象を測定できないからだ（もし真の測定対象を測定できるのなら評価尺度はとっくの昔に不要となっているはずだ）。真の測定対象を測定できなければ、真の測定対象と総スコアとの関係を調べることもできない。したがってこの仮説は現在も仮説のままというわけである。

もっともこういったことを意識している専門家は少ない。ほとんどの専門家は、こういった問題を考えることもなく、毎日せっせと評価尺度の総スコア（たとえばうつ病の重症度の評価や発達障害尺度）を計算し、総スコアを分析した論文を投稿している。評価尺度の総スコアを対象のレベルと見なすことがあまりに当たり前となったので、この仮説を検証する研究者すらほとんどいない。

筆者は、大規模集団において抑うつ尺度の総スコアが指数分布に従うことを報告した。そういったこともあり、抑うつ総スコアが指数分布にしたがう仕組みについて考えるようになった。そしてこの問題に取り組む過程で、どんな仕組みで抑うつ評価尺度の総スコアが真の抑うつのレベルを反映するのか、考えるようになった。

ニュートンは”自由落下”と”惑星の運動”という二つの現象を理解するために万有引力の仕組みを考えついた。同じように、抑うつ尺度の総スコアが指数分布にしたがうという現象を理解するには、その仕組みを考える必要がある。

なお筆者が調べた限りにおいて、項目スコアの和が測定対象のレベルを表す仕組みを説明した論文はなかった（もしご存じの方は教えてください）。もしそんなエポックメイキングな論文が存在するのなら、心理学の専門書では必ず引用されていると思うのだが。

ちなみにテスト理論の基本モデル（観測得点＝真の得点＋誤差実際のテスト得点）は、あくまで仮説であり、どういった仕組みでそれが成立するかについては言及されていない。

＃２　評価尺度の歴史
抑うつ評価尺度の仕組みを考える前に、そもそもいつの頃から評価尺度の項目スコアの和を測定対象のレベルと見なすようになっただろうか？

歴史をたどると、20世紀初頭には既に様々な分野で評価尺度が使用されていた（椎名乾平　2019）。そして既に当時の人々は評価尺度の項目スコアの和を測定対象の指標と見なしていた。したがって誰がどんな理由で総スコアを測定目的の指標とするようになったかはわからない。

おそらく先人の誰かが「一つの項目スコアより、いくつかの項目スコアの和を指標とした方がバランスをとれるのでは」と直感的に思いついたのではないかと思う。そして次第にこの決まりごとが定着し、現在では科学的真理のように扱われている。

「一つの項目スコアより、いくつかの項目スコアの和を指標とした方がバランスをとれる」というアイデアは悪くないと思う。しかし項目スコアの和が対象の心理現象とどのような数学的関係にあるかを明らかにする必要がある。

＃３　抑うつ評価尺度のモデル
5年程前に筆者らは抑うつ尺度の仕組み（モデル）を提案した（Tomitaka S et al. . BMC Res Notes 2017）。そしてそのモデルでは、総スコアと真の抑うつのレベルの関係が線形性を示すことがシミュレーションによって明らかになった。つまり、総スコアが抑うつの真のレベルと線形性の関係を示すので、総スコアが指数分布を示すというわけである。

筆者らの評価尺度のモデルについて説明する。このモデルの特徴は個人個人の抑うつ症状の閾値を想定することにある。なお閾値とは反応を起こさせるのに必要な刺激のことである。

世の中の人々の抑うつのレベルは個人差がある。しかし抑うつ症状の出現は抑うつレベルだけで決まるわけではない。抑うつ症状の出現しやすさには個人差が存在するからだ。たとえば軽度の抑うつレベルであっても不眠の閾値が低い人は睡眠障害を訴えるだろうし、閾値が高い人は睡眠障害を認めない。もちろん抑うつのレベルが高くなるほど、睡眠障害が出現する確率は高まる。

抑うつレベルに対する抑うつ症状の閾値と出現率の関係は図1のようになる。

図１Aは抑うつのレベルに対して抑うつ症状（不眠）の閾値がどう分布するかを示したものである。人間の感覚器の閾値の場合、平均程度の閾値を持つ人がもっとも多く、極端に敏感な人や鈍感な人は少ない。したがって、抑うつ症状の閾値も図１Aのような釣り鐘型の分布（正規分布）になることが想定される。

抑うつ症状（不眠）の閾値が図1Aのような正規分布にしたがう場合、抑うつ症状の出現率は正規分布の累積分布（積分）となる。図１Bは抑うつ症状の出現率の分布であるが、S状を示している。なお正規分布の累積正規分布関数は複雑すぎるので、一般的にロジスティック関数で代用する。
。
筆者らのモデルでは、真の抑うつのレベルは指数分布に従い、抑うつ症状の閾値が正規分布に従うと仮定した。抑うつ症状の閾値の分布はそれぞれの症状によって異なる。

このモデルを用いたシミュレーションを行った結果、一定の条件を満たせば、真の抑うつレベルを指数分布に設定すると総スコアは指数分布に従い、正規分布に設定すると総スコアは正規分布にしたがった。さらに総スコアは真の抑うつのレベルの関係を調べると、両者は強い線形性（比例関係）をしめすことが明らかになった（図2）。

図２　評価尺度のシミュレーションの結果（抑うつのレベルと総スコアの関係）
Tomitaka S et al. BMC Res Notes 2017

つまり総スコアは真の抑うつのレベルに比例するので、結果として総スコアも真の抑うつのレベルと同じように指数分布を示す、ということである。

なお一定の条件とは、個人の閾値の分散がある程度以上大きい必要があった。閾値の個人差のおかげで、評価尺度の総スコアは真の抑うつレベルと線形の形を示すという結果は意外だった。

我々のモデルから考えると、抑うつ尺度の総スコアは概ね真の抑うつのレベルを反映する、ということになった。名も知れない先人達の直観の正しさを支持する結果となった。

もちろん筆者らは抑うつ尺度の総スコアを真の抑うつのレベルの関係を実証したわけではない。真の抑うつのレベルを測定できないので、両者の関係を実証することは難しい。我々が行ったことは、本モデルを使うと総スコアと真の抑うつのレベルが強い線形性を示すことを提示しただけである（真の抑うつのレベルを測定できないので、モデルの正しさを証明できない）。

ちなみに、このモデルを利用すると、抑うつ症状がDS分布に従うことも説明することができる。「DS分布」とは抑うつ症状の分布モデルのことであるが、DS分布が発生する仕組みを説明するには、抑うつ症状の発現率が抑うつのレベルによって変化することを（閾値モデル）仮定する必要があった（Tomitaka S. et al. PeerJ 2016）。つまりこのモデルによって、抑うつの分布に関する二つの事実を理解することができた。

なおこのモデルの詳細な数学的説明は割愛する（数式をNoteに書くのは大変なので）。興味のある方は論文を読んでいただきたい（Tomitaka S et al. BMC Res Notes 2017）。

文献
1）椎名乾平．評定尺度はリカートが発明したわけではない、リカート(1932)より前の世界　2019　日本教育心理学会第61回総会抄録集
2) Tomitaka S et al. Exponential distribution of total depressive symptom scores in relation to exponential latent trait and item threshold distributions: a simulation study. BMC Res Notes 2017 10: 614.
3) Tomitaka S. et al. Boundary curves of individual items in the distribution of total depressive symptom scores approximate an exponential pattern in a general population. PeerJ 2016 4: e2566

この記事が気に入ったらサポートをしてみませんか？

12 心理学研究を支える最大の仮説

12　心理学研究を支える最大の仮説