見出し画像

仮想データに「4つのものさし」を適用してみる

図表が誤っていたので訂正した。(2023.6.7)

仮想データ

仮想データとして、5人分の「50点満点のテストの点数」を使う。

5人分というのはとても少ない。このような小さいデータで統計の話をするのは、本来好ましいことではない。記述統計量を計算するまでもないからだ。見ればわかるものを、わざわざまとめることはない。
テストの点数は、すでに書いたように「間隔ものさし」で測定するのがよいと思われる。しかし、実際の統計処理の中で、比例ものさしで測定したか、間隔ものさしで測定したかを厳密に区別することに、あまり意味はない。もっとも重要な区別は、その測定値が「計算してよいか、計算すべきでないか」である。つまり、「比例あるいは間隔」ものさしか、「順序あるいは名義」ものさしか、を区別することである。

仮想データは次のものだ。(満点が50であることに注意)

仮想データ(50点満点のテスト)

比例(間隔)ものさしで測る

比例(間隔)ものさしで測るとこうなる。当然すぎて面白くないが、もっとも日常的でわかりやすいだろうと思われる。

比例(間隔)ものさしで測る

こういう間隔ものさしもある

作ったみたいだが(作ったんだが)、満点と比べて失った点数を測るとこうなる。プロットの上に、1つ目のものさしで測った点数、下に、この(あまり他人から好まれそうにない)新しいものさしで測った点数が書いてある。

満点と比べて何点失ったか

こんなのも考えられる

むりやり作ったようだが(むりやり作ったんだが)、こういうのもあり得る。要するに、合格点が30点と事前に決められていてそれより何点多いか、あるいは少ないかを測っている。

合格点を基準に測ると

このとき、30点を「合格基準」とか言ったりするので、このものさしは「合格点基準の間隔ものさし」だといえる。同じように考えると、最初のものは「0点規準の」、2つ目は「満点(50点)基準の」間隔ものさしである。

こういう規準もよく使われる

このものさしは35点が0点(つまり基準点)になっている。35点というのは、この仮想データの算術平均である。このものさしの特徴的なところは、何点を0にするかが、事前に決まっていないことである。

平均点基準の間隔ものさしで測ると

また、このデータではたまたま平均点が整数になっているが(あえてそのようにしたのだが)、平均点は多くの場合小数になる。よって、「0点規準」での測定値が整数であっても、平均点基準では全員が小数(多くの場合割り切れない)になることが多い。

以上は、基準点が異なるものの、すべて間隔ものさしである。

順序ものさしで測る=いくつかの差が失われる

何点以上はA、何点未満で何点以上はB、という成績評定を使うことがある。このものさしは、それを表現してみた。45点以上がA、45点未満40点以上がB、40点未満30点以上がC、30点未満20点以上がD、20点未満がEである。

評定という「順序ものさし」

こうすると、もともと点数の異なる緑、黄、紫の3人が、同じ「C」として測定されている。この3人の得点差(間隔ものさしでは測定可能だった差)が失われたのである。
ここでの議論のもとになっている「比例尺度」「間隔尺度」などは、まとめて「尺度水準」と呼ばれるが、水準が下がるとは、このようにデータが失われるということである。

名義ものさしで測る=世界が単純化される

最後は名義ものさしで測ってみる。前に述べたように、このものさしはもはや直定規的なものではなく、ただのロープである。世界を切り分けたいところにロープを置けばよい。

名義ものさしで測る

赤だけが0で、他は1である。これは要するに、30点以上を合格としたので、合格のときは1、そうでないときは0を割り当てたのである。30点以上か否か(すなわち合格したか否か)で世界を2つに分けているのである。

変わらないものは何だろう

では、それぞれのものさしで測った結果をまとめてみよう。

まとめたみた

右の2つ、「評定」(順序ものさし)「合否」(名義ものさし)では、いくらかのデータの差が失われてしまっているので、これは除外して、「0点規準」から「平均規準」の4つを比較してみよう。
この4つで、ものさしが変わったのに、変わっていないことは何だろう。言い換えると、ものさしを変えても、変わらずに保存されていることは何だろう。