見出し画像

ひとつだけ遠くまで飛んだ桜の花びら

今日の朝、起きてすぐベランダに出ると、桜の花びらが一枚だけ落ちていた。

統計学には、外れ値(はずれち)という概念がある。
私の住むアパートの近くに桜の木はない、と思う。
把握していないだけかもしれないが、ベランダに花びらが舞い込んでくるほど近くにはない。
あるいはあっても、私の部屋の階までは上がってこない。
たまたま偶然、一枚だけ、ベランダのある高さまで大きく舞いあげられたのだろうと思う。

ある桜の木から散った花びらの落下点は、木を中心に円上に広がり、離れるほど少なくなる。
風が一定方向で吹いていれば、落下地点の中心地はそちらにズレるだろう。
しかし、一枚、二枚は、様々な要因が偶然かさなり、かなり遠くまで飛ばされるかもしれない。
そういう、平均的な挙動から外れた事例を外れ値と呼ぶ。
実験データを処理するたび、いつも頭を悩ませられている。

例えば、四歳と五歳の子どもとを比べ、身長に差があるか調べるとする。
子どもは成長が早いから、それぞれ十人ほども集めれば差が出ると思う。
ただし、四歳のグループに一人すごく身長の高い子がいると、差が見えなくなってしまう。
あるいは、五歳の中に低い子がいる場合も同じだ。
明らかに同い年の子どもと背の高さが違うから、「平均的」ではないとデータから取り除いてしまえば結果はすっきりする。
が、そういう行為は科学の世界では許されない。
主観や常識、予想が入り込む余地を残してはいけないからだ。

最も単純な解決策は身長を測る子どもの数を増やすこと。
百人、千人の身長のデータがあれば一人や二人、背の大きな子どもがいても統計的に差が出る。
しかし、実験をしているとサンプル数を増やすのが困難なケースに、たまたま、よく、頻繁に、いつも、出会う。
実験に必要なサンプル数自体も統計学的な計算から導き出せるのだけれど、ここではその話はしない。
外れ値が外れ値であることを客観的に計算で調べる方法もあるし、実験の目的や手法、その他の情報を加味して「このサンプルは外れ値だからデータからは除外します」と、論文内で宣言しておけば、科学的な手続きとしては不正ではない。

花びらが風に運ばれてふらふらと、たまたまうちのベランダに落ちる様子は、朝から私を少しだけいい気分にさせるのに、実験データをまとめたエクセルファイルに表示される、一つだけ他と違う値にイライラさせられる。
ずいぶんと勝手な話だ。


この記事が気に入ったらサポートをしてみませんか?