見出し画像

標本誤差も知らずにアンケ―トの結果を用いるフェミニスト

 論外の記事がyahoo!記事に転載された。このnote記事で批判対象とするのは、様々なアンケートの結果をつまみ食いしながら適当な事を書き散らしている以下の記事である。

 上記の記事は結論部において以下のようなことを述べている。

本記事で見てきたように、女性の方が男性よりも「結婚しない」という生き方が向いている人が多いと解釈できるデータも少なくありません

男性は女性よりも孤独を感じやすいのか【おひとりさまの満足度】男性が低い傾向に
西田 梨紗 2023/07/30 LIMO

 このような口吻で論考を結んだとき、「紙面の都合上、紹介しきれなかった様々なデータがあり、それによっても『女性の方が男性よりも「結婚しない」という生き方が向いている人が多い』と言えるのだ」と主張していると見做せる。

 さて、ここで笑わせるのが「解釈できるデータも少なくありません」という表現である。この言い回しは統計学を修めた人間が統計データを用いて何かを主張するときによく用いる言い回しである(まぁ、この言い回し自体は論文において分けなければいけない「リザルト=結果」と「ディスカッション=考察」についてキッチリ分けて表現するための言い回しである)。つまり、如何にも「専門知識を背景にして主張していますよ!」という雰囲気を演出する言い回しでなのある。

 ところがどっこい、当該記事のライターである西田氏は標本調査のアンケートの結果を読み解くにあたって標本誤差に頓着しない。全数調査ではない標本調査のアンケートに誤差があることを理解しないなら、その結果を用いてあーだこーだ言うべきではない。ましてや、専門家っぽい外見を演出した文章など書くべきではない。

 フェミニズム言説のなかにある「男性は結婚制度によって女性を搾取したのだ」ということの証拠になりそうなアンケート結果を西田氏は渉猟してきてこの記事を書いたのだろうが、統計データで何かを主張するのであれば最低限の統計学ないしは社会調査技法を学ぶべきではないだろうか。


■誤差を考慮していない記事を見てひっくり返る

 西田氏は他者が行ったアンケート調査の結果から色々と主張を行っている。だが、アンケート調査の結果から色々と主張するにあたっての知識が西田氏にはまるで無い。このことをよく示す部分を引用しよう。

「結婚しなくてよかった」と感じている人は女性の方が多い(※)

 あわせて、公益財団法人年金シニアプラン総合研究機構(著者:平河茉璃絵)「第5回 独身者(40代~60代前半)の老後生活設計ニーズ に関する調査:調査結果の概要」における「現在、独身生活を続けてきてどのように感じているか(60~64歳)」を見ていきましょう。
 60歳代になって「結婚しなくてよかった」と回答している人の割合は全体の2割程度です。女性の方がやや多く、女性は22%、男性は21.1%となっています。
 「自分のライフスタイルを維持できてよかった」と回答している人についても女性の方が多く、女性が23.1%であるのに対し、男性は16.9%です。 一方で、「子どもがほしい(ほしかった)」と回答している人は男性がわずかに多く、男性が14.9%、女性は14.6%という結果でした。
 その他にもこの後詳しく述べるように、「1人では食事や健康の管理が難しい」と考える人の割合は男性は女性の約2倍(男性12%、女性6%)という結果となっています。

(※引用者註:この太字部分は見出し)

男性は女性よりも孤独を感じやすいのか【おひとりさまの満足度】男性が低い傾向に
西田 梨紗 2023/07/30 LIMO (強調引用者)

 西田氏の記事の見出しが「『結婚しなくてよかった』と感じている人は女性の方が多い」となっている節で、上記引用において太字で強調した箇所を見たとき、思わず「はぁ?差がたったの0.9ptしかないのに有意差になんの?この調査はそんな大規模なの?」と驚愕した。慌てて、以下の公益財団法人年金シニアプラン総合研究機構(著者:平河茉璃絵)「第5回 独身者(40代~60代前半)の老後生活設計ニーズ に関する調査:調査結果の概要」

https://www.jstage.jst.go.jp/article/nenkinkenkyu/15/0/15_119/_pdf/-char/ja

を確認してみると、男性1250人女性1250人の調査である。このサンプル数を見た瞬間「標本誤差の半分未満の差やんけ!」とパソコンの画面に向かって全力でツッコミを入れた。検定をしなくてもこんなものは有意差があるなんて言えないのがすぐ分かる。

 もちろん、アンケート結果の数値をそのままダイレクトに社会における数値の代用として使って啓蒙記事を書いていけないわけではない。しかし、そういった記事は、ある程度の正確性を犠牲にして分かり易さを取るというトレードオフの関係を理解した上での執筆方針で書かれた記事なのだ(少なくとも私が書く場合はそうだ)。

 例えば、啓蒙記事において「アンケート結果では男性が○○%、女性が○○%になっていた。つまり、男性は女性の〇倍なのだ」と書いたとしても、内心では「いやまぁ、これサンプル数が○○人だし回答結果は○○%だから誤差として±〇ptぐらいはあるから、〇倍とか言っちゃうのは不正確だよなぁ」と思いつつ書くのだ。

 言い換えると、アンケート結果をネタにした記事を書くときは、標本誤差を念頭に入れつつ、誤差に関することは割愛して記事を書いているのだ。したがって、アンケートというものを理解している人間が記事を書くときは、社会(=母集団)の割合の代用としてアンケート結果の数値をダイレクトにつかっていたとしても、標本誤差によって結論がひっくり返りそうな主張はしないのだ(もちろん、私に関してもウッカリ筆が滑ることがないわけではない。そういう箇所に対して批判を受けた際には素直に謝罪し、訂正する)。

 アンケートや統計学に詳しい人ならば引用箇所の提示だけで以後の説明は不要かとも思うのだが、そういう人ばかりでもないだろうから少し解説をしていきたい。とはいえ、ここまで述べてきたことで、アンケート調査や統計学に関して詳しくない人でも何となく西田氏がオカシイとの雰囲気は感じ取れているのではないかと思う。


■アンケート調査は基本的には標本調査

 さて、まずアンケートにおける基本的な事情の話をしよう。

 世の中のアンケートに関して、全員からアンケートをとる全数調査(あるいは悉皆調査)とよばれる例外的なアンケートを除いて、基本的には一部の人からアンケートをとる標本調査である。

 当然ながら「一部の人」は「全員」とは違うので、全数調査の結果と標本調査の結果にはズレが出てくる。そこから、「なら、標本調査なんかやらずに全数調査だけにすればいいじゃない」と感じるかもしれない。しかし、調査の予算や時間あるいは手段の関係上、全数調査ができるケースというのはかなり稀なケースなのである。

 つまり、世の中の多くのアンケートは、なんやかんやで全数調査ができないので、ズレが出るのを承知の上、妥協して標本調査をしているのである。まず、アンケートにおけるこういった事情を知っておく必要がある。


■標本誤差についてのおはなし

 統計学やらなんやらを知らなくても「標本調査のズレ」というのは日常的体験で感じることがあるものである。例えば以下のような体験は具体的内容は違えどよくある話だろう。

A「もうすぐ夏休みだね。B・Cは夏休みどこか行くの?」
B「ウチの家は、ハワイにいく」
C「俺んちは、ピラミッドを見るためエジプト」
A「・・・(ウソ!夏休みに海外にいくものなの?みんなそうなの?)」

「尋ねた人以外のみんなは、どうなのか?」と感じる体験 (筆者作成)

 上の架空例においてAは「(BやCの予定が知りたいのではなく)みんなは夏休みにどこ行くんだろうなぁ」という気持ちで、BやCに夏休みの予定を尋ねている。つまり、「みんなの夏休み」の様子を知りたいために、BとCを標本として扱って調査しているのである。そして、この標本調査の結果に対して「この結果はみんな(=母集団)の様子とはズレているのではないか?」との疑問をAは抱いてビックリしているのだ。こうしたとき、我々は大抵の場合に尋ねる人(=サンプル数)を増やす。

A「ねぇねぇ、D・E・Fは夏休みどうするの?」
D「おばあちゃんの家に行く」
E「ディズニーランドに遊びにいく」
F「沖縄の海で泳ぐ」
A「そうなんだ。(やっぱり、夏休みに海外に行くのはトクベツだよねぇ)」

「みんなの様子」を知りたいためにサンプル数を増やす体験 (筆者作成)

 標本を増やせば増やす程、トクベツな標本が相対的に少なくなり、平凡な標本が相対的に多くなるために、標本集団(=尋ねた人の集団)の性質が母集団(=みんな)の性質に近づいていく。要するに標本の数が増える程に標本調査の結果は母集団をよく表すようになり、誤差が小さくなっていくのだ。とはいえ、どれだけ標本集団を大きくしようが全数調査でないかぎり、ズレというものは無くならないのである。

 以上のような形で日常生活の中でも「標本調査」というものにはズレがあることを我々は直感的に気付いている。統計学はこの直感をより正確に、そして厳密にしてくれるものだ。

 そして、このズレのことを標本誤差と呼ぶのだが、それがどれくらいあるのかということに関する計算式が統計学にはある。また、いちいち計算するのがメンドクサイ人の為に、95%の確率(=有意水準0.05)でこれくらいの誤差になるという標本誤差早見表というものが存在している。これをみれば(アンケートにおけるサンプリング方法が適切であると仮定して)アンケート結果に関してどの程度の誤差を加味して考えればよいのかがすぐに分かる。


■標本誤差早見表の見方と「批判対象の回答」の標本誤差

 では、実際に標本調査のアンケートにどれくらいの誤差があるものか、標本誤差早見表を用いてみてみよう(註1)。

 まずは早見表の見方を具体的に説明する。

 例えば、アンケートを500人からとったときの数値が30%であったとしよう。つまり、アンケートで「500人中150人が"はい"を選んだ」といったような結果になったとする。このとき、早見表の縦軸に関しては「500人」の所をみて、横軸に関しては「30%/70%」の所を見る。したがって、標本誤差は「4.0%」と分かる。

 このことは何を意味しているかと言うと、アンケートをとった500人達の集団(=標本集団)では「”はい”が30%」という結果になっているが、アンケートを取ることで知りたい実際の集団(=母集団)に関して言えば「”はい”を選ぶであろう人は、だいたい26%~34%である」という訳である。

 では、記事に出てきた「第5回 独身者(40代~60代前半)の老後生活設計ニーズ に関する調査:調査結果の概要」における「現在、独身生活を続けてきてどのように感じているか(60~64歳)」について見てみよう。

 まず、尋ねた人の数(=サンプル数)は男女ともに1250人である。そして「結婚しなくてよかった」と回答している人の割合は、女性は22%、男性は21.1%である。したがって、早見表でピタリと該当する部分は無い。とはいえ、大体の見通しを立てるなら近い所をみれば十分である。つまり、(1500人,20%)から(1000人,25%)の辺りをみればよい。それゆえ、男女共に標本誤差は大体2.0%から2.7%の間だろう、と分かる。

 標本誤差は早見表から小さく見積もっても2.0%はあるのだから「結婚しなくてよかった」と考えている実際の男女に関して振れ幅を最小に見積もると、実際の女性は20~24%で実際の男性は19.1~23.1%となる。また標本誤差を最大の2.7%に見積もれば実際の女性は19.3~24.7%で実際の男性は18.4~23.8%となる。まぁ、ここでの最小や最大の振れ幅にはなることはなく、実際はその真ん中あたりの振れ幅になる。

 もちろんキチンと計算してもよいのだが、ざっくりどんなものかと概数を把握しておくのは、それはそれで使い様のあるものである。


■標本誤差の半分程度の差は通常、有意差があるとは言えない

 この母集団で考えたときの数値の範囲がギリギリ掠っている程度であれば、男女の母集団の真の値が標本調査の結果と逆になる、ということはまず起こらない。なぜなら、一方は上限ギリギリかつ他方は下限ギリギリという双方ともに低い確率の事態が同時に起こらないと逆転しないからだ。もちろん、標本誤差を考えても範囲が被っていない場合も逆転はほぼ起こらない。

 しかし、早見表からみた最低の振れ幅で考えても20~24%と19.1~23.1%となっているのであれば、母集団における真の値では逆転していることは十分にあり得る。もちろん、逆転していないことも十分にあり得る。

 このことを正確に知るためには「検定」という統計学上の手続きが必要であるが、批判の対象に関してはそんな検定をしなくとも目算で「こりゃ有意差あるとは言えないわ」と分かるレベルの範囲の被り方である。大抵の場合「標本誤差の半分未満の差で騒ぐのはナンセンス」なのだ。

 さて、シッカリと有意差を考えるならば先に断ったように検定で確かめなければならない。またそれを理解するためには統計学を学ばなければならない。とはいえ、高校数学の統計レベルでもざっくりと「有意差あるとは言えなさそうだなぁ」との大体の見通しを立てることも不可能ではない(まぁ、正規分布が前提になるが)。ちょっと解説してみよう。

 さて、標本誤差は±2σ(正確には1.96σ)の範囲を示している。また標本誤差の半分ぐらいのところは±1σと見ていい。したがって二つの数値の差が標本誤差の半分くらいだと、二つの正規分布が1σ分だけズレていると考えればいい。このとき「有意差あるとは言えなさそうだなぁ」と言えるのはなぜかといえば、標本集団での二つの値の大小関係と母集団での二つの値の大小関係が逆転している可能性が5%よりも高いからである。

 上の図をみると分かるように、母集団の値が標本集団の値よりも+1σよりも大きくズレた値になる確率は大体16%程度である。また、母集団の値が標本集団の値よりも低くなる確率は50%である。つまり、「標本集団での値が低く出た方の母集団での値は標本集団での値よりも1σ分を超えて高く、かつ、逆に標本集団での値が高く出た方の母集団での値は標本集団での値よりも低い」というケースだけを考えても、その確率は「0.16×0.50=0.08」となって、母集団での二つの値の大小関係と標本集団での二つの値の大小関係が逆転している確率は最低でも8%はあることになる(註2)。

 以上のように、標本誤差の半分程度しか差がない標本集団の二つの値というものは、母集団での値(=実際の値)の大小関係が逆転している可能性が無視できないほど大きい(=5%より高い)ので、「有意差があるとは言えなさそう」と言えるのである。


■彼女は真剣に思考しているのだろうか?

 再び記事中の問題箇所を引用しよう。

「結婚しなくてよかった」と回答している人の割合は全体の2割程度です。女性の方がやや多く、女性は22%、男性は21.1%となっています。

「子どもがほしい(ほしかった)」と回答している人は男性がわずかに多く、男性が14.9%、女性は14.6%という結果でした。

男性は女性よりも孤独を感じやすいのか【おひとりさまの満足度】男性が低い傾向に西田 梨紗 2023/07/30 LIMO (強調引用者)

 上記のアンケート結果に関して、上段の箇所では0.9pt差、下段の箇所では0.3pt差といった微差である。こういった微差での大小関係については、標本誤差に関する知識がなくとも「今回こういう結果(=大小関係)になっているのは偶々じゃないのかな?」と直感を働かせるべきである。

 それというのも、微差での大小関係はイマイチ信用ならないということは日常的にも体験しているはずである。以下の例で考えよう。

 学生スポーツなどの試合で大差で勝敗がついたとき両チームの実力差というのはかなり明確といっていい。しかし、僅差で勝敗がついたとき、その試合だけで両チームの実力差を判断するのは早計である。それというのも「1試合の僅差での勝敗」というものは両チームの実力差を示しているとは言い難いからだ。僅差の場合には、両チームの試合を何度も観戦しなければ実力差というものはハッキリしない。なぜなら「僅差の試合をした両チーム」というものは大抵の場合勝ったり負けたりを繰り返すため、1つの勝敗だけからは実力差などは分からないのだ。もちろん、微妙に実力が上回っていて「僅差で毎回試合を制し続ける」という状況も有り得るだろうが、そのような状況であっても1つの試合の勝敗だけをみて実力差を見て取ることはできない。

 上記のようなスポーツの観戦体験は誰しもしているだろう。あるいは観戦どころか自身が選手としてプレイしたときの実感としてもあるだろう。基本的な構造としては、アンケートの標本調査も同じなのだ。「微差なら偶然そうなった」というケースを疑うべきなのだ。そして、統計学の知識がなくとも我々の日常生活から得られる知識から真剣に考えたら「微差の結果」によってなにかを結論付けることの危険性には十分気付けるのだ。

 それにも関わらず、西田氏は微差の結果で「女性が○○、男性が○○」などと安易に主張してしまおうとしている。

 西田氏が微差の結果で安易に何かを主張しようとする態度になるのは、アンケート調査を行った調査者たちが向き合っている現実に関して自分も地に足をつけて真剣に考えようとしていないからである。「なぜこんな結果になったんだろう?」と真剣に考えたことがあれば、頭の中にいくつも浮かぶ様々な仮説のなかに「偶然そうなった、ということはあり得ないだろうか」というものは当然に入ってくる。その仮説を採用するにせよ、棄却するにせよ、あるいは留保したままにするにせよ、一度は思い巡らす種類の仮説だ。そういった思考の跡が西田氏の記事からは感じ取れない。

 更に言えば、「本当にこの方法で確かめられるんだろうか」といった方法論上の苦悩や「本当にこの結果からこのことが主張できるだろうか」という理論構築上の苦悩を経験した人間に特有の、真剣な思考によって生まれる雰囲気が感じられない。

 彼女がもし上記で苦悩した体験があれば、微差の結果で男女の差異を主張することなど到底できない。

 また、今回のnote記事では取り上げなかったが、記事中で取り上げられた他のアンケート結果に関する皮相的な取り扱いなどからも、苦悩を伴う真剣な思考を行った体験が無いことが窺えるのだ。自分もまた苦悩したことがあれば、アンケート調査者の工夫を無視することはできない。彼女が記事で取り上げた様々なアンケートは調査者の工夫が随所に見られる。しかし、彼女はそういった調査者が行ったアンケートの工夫を顧みることなく、彼女の主張の都合にあわせてチェリーピッキングをしてアンケート結果を利用するのだ。

 以上のことから、

西田氏にはアンケート結果を適切に利用するだけの知識が無く、また、他者が行ったアンケートに誠実に向き合う態度も持ち合わせていない

ということが断言できる。




註1 標本誤差早見表を自作してもよかったのだが、画像検索すると既にキレイな形で作っている人が幾人も居たので、そのなかで分り易そうと私が感じた、以下のサイトの標本誤差早見表を借用した。また、このサイトではアンケートや標本誤差等について、より統計学的背景も含めた簡単な解説をしてくれているので興味のある人は参照して欲しい。


註2 ここで説明した部分は「有意差があるとは言えない」と判断できる確率の一部である。つまり、もっと高い確率で「有意差があるとは言えない」と言えるのだが、分かり易く明白な部分だけみてもそうなのだ、と示している。譬え話で説明しよう。

 「ドイツのロマンチック街道に旅行に行きたいなぁ。予算は10万円くらいしかないけど」と言っている人が居て「いやいや、なにいっているの。ドイツまでの往復の飛行機代だけでエコノミーに乗ったとしても18万円くらい掛かるぞ」とダメ出しするようなものである。もちろん、現地でのホテル代やら食事代やらもかかるので厳密にはそれらも考えてもよいが、それら抜きで飛行機代だけ考えても無理であるのであれば、ホテル代や食事代も入れて考えれば猶更無理であるという訳である。

 つまり、「本論で解説したもの」は「飛行機代だけでも無理でしょ」という見方、「検定する」は「全部の費用でみて予算オーバー」という見方なのである。

この記事が気に入ったらサポートをしてみませんか?