山岡重行聖徳大学講師の拙稿への「批判」と統計学理解の問題及び研究教育倫理の重篤な問題について④――統計的検定に関する議論をめぐって

私がこの連載を始めたのが7月5日であり、それから2週間ほどが経った。この間、山岡重行聖徳大学講師からは一言の連絡、言及もいただいていない。私も決して各種返信の早いほうではないし、学問的議論には2週間は短すぎる単位であって、「オラオラ応答センカゴルァ(# ゚Д゚)」みたいにはもちろん思わないが、自らが、おおよそ研究者に対して向けられる限界を超えた罵倒・誹謗中傷を繰り返しツイッターや学会、講演で繰り返していた(どうも繰り返す予定のようであること)ことを考えると、応答があったことぐらいは最低限度の研究者倫理として明示してほしいところである。しかしそれはおそらくは望むべくもない。

自らに向けられた人格批判への憤怒は極力抑えて、極力、第三者や読者の思考に寄与するような学問的討議に開いたつもりであったが、もうなかば諦めている。しかるべき諸機関にて公正な形で山岡重行氏(やその言動を増長させた関係者)の言動についての私の照会書・申立書を公正に検討していただくしかないと判断した。山岡氏の統計学理解についての疑問点は、推測統計の基礎から重回帰分析の統計学的意味まで多岐に及ぶが、それは照会書をご検討いただいた後に、この場でpdfか連載かで公開していくこととしたい。研究者として、できれば避けたい方法であった。学的な討議に資する方向性にもっていきたかった(福村出版の編集者にも提案し、ご同意いただいたが反故にされた)。残念である。私はずっと「待って」いたのだ。

とりあえずの「第一幕」の終演部として、氏の統計的検定の理解の問題を指し示す「山岡(2019)での、すべての群平均が中点越えとなっていることの判断方法について」論じ、インターリュードに入ることとしたい。

では。

山岡(2019,p.72)では統計的検定によって「平均値の違いが条件の違いによって生じた統計学的に意味のある差(有意差)なのか、偶然生じた誤差なのかを判断」すると述べ、また、「誤差でしかないものを「差がある」と主張するということは、ないものを「ある」と主張することである。ないものをあると主張することを捏造と呼ぶ」(山岡 2019,p.72)と述べている。それなのに、なぜか一部では統計的検定を行っていないのに判断をしている。たとえば、どの群平均も中点が3点越えとなっていることや、どの群も中点が3点未満となっている ことの検定を行っていない。
これらの統計的検定はハウツー的には計算だけは簡単にできる(実際には簡単には実施できない。以下で述べる方法も単純無作為抽出モデルを前提としており、その大前提が成立していなくてもp値は小さくなりうる。まずは調査設計や実験設計を吟味しないと、他の議論と同様、以下の議論は無意味である)。「すべての群で群母平均が3.5越えとなっている」の検定は、「H_0:μ_i≤3.5」を帰無仮説とした一標本t検定を各群で実施し、すべての群でp値が0.05以下であれば、そのときに限り、「すべての群で群母平均が3.5越えとなっている」という対立仮説を採択すればよい。つまり、各群のp値における最大値をこの検定のp値とすればよい。
この検定を何回も行いたい場合、多重性を気にするのであれば、手っ取り早い方法としてはBonferroni法がある。500回検定するのであれば、生の最大p値を500倍すればいい。すべての検定が、たとえば群間比較で1900回検定、中点比較で500回検定だけあるのだれば、生の最大p値を2400倍すればいい。

山岡(2019,p.72)では統計的検定にかなり拘っており、かつ、同書は統計的検定が山ほど行われているのだが、中点越えをしているや中点未満であるという判断は、なぜか点推定値で行っている。

たとえば、「ただし、平均値はどの群も中点の3以下であり、男性オタク群でも積極的に肯定している訳ではない」(山岡 2019,p.54)と述べている。p.53におけるTable3-1の数値をもとに統計的検定を行うと、言及されている群(=山岡(2019,p.54)にて「男性オタク群」と呼ばれている群)は5群のうちp値が最大となっている群となっており、表で言うと右から2番目(左から4番目)における群である。その群のt値は、

((2.774-3))⁄(1.220/√62)=-1.459

である。このt値に対するp値は0.07である。有意ではない。なお、この計算では仮説値として「3」を用いた。ある程度の幅をもたせて、たとえば仮説値を「2.5」などとするとp値はもっと大きくなる。

また、たとえば、「どの群の平均値も3.5を超えており、肯定的に回答していることがわかる」(山岡 2019,p.54)と述べている。p.53におけるTable3-1の数値をもとに統計的検定を行うと、5群のうちp値が最大となるのは表の1番左における群である。その群のt値は、

((3.580-3.5))⁄(1.387/√69)=0.479

である。このt値に対するp値は0.32である。これも有意ではない。

ほかにも、たとえば、「しかし腐女子群であっても平均点は中点の3.0以下であり、熱中しているものがあるから恋人は欲しくないと積極的に肯定しているわけではないのである」(山岡 2019、p.65)と述べている。これも言及している群に対応する数値をp.66のTable 3-3で見て、t値を計算すると、

((2.844-3))⁄(1.407/√199)=-1.564

である。このt値に対するp値は0.06である。これも有意ではない。なお、この計算では仮説値として「3」を用いた。ある程度の幅をもたせて、たとえば仮説値を「2.5」などとするとp値はもっと大きくなる。

山岡(2019)には中点越えや中点未満に関する言及がいくつもある。それらの多重性を考慮するとなると、上記のp値はもっと大きなものとなる(たとえば500回の統計的検定に対してBonferroni調整をする場合、上記のp値を500倍することになる。)

上記の結果が「本当に」差がないとは私は思っていない。また、このような統計的検定をすべきともまったく思わない(それは自分や多くの統計ユーザの首を絞めるだけだ)。ただ、山岡氏の統計的検定に対する方針が一貫していないことを私は指摘しているだけである。山岡氏は、統計的検定によって誤差であるか有意であるかを判断できる(まずこの考えが間違えているのだが、ここでは不問とする)とし、「誤差でしかないものを「差がある」と主張するということは、ないものを「ある」と主張することである。ないものをあると主張することを捏造と呼ぶ」(山岡 2019,p.72)と述べている。
そのように強く断罪しているのに、なぜ、上記の判断においては統計的検定が使われていないのか、私には理解できない。さらに少なくともいくつかの統計的検定は有意とはなっていない(上記で取り出したものが、運悪く、たまたま有意となっていない例だけに過ぎないのかもしれないが)。

さて、前述のように山岡(2019)では、p.72で説明されている統計的検定に対する方針と、同書で実際に行われている分析がマッチしていないのだが、ここではその矛盾は無視することにし、p.72で書かれていることを山岡(2019)の方針と仮定することにする。

山岡(2019,p.72)では、「誤差でしかないものを「差がある」と主張するということは、ないものを「ある」と主張することである。ないものをあると主張することを捏造と呼ぶ。データの盗用や結果の改ざんと並んで捏造は研究者の倫理としてやってはいけないことである」と述べられている。前後の文脈から私なりに解釈すると、p値が5%を超えているのに「差がある」と主張するのは捏造だ、ということだと思う。

私が解釈する限り、その「捏造」説は、以下の2点を根拠としてるのではないかと思う。

第1に、山岡(2019)の指摘は、まず、おそらく北田(2017)のp.292における以下の説明に関係しているのではないかと思う。

「「夫は外で仕事、女は家で家庭」「夫に充分な収入があれば妻は仕事を持たないほうがよい」といった志向は、とりわけ二次創作好きオタクにおいてもっとも高い値を示している。」(北田 2017,p.292)

これらの質問に対する差についての統計的検定の結果は北田(2017)には一元配置分散分析のF検定の結果しか記載していない。北田(2017,pp.291-292)では、両者にはアスタリスクが2つ付けられている。p.306の注2に示したように、アスタリスク2つはp値が0.01未満であることを表す。

一方、山岡(2019,pp.53-54)では、「夫は外で仕事、女は家で家庭」の項目において、F検定が有意でない 。「夫は外で仕事、女は家で家庭」の項目に対するF検定は、山岡(2019,pp.53-54)ではp値が5%より大きく、北田(2017,pp.291-292)ではp値は1%未満となっている。

しかし、山岡(2019,pp.53-54)の結果と、北田(2017,pp.291-292)の結果が異なる可能性を「捏造」に求めるのは突拍子もない。まず、山岡(2019)はいくつかの大学に通う大学生から抽出している(おそらく有意抽出。ただし、山岡(2019)にて具体的にどのような抽出方法が使われたのかは不明)。一方、北田(2017)の目標母集団は2010年12月の段階で「1988年1月1日から1990年12月31日に出生した当時東京都練馬区在住の男女」であり、抽出枠として練馬区住民基本台帳を用いている。山岡(2019)の調査方式は「通常の授業時間の一部を利用して[…]質問紙調査を行った」(山岡(2019,p.52))という方式である。北田(2017)の調査方式は郵送法である。調査票のレイアウトも違うだろう。北田(2017)で用いた調査票は公開されている(北田 2013,巻末付録)ので、再現性を確認するため山岡(2019)も同じ形式のもの作ったかもしれない。山岡(2019)の質問票は公開されていないようなので詳細は分からない。回答率は、山岡(2019)では100%に近いが(この数字は私が勘違いしているのかもしれない)、北田(2017)の回収率は32.6%である。有効回答者数は、山岡(2019,p.25)は371名、北田(2017)は647名である。そして、何よりも、操作的に構成した群の構成方法が北田(2017)と山岡(2019)では違う。結果の違いはこれらの違いから生じたと考えるのが穏当であろう。

 第2に、山岡(2019,p.187)では、「私は結婚したら、子供を持ちたいと思う」という項目に関して、山岡(2019)の調査結果に基づいて次のような物語を語っている。一般論として語っているが、Twitterでの投稿を読むと、以下のような手順を北田が行ったと相手方は想像しているのではないかと推察される。

「このグラフ[「私は結婚したら、子供を持ちたいと思う」という項目に対する群平均の棒グラフ]を見て、腐女子群と女性一般群に差があるのではないかと考えたとしよう。多重比較では有意差が出ないが、有意傾向(p < .10)の主効果が得られるではないか。本当は腐女子群と女性一般群に差があるはずだと思う。そこで平均値を標準得点に変換してグラフ化してみた。すると腐女子群はマイナスの値を取り、女性一般群はプラスの値を取るではないか。これは腐女子群と女性一般群は結婚と出産に関して対照的な態度を持つことを示しているに違いないと確信できる。そこで、この標準得点のグラフを根拠に、女性一般群は結婚と出産に積極的であり肯定的な態度を持つが、腐女子群は消極的であり否定的な態度を持つと主張する。平均値は明示しないで標準得点のグラフだけ示せば、多くの人も女性一般群と腐女子の結婚と出産に対する態度が対極にあることを納得するだろう。
 これも明らかな誤りである。と言うよりも反則であり結果の捏造である。」
(山岡 2019、p.187)

まず、北田(2017)におけるどの部分をもとに上記の想像をしているかが分からない。確かに北田(2017)のpp.291-294では生の平均値は示されておらず、標準得点のグラフしかない(ただし、北田(2017)では、実際には、バックアップ的な分析として多重対応分析を行っているし、文章による説明も行っている。完全に山岡氏はこの点を黙殺する)。よって、「平均値は明示しないで標準得点のグラフだけ示」しているという指摘はまあ「正しい」とも思える。
しかし、「女性一般群」と「腐女子群」とが異なるという主張そのもの ―そもそも山岡(2019)の「女性一般群」や「腐女子群」は北田(2017)の群とは違うのだが― を、北田は書いたつもりは毛頭ない。バックアップで行っている多重対応分析の結果からは、その主張はむしろ否定されている。多重対応分析の結果では、女性内における各群間の距離は近い。
また、北田(2017,p.298)では、次のように結果が相対的であることを説明している。

「最後に、かなり解釈が難しいのだが、留意すべき事柄に触れておくこととしよう。「私は結婚したら、子供を持ちたいと思う」に対する女性二次創作好きオタクの(相対的な)否定的態度である。
もちろん、女性二次創作好きオタクにおいても、「子どもを持ちたいと思う」に対する肯定的回答は76.1%(「そう思う」50.7%、「ややそう思う」23.4%)に上るが、他の女性カテゴリー(「非二次オタク」91.8%、「二次非オタク」88.2%、「非二次非オタク」91.5%)に比してかなり低い値である。一方の男性二次創作オタクは、「結婚したら子どもを持ちたい」はすべての群のなかで一番高い値を示している。ジェンダー規範項目のなかでもっとも男女オタクで対照的ともいえるのがこの点である。」
 
統計的検定に関して、北田(2017)のどの文章を「捏造」と山岡氏が呼んでいるのか、私には分からなかった。まず、山岡氏の書籍(山岡 2019)を読んでも分からなかった。山岡氏によるまた、Twitterでの投稿をいくつか読んだが、北田を非難していることや煽っていることは分かるのだが、北田(2017)のどこを指して批判しているのかは読み取れなかった。逆にいえば、山岡氏の「「データ、結果の捏造」「改竄」「隠蔽」「いんちき」「妄想」「反証不可能」「疑似科学」「でっちあげ」「誘導」「偽装」「いいくるめる」「馬鹿(引用の体裁)」「頭弱い(引用の体裁)」「みせかけ」「中身がない」「悪質な確信犯」「手口」「仮説と結論は同義」「感情的な反発」「誠実な研究であることを装う」「調査結果を歪め」」については、山岡氏側に挙証責任があるということである。私は自らがデータに関して不正な操作を加えたのか、手法として不適切であったのか、私に誹謗中傷を向けける山岡氏の統計学、というか推測統計についての理解が妥当なものなのか、それは山岡氏の北田批判を正当化するものなのか、を虚心坦懐にピアグループとともに精査してきた(厳しい批判もいただいた)。その結果、私は、自らの分析に関して改めるべき点、修正すべき点、他の方法を試みてみるべき点について、認めるべき点は認め、より精緻な分析を提示する必要を感じているが、「データ捏造」等の山岡氏の「非難」はまったくあたらないこと、少なくとも上記のような罵倒的評価については、かなり強い説明責任が山岡氏側にあることを確信するに至った。氏にはツイッターで直接メンションで知らせたつもりであるが、見逃しているのかもしれない。だとすれば、氏が必ず知るに至る方法にて照会をするしかあるまい。冒頭に記したようにそれは私の研究者倫理としては「美しくなく」、残念ではある。しかし学問の名のもとに「論壇プロレス」「炎上上等」みたいなことをされることは、一研究者として、教員として到底看過しがたい。

総じて、amazonカスタマーズレビューのやり取りから、江口聡京都女子大学教授がまとめたtogetterのコメント欄、このnoteでの議論に至るまで、正当かつ公正な形で私に批判を向けてくれたのは、UNCORRELATED氏のみであった。UNCORRELATED氏の北田評は厳しくはあっても、私の認識を問い直し、また別の方法での分析の可能性を指し示してくれるという、真の意味で学問的な「批判」であった。UNCORRELATED氏にはあらためて心より感謝したい。

山岡重行氏には、せめて今回のエントリには応答していただきたいものである。それはもう一研究者・教育者としての祈りに近い願いである。

この記事が気に入ったらサポートをしてみませんか?