山岡重行聖徳大学講師の拙稿への「批判」と統計学理解の問題及び研究教育倫理の重篤な問題について①

※他のかたのサイトに書き落としていった文章なので随時整えていきたいが、一点最後に補足しておいた。

※UNCORRELATED氏に丁寧な評をいただき(http://www.anlyznews.com/2019/07/blog-post_6.html#comment-form)、二つ目の補足を書かせていただいた。(7月6日)

■山岡重行聖徳大学講師は、著書や自身のツイッターおよび、公開の講演会や学会、講義などで、拙論(『社会にとって趣味とは何か』河出書房新社所収の二つの論文)に対する「批判」をきわめて強い調子で行っている。その批判の論点数はさほど多くはなく、繰り返しが多いのであるが、なにより、その論調が半端なく激烈である。激烈というと聞こえはいいが、もはや学問的批判の閾値を超えたものとなっている。

■研究者である以上、私も批判を受けることは当然のことであり、正すべき点はただしてこそ学術共同体に寄与しうるものと思っている。しかしその批判なるものが、かなり怪しげな方法論や統計理解(統計的分析や理由分析)に基づいていて、しかも「データ、結果の捏造」「改竄」「隠蔽」「いんちき」「妄想」「反証不可能」「疑似科学」「でっちあげ」「誘導」「偽装」「いいくるめる」「馬鹿(引用の体裁)」「頭弱い(引用の体裁)」「みせかけ」「中身がない」「悪質な確信犯」「手口」「仮説と結論は同義」「感情的な反発」「誠実な研究であることを装う」「調査結果を歪め」と言いたい放題言われるならば、もはやそれは学術的な対応では限界があるだろうと考え、教育・研究倫理、各種の責任も含めて粛々と反論書を作成しているが、明確な統計的知識の誤用が拡散されている現在の状況は、私の名誉という文脈を超えて深刻であると判断した。手続き的にすべてを提示するわけにはいかないが(それはしかるべき公正な機関で検討していただく)、社会統計についての誤解と誤読と誤認が拡散していく状況を看過するのは難しく、継続的に山岡氏の行論の学術的問題点を指摘していく。予定としては、以下のとおりである。

(1)山岡氏の統計理解の問題性について

・推測統計の要となるサンプリング理解
・大数の法則、中心極限定理の理解
・有意性の統計学的意味の理解
・p値と有意性の関係についての不適切な記述
・「平均差を図示するのに、標準得点のグラフを用いている」ことに対する批判の妥当性
・批判に当たって意図的にかなかったことにしている拙論の留保についての扱い
・グラフのスケールの設定

・山岡氏の分散分析における検定方式を、1回の群間比較として見た場合の問題性
・多重性調整について
・山岡(2019)での、すべての群平均が中点越えとなっていることの判断方法
・山岡氏の統計的検定に対する方針の一貫性について
・重回帰分析における説明変数・被説明変数の統計学的位置づけ

(2)山岡氏自身の研究における研究倫理上の懸念

(3)山岡氏が北田に対して向けた罵詈雑言についての責任の問題(これは公開しない)

■まだまだ論点はあるが、以上が、まずは統計学的な事柄について誤解を流布しないために必要な検討対象であると考えている。
データ保存など研究倫理についても追及すべき点はあるが、まずは北田に向けられた技術的論点について何らかの形で反論する。

■反論および公的書類は準備中であるが、ご参考までにごく一部を紹介しておこう(本一冊にはなる書類であり、山岡先生の議論を徹底的に検討していいる)。まず山岡氏が、北田の論を批判するに際して多用する「論理」は、「有意差がないものを差があるかのように結果をねつ造している」というものであるが、捏造云々については後日問題化するとして、その議論の大前提となっている「有意性検定」についての理解が、相当に独創的で、議論の土壌に載せることが難しいので、まずはその点を確認しておくこととしよう。

■統計的検定に関する議論:山岡(2019)での統計的検定に関する説明


 山岡(2019,p.173)では、以下のような独特な説明が見られる。

「データ数が大きくなればなるほど、大数の法則により理論的確率と統計的確率が近づき、誤差ではなく有意差が出現しやすくなる。人間の場合は、人数が増えるほど誤差を生み出す様々な要因が相殺されて、平均値に対する影響力を失っていくのである。」(山岡 2019,p.173)

 私の知識では、上記の文章で何を言っているのか分からなかった。相手方は、統計的検定をかなり独特に理解していると思われる。詳しくは後述する。

■統計的検定に関する議論:山岡(2019)での方針と米国統計学会p値声明との相違点
 

まず、山岡(2019,p.173)では次のように「有意水準」が説明されている。

「「有意な結果」とは有意水準5%未満のことである。ある結果が条件以外の誤差を生み出す要因によって偶然生じる可能性は5%未満であるから、今回の結果は偶然ではないと判断するのである。当然、このある結果が偶然生じる可能性=有意水準=危険率はゼロに近いほど、この結果は偶然ではなく、ある条件の違いによって生じたと確信を持って主張できる。これは社会科学だけではなく自然科学にも共通する科学のルールである。」(山岡 2019,p.173)

米国統計学会のp値声明(佐藤訳 2017,p.3;Wasserstein and Lazar 2016,p.131:佐藤俊哉訳(2017)「統計的有意性とP値に関するASA声明」計量生物学会ホームページ)では次のように注意が促されている。

「2. P値は、調べている仮説が正しい確率や、データが偶然のみでえられた確率を測るものではない。

研究者は、しばしば P値を帰無仮説が正しいという記述や、偶然の変動でデータが観察される確率に変えたがるが、P値はそのどちらでもない。P 値は仮説やその計算の背後にある仮定に基づいたデータについての記述であり、仮説や背後にある仮定自身についての記述ではない。」(佐藤訳 2017,p.3)

 山岡(2019,p.173)の「ある結果が偶然生じる可能性」が「有意水準」(p値のことか?)であるという説明は、よくある誤解である。(ただし、山岡(2019,p.173)では有意水準とp値の区別もしていないようである。この誤解は少し珍しいと思う。)

ちなみに、「これは社会科学だけではなく自然科学にも共通する科学のルールである」(山岡 2019,p.173)と述べているが、すべての科学分野で統計的検定が使われているわけではないし、すべての科学分野で伝統的に5%基準が使われているわけでもない。また、よくある誤解ではあるものの、世の中のみんなが山岡氏のように統計的検定を誤解しているわけでもない。

また、山岡(2019,p.72)では統計的検定について以下のように述べられている。

「なぜ統計分析を行うのだろうか。その目的の1つは「事実認定」である。いくつかの平均値に差があると認定して良いのか、いくつかの変数の間に何らかの関連があると認定して良いのか、それを判断するために統計分析を行うのである。例えば、平均値の違いが条件の違いによって生じた統計学的に意味のある差(有意差)なのか、偶然生じた誤差なのかを判断するのである。
 誤差と判断された場合、見かけ上の数字の違いがあっても「差がある」と主張してはいけない。それは自然科学でも社会科学でも共通のルールである。共通のルールに基づいているから学問領域が異なっているから学問領域が異なっても、少なくとも事実認定に関しては判断を共有できるのである。誤差でしかないものを「差がある」と主張するということは、ないものを「ある」と主張することである。ないものをあると主張することを捏造と呼ぶ。データの盗用や結果の改ざんと並んで捏造は研究者の倫理としてやってはいけないことである。研究倫理を守ることも科学のルールである。」(山岡 2019,p.72)

 まず、有意でない場合に「偶然生じた誤差」と判断することは、前述の通り、統計的検定においてよくある誤解である。これは先ほど説明したのでもう触れない。
山岡(2019)を読む限り、「誤差と判断」するのは、有意水準5%を閾値として判断しているようである。
研究者として上記引用のような信念を持つことは自由であるが、米国統計学会のp値声明(Wasserstein and Lazar 2016,佐藤訳 2017)で危惧されていることをそのまま体現してしまっているように思われる。米国統計学会のp値声明では、3番目の項目にて以下のように提案している(佐藤訳 2017,p.2;Wasserstein and Lazar 2016,p.131)。

「3. 科学的な結論や、ビジネス、政策における決定は、P値がある値(訳注:有意水準)を超えたかどうかにのみ基づくべきではない。科学的な主張や結論を正当化するために、データ解析や科学的推論を機械的で明白なルール(「P≤0.05」といった」)に貶めるようなやり方は、誤った思いこみと貧弱な意思決定につながりかねない。二分割された一方の側で、結論が直ちに「真実」となったり、他方の側で「誤り」となったりすることはありえない。」(佐藤訳 2017,p.2)

 個人的には研究者個人が自分のなかでの「事実認定」の基準として統計的検定を用いても別に構わないと思う(しかし第一種/二種の過誤の問題はちゃんと踏まえるべきである)。しかし、「事実認定」の基準として統計的検定を用いることは米国統計学会のp値声明には沿っていない。

■統計的検定に関して、現在においても必ずしも統一した見解があるわけではない。米国統計学会のp値声明が出される前においても、入門書や教科書などで、Fisher流有意性検定とNeyman流仮説検定を分けて説明されることはあった(たとえば、大久保・岡田(2012)のpp.21-29: 大久保街亜・岡田謙介(2012)『伝えるための心理統計:効果量・信頼区間・検定力』勁草書房
)。この両者を区別して考えることは、統計的検定の誤用を避けるうえで重要だと私は考える。
ただし、同時に、Fisher流有意性検定とNeyman流仮説検定の区別は教科書や入門書で言われているほど、単純に区別できるものでないと私は見ている。Fisherは自分自身が5%閾値の普及に大きく貢献したのに、晩年になりp値に対して閾値を設けることを非常に激しく非難するようになった(Lehmann 2011, pp.51-55)、Neyman自身が有意性検定と仮説検定を区別することに疑問を呈していたこともあった(Neyman 1976)、などの複雑な変遷もあり、入門書や教科書などで説明されているように、Fisher流有意性検定とNeyman流仮説検定を簡潔に区別できるものではないと私は考える。
■しかし、私なりに劇画化して両者の違いを際立たせると、Neyman流仮説検定では行動を決定するのに仮説検定が使えるという立場であろう。このNeyman流仮説検定では、そのような強い主張を行うために、実験や調査を行う前に検出力を求め、十分な検出力が得られる標本サイズを確保することを必要とする。一方、Fisher流有意性検定では、有意な結果が得られたときは、その得られた実験データや調査データが自分の主張を例証する証拠の1つとみなしている、と考える。Fisher流有意性検定での結論は、得られたデータに対する言及であることに注意を要する。Fisher流有意性検定では、データが1つの証拠であることが示されたとしても、そのことで「差がある」ことが「事実認定」されるわけではない。以上が私なりにまとめた、Fisher流有意性検定とNeyman流仮説検定の違いである。

■山岡(2016)や山岡(2019)は、標本サイズ設計などはまったく行っていないのに、結果の解釈だけはNeyman流仮説検定に従っていると言えよう。つまり、都合のいい部分だけを切り出して統計的検定を利用していると私には思われる。

(1-2)補足

■また山岡氏は北田の記述に「人数、平均値、標準偏差が記されていない」と新潟大学にて激烈に批判したようだが(それはもちろん表記はあったほうがよい)、論文の地の文も抑えたうえでの批判なのか否か、また【ご自身、山岡(2016)や山岡(2019)では平均しかプロットされておらず、±標準偏差の情報が記されていない箇所がある】ことについては話はなかったという。また、標準得点のグラフ+多重対応分析による分析の頑強性の確認についてや、牧田翠さんの内容分析を踏まえた分析についても全く言及がなかったようである。論点は山岡氏が実行している分散分析についての疑問にも及ぶが、しかしそのはるか前方の話を山岡氏がどう「理解」されているのか、疑念をぬぐえない。

■大数の法則、ふたたび

新潟大の学生さんのレポを読み、「大数の法則」についての山岡氏の記述を、念のため、何度も読んだが、やはり私には意味が分からない。意味が分からないのは私のほうが何かしらの誤解や誤読をしているはずなのだがそれはそうとして、なぜ意味が分からないのかを説明する。

まず「大数の法則により理論的確率と統計的確率が近づき」という点から分理解できない。とりあえず、(大数の法則とは違うが)母分布関数と経験分布関数が近づくという意味として読んだとしても、次の「誤差ではなく有意差が出現しやすくなる」の意味が分からない。さらに「人間の場合は、人数が増えるほど誤差を生み出す様々な要因が相殺されて」においては、人間における何が「誤差」なのかが分からなくなってしまう(ケトレーの平均人のように、人間には何かしらの真値があってその周りに誤差があるという解釈なのだろうか?)。いずれにしても、「大数の法則」に対する解釈は独特であると考えざるをえない。

ネットで参照してもらえる範囲で補足する。私自身の大数の法則の理解は、〈1回の試行で,ある事象の起こる確率がpであるとき,この試行を独立にn回繰り返したとき,この事象が起こる回数をfとすると,これが起こる割合f/nは試行回数nが大きくなるに従ってpに近づく〉(百科辞典マイペディア)というものに近く、【試行が独立に】なされていなければならない。wikipediaには「たとえばサイコロを振り、出た目を記録することを考える。このような試行を厖大に繰り返せば、出た目の平均(標本平均)が出る目の平均である 3.5 の近傍から外れる確率をいくらでも小さくできる。これは大数の法則から導かれる帰結の典型例である。より一般に、大数の法則は「独立同分布に従う可積分な確率変数列の標本平均は平均に収束する」と述べている。」とある。問題は山岡重行氏が自らの議論を正当化するに際して、この試行の独立性の意味を理解されているようにはみえないということだ。事象を「人間の数?」とする表記も初めて目にしたものである。そこで当然のことながら、山岡氏のサンプリング理解にも論点が及んでくる。

■話は戻るが、山岡(2019)での方針と米国統計学会p値声明との相違点」において、問題としているのは1点ではなくて、主に2点ある。

1. p値(山岡(2019, p.173)では「有意水準」と呼ばれていると思われます)の解釈がおかしいこと。
2. 5%などを閾値にして白黒の判別を付けることは、米国統計学会のp値声明には沿っていないこと。

1に関しては、山岡(2019, p.173)は誤解をしているという指摘であった。こちらの誤解については、多くの人がそう誤解しているのだから誤解したままでも別に構わないとは思わない。

2に関しては、「研究者として上記引用のような信念を持つことは自由であるが、」や「私個人としては、研究者個人が自分のなかでの「事実認定」の基準として統計的検定を用いても別に構わないと思う。」と一応、断ったつもりである。また、Fisher流有意性検定とNeyman流仮説検定の2つの考え方があることを示し、必ずしも統一した考えがないことを申し上げたつもりでである。5%を閾値にして白黒を付ける考えがあることは了承しているが、私がここで強調したかったのは、5%を閾値にして白黒を付ける考えが、「これは社会科学だけではなく自然科学にも共通する科学のルールである」というわけではない(むしろ米国統計学会のp値声明では否定されている)という点である。

繰り返しの引用となるが、上記における1と2が合わさって、以下のような解釈となると、上記の理由により「間違っている」と私は思う。

「「有意な結果」とは有意水準5%未満のことである。ある結果が条件以外の誤差を生み出す要因によって偶然生じる可能性は5%未満であるから、今回の結果は偶然ではないと判断するのである。当然、このある結果が偶然生じる可能性=有意水準=危険率はゼロに近いほど、この結果は偶然ではなく、ある条件の違いによって生じたと確信を持って主張できる。これは社会科学だけではなく自然科学にも共通する科学のルールである。」(山岡 2019、p.173)

p値声明は2016年に出されたものだが、「5%閾値」というハウツーが2016年以降,学術界全体でどれだけ減ったのか、どれぐらい利用されているのかは、正確にはわからない。5%閾値が批判されたのは2016年p値声明が最初ではないが、多くの人には「新説」だと感じられているのかもしれない。また、p値声明のあと、日本でも2017年統計関連学会連合大会にて、日本計量生物学会と日本計算機統計学会がp値についての企画セッションを行われたと聞くが、単純な意見には統一されなかったと伝え聞いている。それほどに繊細な扱いが心理学や統計学で求められているおりに、有意水準とp値を等値するような山岡氏の議論が「科学」という自認のもとに拡散していくことに私は強い懸念を抱いている。倫理学者の江口聡氏も山岡氏の議論に「コミットする」と言っているので話は深刻である。

■とりあえず、新潟大学のレポ https://shindai.watatanabe.com/fujoshi-psychology-lecture-report/ のコメント欄に書いた内容のカット&ペーストは以上である。逐次文章を整えていくこととしたい。

■近いうちに山岡氏が問題化している標準得点のグラフの問題や、彼自身の分散分析の遂行にさいしての疑問点、およびネットなどで示された重回帰分析の理解についての問題を順次上げていくこととする。

【補足20190705】

わたしが山岡氏の有意性検定についての見解のなにに問題を見ているのか、わかりにくかったようなので、後日ゆっくりとと思っていたが急いで一点補足しておく。

山岡氏は有意差を執拗に問題にするが、ご自身の有意性検定の理解はきわめて怪しいと言わざるをえない。氏は、第一種の過誤/第二種の過誤誤りの問題を十分に考慮することなく、第一種の過誤「帰無仮説が真であるのにもかかわらず、帰無仮説を偽として棄却してしまう誤り」という観点にのみ照準し、有意性検定を捉えているようにも思える(これも後日詳述する)。これは、「なぜ統計分析を行うのだろうか。その目的の1つは「事実認定」である」という文言からもうかがえる。1%水準であろうが5%水準であろうが、「本当は――事実としては――差があるのに、帰無仮説を採用してしまった」(本当は差があるのに差がないと判断する)という過誤の可能性は統計を扱うものであれば当然に考慮すべきことであり、有意性検定そのものは「事実認定」とは異なる作業である(Wassersteinらの「二分割された一方の側で、結論が直ちに「真実」となったり、他方の側で「誤り」となったりすることはありえない」という警句もそのような含意を持つと考える)。山岡氏の「なぜ統計分析を行うのだろうか。その目的の1つは「事実認定」である」というのは、相当に強い主張であり(先述の通りは、それはそれで事実という概念をそのように開き直って使用する研究者であるならありではあると思うが)、また有意性検定がなにをしているのか、ということについての認識の曖昧さをうかがわせる主張である。既述のように、1%、5%、10%といった有意水準の設定は分析者が規約的conventionalに定めるものであって、その規約性を鑑みたとき、山岡氏の「「有意な結果」とは有意水準5%未満のことである」という断言は、きわめて問題をはらんだものである。5%で有意性水準を設定することが人文社会系の研究では慣行的なものであるが、そのことは10%未満という設定であれば「有意な結果」が得られないということを意味しない(ごく教科書的なことである)。私は山岡氏が有意性水準を5%に設定していることに異論を唱えているのではない。山岡氏の有意性検定の理解そのものを疑問視しているのである。これまた既述のように、山岡(2019,p.173)では有意水準とp値の区別がなされておらず、そうした表現ができてしまえること自体が、p値および有意水準の統計学的意味についての理解の不十分さを指し示すものと考えられる。

このような有意性検定についてのきわめて独創的な「理解」をしている論者が、他者を「有意差がないのに差があるといっている」と批判し、自らをデータ準拠的な「科学者」である(批判相手はいんちきである)と喧伝するとき、その批判内容は、基礎的な部分で信ぴょう性が疑われてしかるべきである。詳しくは後日詳述するが、私が標準得点をグラフ化したことを執拗に問題化するさいに、山岡氏は私が付した留保(標準得点をグラフ化したさいには対照性が目につくので留意が必要であるとの但し書き)を等閑視し、その後多重対応分析等で分析の妥当性を確認している点に言及しないことは、そうした有意性検定についての問題ある認識の所産であるか、「悪意ある未読」であることの証左である。

以上に書いた「反論」は、いってみれば序幕のまた序にすぎない。これからは、適宜この点について確認をしつつも、山岡氏の有意性水準、大数の法則の理解の妥当性を【百歩譲って】ペンディングとした場合に、その他の「批判」に妥当性があるか否か、を検討する。しかし、山岡氏の議論の読者には、こうした「前提の前提」についての検討を慎重にしたうえで、解釈されることをお勧めする。

【補足20190706a】

UNCORRELATED氏に丁寧な評をいただいたので(http://www.anlyznews.com/2019/07/blog-post_6.html#comment-form)、二つ目の補足を書かせていただく。いつものことながら丁寧に、公正かつ厳格に検討していただけたことに感謝したい。UNCORRELATED氏が言うように、本エントリが大急ぎで書いたもの(というかサイトへの書き込みを編集したもの)であるため、「勇み足」というか、整っていないことは確かである。ただ、本エントリはおそらくは⑩ぐらいまで続く反論・批判の①であり、追って丁寧な説明を加えていくことについて、ご理解いただけるとありがたく思う。

そのことを前提に、少しだけ補足をする。まず、「「山岡(2016)や山岡(2019)は、標本サイズ設計などはまったく行っていない」とあるのだが、P値を一定以下にするために事後的に標本サイズを拡大をしたりしない限り、実用上の問題は無い」については、山岡氏の著書にそくして慎重に検討する必要がある。(有意差を検出しやすくするための)事後的な標本サイズの拡大はご法度であるというのはUNCORRELATED氏も同意していただけると思うので、そうなっていないかは、要検討であり、これも今後の連載で主題化する。第二に、「山岡氏の説明はハイブリッド仮説検定法に準拠しており」とされているが、山岡氏がそのような熟慮の下に議論を展開しているのかは甚だ疑問である。有意水準とp値の関係についての不適切な記述、有意水準の規約性についての誤解などを見る限り、そのように精細な検討を経たうえでの「ハイブリッド」的使用であるとは私には思えない。山岡氏の有意性、有意差といった語の使用法の問題性については、分析にも及ぶので、これもまた丁寧に検証していく。第三に、「何を「事実認定」するのかについて注意が払われていない」とされているが、私は過誤の問題を考えるならば、事実(fact)という概念はやはり丁寧に扱われるべきであり、有意性検定そのものが事実の認定についての万能の道具(もちろん確率論的に事象の生起を問題とするわけだが――山岡氏のなかで事象と事実がどのような関係にあるのか、私は何度読んでも理解できなかった――)であるかのように記す山岡氏の書きかたは、想定される読者層を鑑みた場合、決して問題なしとはいえないと考える。山岡氏は私の議論を執拗に「捏造」「事実を歪める」と痛罵する。とすれば、山岡氏の事実概念を精査することは、重要な課題であり、そのために一見些細に見える事柄について記した。また大数の法則の理解の不適切さは、二項分布などの確率概念を山岡氏が正確に理解しているかどうかを疑わしむるものであり、後に問題にするサンプリングの問題ともかかわるものであり、前提の確認ということで①で記した。とくだんの技術的措置を講じていない作為抽出でえられたデータに基づく議論において有意性を「要」であるかのように――しかもそれを他者批判の基礎概念とする――描くことは、統計学の理解としても問題があるし、またフェアではないだろう。付言しておくと、私は無作為抽出でないとだめだ、という立場はとらない。しかしなんらかの無作為化の措置が講じられていないかぎり、有意性等について山岡氏のように強い主張をすることは難しいはずと判断している。私が山岡氏の有意性検定および大数の法則を露払い的に検討したのは、以上のような理由からである。

あらためて、丁寧にコメントをしていただいたUNCORRELATED氏に感謝する。

なお、UNCORRELATED氏には、私と江口聡京都女子大教授とのやりとりでも(https://togetter.com/li/1332102のコメント欄*)、有益かつ的確なコメントをいただいており、本エントリをお読みいただいているかたがたには、そのやりとりについてもご参照いただきたい。

*ここでの記述が議論の本質とどう関係するのかわからない、というかたがいるようなので、山岡氏自身ではないが、なぜか論点も認識も文体もよく似たしかし別人であるはずの「M1」(その他多数のよく似た文体の山岡氏支持者)さんという自称学生さんアマゾンカスターのレビューに、相応の時間を割いて応答したので、そちらもあわせてごらんいただきたい。おそらく同一人物による多重投稿であったため削除されているが(私も事情は知らない)、幸いにもhttps://ch.nicovideo.jp/hyodoshinji/blomaga/ar1305797に記録が保存されている。noteでは、そこで「一般向け」に書いたものを、丁寧に展開していくこととする。


この記事が気に入ったらサポートをしてみませんか?