見出し画像

ミルグラムの服従実験と多数の追試実験は信頼できるのか?【心理学】


超有名な心理学実験「ミルグラムの服従実験」について、二つの記事に分けて検討していきたいと思います。この記事では、そもそも真に受けてよいような実験だったのかという「信頼性の問題」について扱います。

オリジナルのミルグラム実験については、その信頼性について重大な問題が指摘されているようです。多数の追試実験に関しても、果たして何をどこまで再現できたのかは細かく見た方がよいようです。また、信頼性の問題についてもないとはいえません。

なお、実験の手続と結果が信頼できるとして、そこからどのような現象がどこまで説明できるのかについては、「解釈の問題」として別の記事で検討する予定です。



1 ミルグラム実験とは


1960年代に行われたスタンレー・ミルグラムによる服従実験は、社会心理学の中でも特に有名な実験です。「アイヒマン実験」とも呼ばれています。人間は、権威の命令とさえあれば、非倫理的な指示に対しても容易く従ってしまうことを示したものとされています。

まずは、ミルグラム実験の概要と結果をみていきましょう。

なお内容は、スタンレー・ミリグラム 山形浩生訳『服従の心理』河出書房新社 2012年を元にしています。以下『服従の心理』とあるのはこの本です。

実験の概要

被験者は、「記憶と学習に関する研究」への協力を依頼され、研究室にやってきます。研究室には実験者とサクラがいます。

被験者とサクラは、くじ引きによって、「先生役」と「生徒役」に分かれます。このくじ引きには仕掛けがあって、被験者は先生役に選ばれ、サクラは生徒役に選ばれると決まっています。

生徒役(サクラ)は、椅子に座らせられ、両手を縛られ、手首に電極を繋げられます。そして、単語の一覧を記憶するように指示されます。

先生役(被験者)は、「生徒が単語を聞き間違う度に電気ショックを与えるように」と、実験者から命令されています。電撃は15~450ボルトまで調節できるようになっており、生徒役が間違える度に15ボルトずつ電撃を強めていきます。

なお、実際には電気は流されません。この実験は、「先生役」こそが真の被験者だからです。電気ショックを与えろと実験者(権威)に命令された際の先生役の反応(服従するか等)を観察するのが目的になっています。

いざ先生役が電撃のスイッチを押すと、生徒役は痛がる演技をします。75ボルトでは呻き、120ボルトではっきり声に出して抗議し、150ボルトで実験を止めるように訴え、285ボルトでは苦悶の絶叫をあげるのです。

ここで先生役(被験者)が戸惑ったとしても、実験者は、実験を止めようとしません。先生役は指示通りに電撃を与えるようにと命令し続けます。

さて、先生役(被験者)は、命令に服従し続けるのでしょうか? という実験です。

実験の結果

実験はさまざまな条件の下で行われました。まずは有名どころである(と思われる)最初の5つをとりあげます。

実験1 遠隔フィードバック (被験者40人)
先生役と生徒役は、別室に分かれます。
生徒役の苦情は、音声としては聞こえません
ただし、300ボルトに達すると、抗議者が壁を叩いているかのように実験室の壁がドンドン鳴ります。315ボルト以上になると、壁を叩く音が途絶え、
回答も表示されなくなります。それでも、実験者は電撃が450ボルトに達するまで実験を継続するように指示を出し続けます。
この条件で、先生役(被験者)が、実験者の命令を途中で拒否したのは、35%(14人)でした。65%(26人)は、最後まで命令に服従しました。

 実験2 音声フィードバック(被験者40人)
先生役と生徒役は、別室に分かれます。
ただし、こちらの実験では、生徒役の苦情が壁越しにはっきりと聞こえてきます。この条件で、先生役(被験者)が、実験者の命令を途中で拒否したのは、37.5%(15人)でした。62.5%(25人)は、最後まで命令に服従しました。 

実験3 近接(被験者40人)
先生役と生徒役は、同室にいます。
一メートルほどの距離はありますが、声も聞こえるし、姿も見えます。
この条件で、先生役(被験者)が、実験者の命令を途中で拒否したのは、60%(24人)でした。40%(16人)は、最後まで命令に服従しました。

 実験4 接近近接(被験者40人)
先生役と生徒役は、同室にいます。
一メートルほどの距離はありますが、声も聞こえるし、姿も見えます。
違いは、生徒役の手首に電極は付けられず、電撃プレートに手を置いているときだけ電撃が流れるようになっている点です。しかも150ボルトになると、生徒役は手を置くことを拒否します。
そこで実験者は、先生役に対して、生徒役の手を無理やりプレートに押し付けるよう命令します。
この条件で、先生役(被験者)が、実験者の命令を途中で拒否したのは、70%(28人)でした。30%(12人)は最後まで命令に服従しました。

 実験5 新ベースライン(40人)
この条件が特に有名です。
基本は音声フィードバック条件に即したものです。先生役と生徒役は、別室に分かれます。生徒役の苦情が壁越しにはっきりと聞こえてきます。
ただし、音声フィードバック条件と違うのは、生徒役(サクラ)は、自分の心臓に問題があることに言及するのです。実験前に「ウェストヘイブン復員軍人病院に何年か前にいたんですが、ちょっと心臓の具合が気になるんですと言われたんですよ」と話し、電気ショックを受けると「心臓が変だ。出してくれ!」などと叫びます。
この条件で、先生役(被験者)が、実験者の命令を途中で拒否したのは、35%(14人)でした。65%(26人)は、最後まで命令に服従しました。
「生徒役が“心臓が悪い”と言っているにも関わらず65%電撃を与えたのだ!」
というわけで、実験5は特に有名です。

ミルグラム実験が語られるときには、「服従率65%!」などというように結果が一人歩きしがちです。

ただ、「近接」や「接近近接」での実験においては服従率はそれぞれ約4割、約3割という結果になっております。直接手を下す場合は拒否が多くなるのだなぁ、などと「いろいろ語りたくなる」ところです。

他にも、さまざまな条件で実験がされています。

実験15 二人の権威:矛盾する命令(被験者20人)
実験者が二人いて、一人が電撃を与えることを命じ、もう一人がそれに反対するという実験です。先生役(被験者)は全員が電撃を与えませんでした。

実験17 同僚二人が反逆(被験者40人)
先生役(被験者)の他に、もう二人「先生役」のサクラをつける実験です。二人のサクラが実験の途中で実験者からの命令を拒絶した場合、被験者たちの大半は、同僚とともに命令を拒絶するようになりました。

『服従の心理』においては、計18種類の実験が公表されています。
実験の設定によって結果が大きく変化していることから、「さまざまな教訓を引き出したくなる」ところです。

2 ミルグラム実験は信頼できるのか


さまざまな教訓をもたらしてくれそうなミルグラム実験ですが、いくつか重大な問題点が指摘されています。この記事においては、問題のうちから二つを取り上げます。なお、問題はこの二つだけではありません。

問題1 お芝居だとバレていた疑惑


問題の一つは、多くの被験者がミルグラムの実験がお芝居であると見破っていた可能性があるということです。

この可能性は、実験当初から指摘されていたようですが、軽視されてきました。私としても、こうした批判の存在は知っていましたが、ウソがばれてたなんていうバカらしいオチは流石にないだろうと思っていました。

しかし、ここ10年ほどの間に重要な研究が生まれていたようです。ジーナ・ペリーさん(ジャーナリスト・心理学者)の研究です。ペリーは4年をかけて存命中の実験参加者、参加者の親族、協力者、助手、この人たちの親族を追跡調査し、ミルグラム実験の問題点をいくつも発見しました。

成果は『Behind the Shock Machine』にまとめられているとのこと。


ペリーがみつけたミルグラムの助手であるTaketo Murataの報告書によれば、およそ半分の被験者が、実験は茶番ではないかと疑っていました。しかも、残りの半分は真に受けていたものの、真に受けていた人ほど実験には抵抗していたというのです。

「また、ペリーは研究助手のTaketo Murata(むらた たけと)の報告書を見つけた。Murataは、23条件すべての最大衝撃値を調べたが、被験者を疑う人と信じる人に分けた。Taketoは、逆らって低い電圧のショックを与える可能性が最も高いのは、「本当に誰かが傷ついていると信じている」と答えた人たちであることを発見した」(p.164)という。さらにペリーは、「実験を受けた人のうち、完全に本物だと信じていたのは半分だけで、そのうちの3分の2が実験者に従わなかった」とコメントしている(163ページ)。」(DeepL翻訳。ただし一部修正。村田→Murata 武人、武藤 → Taketo)

Augustine Brannigan
「Stanley Milgram’s Obedience Experiments: A Report Card 50 Years Later」
2013年10月9日
https://link.springer.com/article/10.1007/s12115-013-9724-3

今回も英文記事はDeepLに丸投げです。

以下も参照。

「本稿は、Milgramの服従実験における被験者の痛みの認識の違いとその行動上の影響を分析したものである。ミルグラムの助手であったTaketo Murataの未発表の研究に基づき、学習者が実際に痛みを伴う電気ショックを受けているという信念と、被験者のショックレベルの選択との関係を報告している。この資料によると、実験の23バリエーションのうち18バリエーションにおいて、自分が痛みを与えていると完全に信じている被験者のショックレベルの平均値は、自分が痛みを与えていると完全に信じていない被験者のショックレベルよりも低かった。これらのデータは、痛みの認識が被験者の反抗心を高め、被験者の懐疑心が服従心を高めることを示唆している。この分析は、実験の古典的な解釈や、ホロコーストのような国家的残虐行為の説明との関連性についての認識を改めるものである。また、欺瞞に基づく実験における演出上の信頼性の問題を提起している。これらの発見は、ミルグラムの質問票データの信頼性に関する方法論的な疑問や、より広範な理論的関連性との関連で議論される。」(DeepL翻訳)

Gina Perry, Augustine Brannigan, Richard A. Wanner, Henderikus Stam
「Credibility and Incredulity in Milgram’s Obedience Experiments: A Reanalysis of an Unpublished Test」
2019年8月22日
https://journals.sagepub.com/doi/full/10.1177/0190272519861952

被験者は実験について以下のような疑問をもっていたようです。

「ある人は、わざとショックレベルを下げてみましたが、学習者はそれにもかかわらず痛みを増したようでした。また、イェール大学がこのような罰を誰かに与えることに懐疑的な人もいました。ある人は、医学的に監視されている心疾患のある人が、このような激しい興奮状態に陥ることはないだろうと言いました。また、学習者の部屋にはスピーカーが設置されていたが、その声はドアから聞こえてくるようには見えなかったという意見もあった。そして、その音が録音されたもののように見えるという意見も多かった。これらはすべてアーカイブに記されていた。」(DeepL翻訳)

Augustine Brannigan
「Stanley Milgram’s Obedience Experiments: A Report Card 50 Years Later」
2013年10月9日
https://link.springer.com/article/10.1007/s12115-013-9724-3

こうして疑問の実例をみてみると、もしかして実験にはけっこう雑なところがあったのか? 人って簡単には騙せないものか? など、実験全体への疑いが湧いてきます。

ちなみに、ミルグラム実験が行われていた時期、アメリカでもっとも人気のあったテレビ番組の一つは、『キャンディッド・カメラ』というドッキリ番組だったようです。被験者の中には、ドッキリを疑った人もいたかもしれません。

以上の通り、ペリーは、被験者たちの多くが実験の嘘くささを見抜いていたと指摘しています。ただし、この点はミルグラムを弁護する側にも言い分があるので、そちらも見ていきましょう。

元が1960年代の実験ですから、ペリーはすべての元被験者のことを体系的に調査できたわけではありません。ペリーが持ち出す証拠もまた不十分なものです。

また、ペリーのような調査に基づくものではないにせよ、「ウソだとバレていた説」は実験当初から指摘されていました。その指摘に対しては既にミルグラムによる反論があります。ミルグラムは、実験一年後に行ったアンケ―トなどを用いて、被験者の過半数は実験を本気にしていたと書いています。

あれ……。過半数?

そうです。ミルグラム自身が提示したアンケート調査でさえ、回答者はけっこう実験について疑っています。
(1)学習者が苦痛な電撃を受けていると本気で信じた  56.1%(369人)
(2)疑問は抱いたが、学習者がたぶん電撃を受けていると信じた 24.0%(158人)
(3)学習者が電撃を受けているか確信がもてなかった 6.1%(40人)
(4)疑問は抱いたが、学習者がたぶん電撃を受けていないと信じた 11.4%(75人)
(5)学習者は電撃を受けていないと確信していた 2.4%(16人)
 確かに(1)だけで過半数ではありますが、6割未満。ミルグラムは、(1)と(2)の合計である4分の3は信念のもとで行動していたし、本気で疑っていたのは5分の1だと言っています(5分の1でも多い気がします)。ですが、(2)の人も疑問は抱いているわけですよ。「疑問は抱いた」とか、「本物か確信をもてなかった」が4割を占めているのには注目したいところです。(『服従の心理』253頁「表7 信念に関する質問への回答」を参照)

なお、ミルグラムは、「被験者たちは、自分のしたことから目を背けるために、“本物だと信じていなかった”などと回答をしているのだ」という反論も行っています。「回答はあとづけの合理化だ」と言っているわけです。

「いまでもわたしはそうした被験者を除外する気にはなれない。というのも、かれらが技術的なお芝居を受け入れなかったのはかれらの服従の原因だったのか、それとも服従したからこそその芝居を認めなかったのかはっきりしないからだ。認知プロセスは、被験者が実施しなければならないと思った振るまいを合理化するように作用するかもしれない。実際、被験者としては自分の残酷な行動について、被害者が電撃を受けていないと思っていたと説明するのは簡単だし、一部の被験者はあとづけの説明としてこの立場をとるようになったかもしれない。かれらには一切コストはかからないし、自分の肯定的な自己認識を守る意味では大いに有効だからだ。さらにそれは、慎重に設定された作り話を見破ったということで、自分がいかに鋭敏で賢いかを示せるというオマケもある。」

スタンレー・ミルグラム 山形浩生訳『服従の心理』河出書房新社 255頁

被験者の回答を意地悪なくらいに疑っています。

この疑いには一理あります。確かに、人間は本心を言うとは限りません。そもそも自身の本心に気づいていないことさえあるでしょう。ミルグラムの言う通り、「回答者が本心を言っていない可能性」はあります。それを重視することこそが真理への道かもしれません。

ですが、そうなると、「(1)学習者が苦痛な電撃を受けていると本気で信じた」との回答もまた疑うべきでしょう。実験者への遠慮・同調・忖度や、権威の恐ろしさを証明するという実験の趣旨への共感、「あとづけの合理化」をしていると疑われることへの不安その他から、騙されたフリ・違和感を覚えなかったフリをしているのかもしれません。

これは、ある種の心理学実験が共通して抱えている難しい問題ではないでしょうか。ただ、話が大きくなりすぎるので、本記事では深入りしません。

ともかく、かなりの割合が嘘くさいと思っていた実験であった。真に受けていた人だけをみれば、命令には抵抗した。それが真実であるならば、ミルグラム実験をもって「権威に従順であるという人間の本質」を論じてよいものか非常に疑問です。

問題2 被験者への圧力とその隠蔽疑惑(データ改竄疑惑)


二つ目の問題は、極めて深刻です。

ミルグラム実験の重要なポイントは、被験者である「先生役」に対して、強制がなされていない点にあったはずでした。強迫されたり、従わなかった場合の罰が想定されたりしていないのに、それでも被験者は電撃が最大強度となるまで実験に協力し続けた。そうだからこそ、「権威の命令で誰しもアイヒマンになりうる」などという強烈な結論さえ引き出されるわけです。

しかし、現実のミルグラム実験においては、実験者のジョン・ウィリアムズは、ミルグラムの承認を得た上で台本を大きく逸脱して被験者に圧力をかけたようなのです。

「ミルグラムの実験者であるジョン・ウィリアムズは、実験のオリジナル録音を聞いてみると、被験者とのやりとりで台本から大きく逸脱していることがわかります。ウィリアムズは、ミルグラムの承認を得て、ショックを与え続けなければならないというプレッシャーを被験者に与えるために、あらゆる方法で即興的に行動したのです。
 彼は学習者を「チェック」するためにラボを離れ、学習者が問題ないことを教師に確認するために戻ってきた。実験プロトコルで説明されている標準的な4回の命令にこだわるのではなく、ウィリアムズはしばしばスクリプトを放棄し、25回以上続けるように命令する被験者もいた。教師は、学習者と交代したり、自分で様子を見に行ったりすることができなかった。
 私たちがミルグラムの実験から連想した権威への隷属は、この録音を聞くと、いじめや強要に近いものに聞こえてくる。」(DeepL翻訳)

「The Shocking Truth of the Notorious Milgram Obedience Experiments」
2013年10月2日
https://www.discovermagazine.com/mind/the-shocking-truth-of-the-notorious-milgram-obedience-experiments

問題を少し具体的にみましょう。

ある被験者が「私はイェール大学の知識追及のために命令に服従しました」と答えたとします。実験者は「なるほど、研究という大義名分をちらつかせれば人は服従するのか」と気づきを得て、実験手法を変更します。次からの被験者には「君がスイッチを押さなければ研究全体がダメになるんだよ」という圧力をかけるのです。しかも、こうした事実は出版物の中に書いていません

「さらにペリーは、ミルグラムが後のバリエーションで、ウィリアムズに新しい命令をアドリブで与えていたことを発見した。たとえば、あるときウィリアムズは、初期の実験で、イェール大学の知識追求を助けるために、自分の指示に従わなければならないと感じている被験者がいることを知ったとします。そして、それ以降の被験者に、もし彼の命令に従うことを拒否すれば、研究全体が無効になると予告した。ミルグラムはこれらの事実を出版物の中で一切触れていません。
 これらの事実が持つ状況的な意味合いはさておき、ペリーの証拠は、アメリカの科学と大衆文化にいまだにしっかりと根付いている研究に関して、より大きな疑問を投げかけています。もしミルグラムが中立性の喪失について一度でも嘘をついたのであれば、私たちは彼の言うことをどこまで信用できるのでしょうか?」

Johannes Lichtman
「Psych, Lies, and Audiotape: The Tarnished Legacy of the Milgram Shock Experiments」
2013年10月30日
https://lareviewofbooks.org/article/psych-lies-and-audiotape-the-tarnished-legacy-of-the-milgram-shock-experiments/

明示した実験の手順を外れて圧力をかけていたというのは、事実だとしたら極めて深刻です。「法則」の理解を目的とするために実験があるとするならば、ありえないやり方です。しかも、それらの事実を隠していたわけです。もはやデータの改竄に当たるでしょう。

ミルグラム実験は、服従率において男女差がなかったことも注目されていたのですが、これまた事実かどうか怪しいとされています。というのも、女性被験者に対しては男性被験者に対するものよりも強い圧力をかけていたとみられるからです。

「「初期の研究では、「4回抵抗した者は不従順と分類された」が、その後の研究、特に20回目の研究では、特に女性の参加者を使った唯一の研究であり、ミルグラムが主張するジェンダーの普遍性にとって重要なことであるが、「同じ行動は無視された」のである。実際、白衣を着た俳優のウィリアムズは、最初の2つのバリエーションでは台本通りに行動するように指示されただけで、その後はミルグラムが「ウィリアムズに即興の許可を与えた」のです。ウィリアムズは女性被験者に、初期の男性被験者よりもはるかに多くの命令に耐えることを強要し、ある女性被験者は26回も突かれてようやく屈服し、従順であると分類されました。この新しい証拠は、ミルグラムの女性被験者は、男性被験者よりも従わない可能性が高かったことを示唆しています。」(DeepL翻訳)

Johannes Lichtman
「Psych, Lies, and Audiotape: The Tarnished Legacy of the Milgram Shock Experiments」
2013年10月30日
https://lareviewofbooks.org/article/psych-lies-and-audiotape-the-tarnished-legacy-of-the-milgram-shock-experiments/

これは本当に困ります。ミルグラムの書いていることには、データ改竄を含めた嘘が紛れ込んでいることになります。『服従の心理』でいえば、どこが信用でき、どこができないのか、現状、私にはほとんど分かりません

近年では、ミルグラムの服従実験に関する未発表資料や記録を精査する学者が増えているようです。今後もさまざまな事実が明らかになっていくのでしょう。しばらくは様子見するしかなさそうです。

「スタンレー・ミルグラムの論文は、1993年にイェール大学アーカイブズを通じて研究者に公開されました。スタンレー・ミルグラム文書の広範なガイドには、424箱に収められた266リニアフィートのファイルの内容が記載されており、そこには1950年から1984年に亡くなるまでのスタンレー・ミルグラムの仕事上の書簡や研究成果が収められている(Yale 2017)。アーカイブのかなりの部分は、権威への服従実験に関する資料で占められている。アーカイブのこの部分には、手紙、助成金申請書、メモ、データファイル、実験そのものの音声記録などが含まれています。このアーカイブのおかげで、服従実験に関連する未発表の資料や記録を精査する学者が増えてきました。学者による資料の精査により、デブリーフィングの範囲や性質(Nicholson 2011)、標準化されていない実験プロトコル(Gibson 2013a; Russell 2011)、報告されていないデータや結果の虚偽表示(Modigliani, 1995; Perry 2013b)、ミルグラムの研究に関する概念的な説明の不整合(Kaposi 2017)などが明らかになっています。」(DeepL翻訳)

Gina Perry, Augustine Brannigan, Richard A. Wanner, Henderikus Stam
「Credibility and Incredulity in Milgram’s Obedience Experiments: A Reanalysis of an Unpublished Test」
2019年8月22日
https://journals.sagepub.com/doi/full/10.1177/0190272519861952

ただ、実験5、実験6の録音テープは紛失しているようです。実験5は、とりわけ引用されるところですし、再現実験の対象にも選ばれている部分です。

以上のことから何が言えるでしょうか。私としては、「オリジナルのミルグラム実験に関しては信頼できなさそうだなぁ」という印象を受けました。近年始まったという点検作業の進展を待つしかなさそうです。

3 追試実験(450V版と150V版)


問題が指摘されているミルグラム実験ではありますが、追試に成功しているというのが大きな強みです。ミルグラム実験本体には欠陥があったとしても、それによって追試実験の成果がダメージを受けるとは限りません。

どのような追試実験がなされているかを調べた範囲で記してみます。

上限値450V版(10か国とその他)

オリジナルのミルグラム実験において、電撃の上限値は450Vでした。この設定と同じく、上限値を450Vに設定した実験が行われています。

例えば、日本においても、1982年に小森さんという方が未発表の卒業論文においてミルグラム実験を追試したようです(450Vまで。服従率67.5%)。

上限値150V版(アメリカ、ポーランド、日本)


近年では、倫理規定によって、450Vの電撃を命令するような実験はできなくなったようです。後々実際には電撃を与えていなかったと知らされるとはいえ、致死的になり得るような電撃を命令されること自体も、「自分は致死的な電撃を与えるような人間だ」と突きつけられることも、被験者の精神に対する強い打撃となり悪い影響を残すからです。

ちなみに、この記事では詳しく論じていませんが、ミルグラム実験においては、被験者へのデブリーフィング(実験終了後の説明手続。実験の目的、予想される結果、なぜ騙す必要があったのかの説明を行う。目的の一つは被験者の心理状態の回復である)が、ミルグラムがすると説明していたものよりもずっと粗雑であったことも問題視されています。

というわけで、近年においては、オリジナルのミルグラム実験とは異なり、150Vを上限値とした実験が行われています。有名なものは、2つあります。

追試1 アメリカのジェリー・バーガーさんによるもの(2009年)

被験者の70%が、上限である150Vまで命令に従いました。
しかも、ほとんどの被験者は、150Vを超えて実験を続けるつもりでいたようです。

「サンタクララ大学のジェリー・バーガー博士も同様の方法で実験を行ったが、彼はボランティアが150ボルト以上の電圧をかける意思を示した後、それ以上の電圧をかけることを許さなかった。
 しかし、今回も男性29名、女性41名の参加者の大半は、他の人間に苦痛を与えることを承知の上でボタンを押していました。
 別の俳優が部屋に入ってきて、何が起こっているのか疑問を呈しても、ほとんどの人は続ける覚悟をしていました。」(DeepL翻訳)

BBC NEWS「People 'still willing to torture'」2008年12月19日
http://news.bbc.co.uk/2/hi/health/7791278.stm

以下がバーガーによる論文です。
Burger, J. M. (2009). Replicating Milgram: Would people still obey today? American Psychologist, 64(1), 1–11.

追試2 ポーランドのダリウシュ・ドリンスキさんたちによるもの(2017年)

被験者の90%が、上限である150Vまで命令に従いました。
同時に生徒役に「女性」を選ぶという新たな試みも行ったようです。

「実験の結果、90パーセントの被験者(80人中72人)が、最高電圧を与える10個目のボタンを押した。これはミルグラムの2度目の実験結果(85パーセント)とほぼ同様の数字となった。生徒役が女性であった場合は、男性のときと比べて続行拒否を訴える人の数は3倍に上った。
 拒否した人数自体が8人と少人数だったので、統計的に意味があるとはいえない。だが、電気ショックを与えられる人物の性別と続行拒否の関係は「特筆に値する」と研究者らはプレスリリースで述べている。」

WIRED「権威者の指示なら、「9割」の人々が電気ショックのボタンを押し続ける:現代版「ミルグラムの実験」で明らかに」2017年5月26日
https://wired.jp/2017/05/26/milgram-experiment/


なんと、日本においても150Vを上限とした追試が行われています。


追試3 日本 釘原直樹さんたちによるもの(2020年)

被験者は14人と、今まであげてきたものと比較すると少数です。
被験者の92%が、上限である150Vまで命令に従いました。

「それから、発言に関する分析結果から、実験参加者全員が仕事の責任を果たすこと、まあ14人中12人が仕事の難しさや緊張に言及していた。さらに学習者に対する同情や心配に関する発言をしていた参加者が9割近くいた。このことから参加者は仕事と学習者に対する心配の板挟みになっていることが伺えた。ただし、予想されたように学習者に対する思いやり、共感、同情はあっても、それが、実験者の要求を止める力にはなっていないことが明らかになったともいえる。」

釘原直樹・寺口司・阿形亜子・井村修
「日本人を対象とした服従実験 Milgram(1974)やBurger(2009)の実験との比較」
http://iap-jp.org/jssp/conf_archive/detail.php?s=2017-A-0243

「共感や同情はみられるが、それはそれとして要求には従う」というところには、「まぁそうなりそうだよなぁ」という納得感があります。ただ、この実験結果から何がどこまで説明できるのかには議論の余地があるでしょう。

さて、以上が追試実験の数々です。続いて追試実験の意義と問題を見ていきたいと思います。

4 追試実験の意義と問題


追試実験に関しては、被験者に圧力をかけたであるとか、その事実を隠蔽しただとかいう嫌疑はかかっていないようです。数ある再現実験のすべてに故意による不正があるとも考えにくいでしょう。

「ミルグラム実験と同じような状況を用意した場合に、多くの被験者は実験者の命令に従って生徒役に電気ショックを与える」とまでは言えそうです。

この意味で、オリジナルのミルグラム実験が報告した服従現象のうち、少なくとも一部分については再現性があると言えると思います。

再現されたのが「一部分」である理由は、すぐ後に述べます。「思います」と、若干弱い言い方なのは、記事の最後でとりあげますが、QRPsの問題があるからです。

いずれにせよ、「服従現象はある程度みられるであろう」という知見を基に、解釈を議論したり、さらなる別の実験につなげたりしていくための材料として、追試実験には意義があったのではないでしょうか。

続いて、追試実験の問題点を見ていきます。

問題1 「ミルグラム実験は追試に成功している」と言えるのか?


まずは、すべての追試実験に共通の問題をみます。これは問題というよりは、限界という感じでしょうか。

第一に、追試実験は、オリジナルのミルグラム実験にまつわる疑惑を払拭するものではありません。追試に成功したとしても、ミルグラムの不正疑惑はそのまま残ります。

第二に、行われてきた追試実験は、オリジナルのミルグラム実験を部分的に再現したにとどまります。『服従の心理』にあるものだけで18種、未公表のものも含めると24種の実験のうち、一部(例えば実験5だけとか)が追試されているのです。再現された部分と、再現されていない部分とは区別しなければなりません。

というわけで、追試実験に成功しているという事実から、ミルグラムが行った実験の信頼性を導くことはできません。「追試成功!『服従の心理』に書いてあることは信頼できる!」とはならないわけです。

続いて、問題を一昔前の追試(上限値450V)と、近年の追試(上限値150V)に分けて考えます。

① 上限値450V版について


1968年から1985年の間に行われた再現実験を引いて、「ミルグラム実験はさまざまな時期・場所において再現されたのだ」などと言われることがあります。ただ、先述した通り、よくみてみると、妙に服従率が低くでている実験も混じっているのです。服従現象の普遍性には異論もあるようです。

「第4に、ミルグラム実験の妥当性や信頼性に疑問を呈すると、「すでに世界中で再現されているので、ミルグラムを批判することは本質的に時間の無駄である」と言われる。ミルグラムは、オーストラリア、ドイツ、イタリア、南アフリカでも再現されたと報告し、その結果が普遍的なものであることを示唆しました。しかし、ペリーによれば、「オーストラリアの研究では、ミルグラムの研究よりも従順さのレベルが著しく低かった」、「イタリアとドイツの研究でもそうだった」、「南アフリカの研究は、16人の被験者を対象とした学生の報告だった」とのことです(p.307)。」

Augustine Brannigan
「Stanley Milgram’s Obedience Experiments: A Report Card 50 Years Later」
2013年10月9日
https://link.springer.com/article/10.1007/s12115-013-9724-3

それにしても、服従率などのばらつきは何に由来するのでしょうか。当然の誤差なのか、文化差なのか、それともお芝居(演技)の質や実験手順の微妙な違いなど、もはや確かめることが困難なところなのか。後に述べるQRPsによるものだとしたら恐ろしいです。

② 上限値150V版について


最初に思い浮かぶのは、電撃の上限値を150Vに設定しておいて再現実験と言えるのか、という批判です。これはオリジナルのミルグラム実験が設定した上限値の「3分の1」でしかありません。倫理規定上しかたないとはいえ、これで再現実験になっているのでしょうか。

しかしながら、追試者たちは考えがあってやっています。というのも、オリジナルのミルグラム実験によれば、150Vまで電撃を与えた人は、その多くが450Vまで電撃を与えたのです。「150Vの命令に服従する人は、450Vの命令にも服従する」。そう考えてよいのならば、150Vを上限にした再現実験にも意味が出てきます。

「今日の倫理的ガイドラインでは、ダリウシュ・ドリンスキと彼の同僚はミルグラムの実験を完全に再現することはできませんでした。しかし、オリジナルの実験では、10回目のショックレベルが特に重要で、ある種の「ポイント・オブ・ノー・リターン」のように思われたという事実を利用したのです。」(DeepL翻訳)

Ginny Smith
「New Milgram replication in Poland finds 90 per cent of participants willing to deliver highest shock」
2017年5月5日
https://digest.bps.org.uk/2017/05/05/new-milgram-replication-finds-90-per-cent-of-polish-participants-willing-to-deliver-highest-shock/

追試者たちのこの発想には「なるほど!」と思わされます。

ただし、ここで嫌な予感が頭をよぎります。2の問題3で述べましたように、ミルグラムたちは被験者に対して圧力をかけていたのでした。そして、誰にどれだけ圧力をかけたのかはわかりません

となれば、「150ボルトがノーリターン・ポイントである」という話を真に受けて良いのか疑問です。150ボルトまでスイッチを押した人たちに対しては、「チャンスだ。この人なら最後まで服従してくれる」と考え、圧力を強めた可能性もあるわけです。「ミルグラムたちがそんなことするわけない」などとは、もはや言いにくいところです。追試の結果から、どこまでのことが言えるのかについては、議論の余地があるでしょう。

問題2 お芝居だとバレていないか


お芝居だとバレていないか問題は、追試実験においても発生していると思います。被験者が全てをお芝居だと確信しているかはともかく、「違和感を覚えた」とか、「戸惑いを感じた」という可能性はあるでしょう。

これは何の裏付けもない私の感想でしかありませんが、21世紀に入ってからの追試については、「被験者たちは変に思わなかったのかなぁ」と思います。(今思えばの話です。バレてる説を真面目に検討するという発想は、つい最近までありませんでした。)

今時、学習の実験において電気ショックを用いるというのは、まともな大学がやることとはとても思えません。お芝居だとは思わずとも、裏で相当念入りな安全策が講じられているだろうとか、被害が生じてもしっかり保障はされるんだろうとか、そうでなきゃ裁判沙汰だもんなとか、被験者は色々と推測してしまいそうです。「深刻なことにはならないだろう」と思った上で電気ショックのスイッチを押しているのならば、服従率が高く出たところで、オリジナルのミルグラム実験が示したと思われていた意味での「権威と服従の恐ろしさ」を示すことにはならないでしょう。

「実験を疑っていたほど服従率が高い」らしいのも厄介です。服従率が高く出たとしても、それはお芝居の現実味のなさを示しているだけかもしれないのですから。

問題3 QRPsの問題はないか? P-ハッキング・出版バイアス他


どこで書くか迷ったのですが、触れないわけにもいかない重要問題があります。心理学の広範囲を脅かしている疑わしい研究実践(QRPs)の問題です。

最近では著名な心理学研究が次々追試に失敗していますが、その大きな理由はQRPsにあると言われているのです。

QRPsの具体例としては、p-ハッキング、HARKing、出版バイアスなどがあります。これらがどのようなもので、どうして問題なのか、また対策として何が考えられるのかについては、過去に私なりのまとめを書きました。

ミルグラム実験の追試実験は、この記事でとりあげなかったものを含めて沢山あるのだと思います。しかし、追試はただなされればよいのではなく、QRPsを避けている必要があります。そこで問題となるのが、QRPsが大きな問題とみなされるようになったのは、10年ほど前に「再現性の危機」が訪れて以降だということです。

最近の心理学界においては、信頼性革命(credibility revolution)とも言われる改革が起きていて、事前登録研究、レジスタード・レポーツ、オープンサイエンスを促進するなどしてQRPsへ対応しようとしているようです。こうした対策がなされた上での追試だからこそ、結果を信頼できるのであり、「追試に成功した過去があるからその実験は信頼できる」とは言えないのです。

この点について、私が共感したのは、社会心理学者である平石界さん(慶應義塾大学文学部教授)の意見です。

「社会心理学で困るのは、例えばアイヒマン実験や傍観者効果といった有名な知見ですら、それらがどれだけ頑健なのか分からなくなってしまっていることにあると、私は考えています。確かにそれらを支える研究は山ほどあるように思えます。しかし、それらがQRPやp-hackingによってもたらされた、見かけ上の頑健性ではないと主張することが困難であることが示されてしまったのが、現状だという理解です。その上、仮にそれらが頑健だったとしても、実験室を離れた文脈への一般化可能性という問題が残ると考えています。」

平石界「社会心理学は社会に提言できるか(4)」2021年9月12日
https://note.com/kaihiraishi/n/n6ad3d9ca043c


QRPs対策がなされていない追試実験についてどこまで信頼していいのか、私には正直わかりません。

pハッキングが行われていたのかどうかを論文から読み取ることができる場合なんてあまりないでしょうし、出版バイアスの有無や強弱を後から確かめるなどというのは現実味がないように思えます。

というわけで、過去の心理学の知見の信頼性についてどう判断すればいいのか、私にはよく分かりません。「QRPs対策が施されたしっかりした追試結果」が出るのを待つしかないのでしょうか。


追試実験の数々から何を読み取るべきなのか、これについても私にはよく分からなくなってしまいました。研究は途上ってことなのかなぁ?


2022年8月18日追記
引用していた資料のうち、「このリンク先は著作権的に信頼していいのかなぁ」と疑問に思ったものを削除しました。関連して見出し画像も若干修正。申し訳ありません。素人が英語圏の資料を自力で探すのは難しい……。皆様も何かお気づきの点があればご指摘ください。

2022年8月20日追記
ミルグラム実験も含めて、暴力と集団心理に関しては以下の本が優れているようです。私は未読なのですが、紹介しておきます。

以下は紹介記事です。





この記事が気に入ったらサポートをしてみませんか?