オンライン実験での取得データの質を上げるために

2024年10月29日 20:47

近年、オンラインでの心理学実験が急速に普及している。私も過去の記事でオンライン実験について取り上げているが、オンラインでの調査実験はここ数年で何度も行っている。特に、2020年のコロナ禍による大学の閉鎖は、研究者たちが従来の対面実験からオンライン実験へと移行するきっかけとなった。

オンライン実験は、より多くの参加者からデータを収集できるメリットがあるが、一方で研究の精度や信頼性をどう担保するかが課題となる。そんな中で、今年の頭にこんな論文が出た。

Moving experimental psychology online: How to obtain high quality data when we can’t see our participants - ScienceDirect

この記事では、オンライン実験でのデータ品質を保つための要点について解説している。ずっと読まないとと思っていたのだが、いろいろやることがあってここまで読めずにいた。ざっと読んだので、備忘録もかねてここでちょっと大事だと思われる内容をメモしておきたい。なお以下の内容には多分に私の付け加えが含まれていて、また細かなニュアンス等を含めた正確性は保証しないので、参考にされる際には原典に当たっていただきたい。

オンライン実験の重要性や信頼性

オンライン実験のメリットは、幅広い層の参加者に短期間でアクセスできる点である。オンライン実験は従来の対面方式では実現できなかったスケールの研究を可能にした。また、母国語や特定の専門知識を持つような「ニッチな層」にもリーチできるため、記憶や言語の大規模な市民科学プロジェクトが実現している。さらに、オンラインリクルートは実験規模の拡大を可能にし、従来の実験が抱えていた小規模なサンプルに伴う検定力の不足も解消できる可能性がある。

オンラインで取得するデータが信頼できるのかという点はしばしば問題になるが、オンライン実験の信頼性は、過去の研究と比較して高いことが確認されている。例えば、反応時間をミリ秒（1/1000秒）単位で測定する認知心理学の典型的な課題（ストループ課題や視覚的注意課題など）をオンラインで再現し、対面実験と同様の信頼性が得られたケースが報告されている。また、特に反応に高い精度が求められる実験では、適切なオンライン実験環境の指定が重要となる。全体として、データ品質に慎重を期せば、オンラインで得られるデータの信頼性は研究室内実験に劣らないとされている。

ああ、そういえば、私のいる分野での国際学術誌Bilingualism: Language and Cognitionでは、Author Instrcutionsでウェブベースのデータ収集に対して以下のような記載がある。

Web-based data collection. If data are collected via web-based tools such as IBEX Farm, BLC requires a detailed report of measures taken to ensure the validity of the data. For offline questionnaires and judgment tasks that are intended to pre-test and provide additional information about experimental materials, web-based data collection is a useful tool. Otherwise (e.g., for online experiments), the study should present either very large samples, to reduce potential noise and artefacts, or the authors should cross-validate web-based experiment(s) with a corresponding (but smaller) lab-based study.

Author Instrcutions

つまり、オンラインでデータを取るんだったら、データ収集環境について詳細な記述を求めるのはもちろん、ノイズを減らすためにめちゃめちゃ大規模なサンプルサイズにしたり、ラボ実験も併用してクロスバリデーションしたりしてな、ってことである。

なんとなく、オンラインでの取得データをどれだけ信頼するかということに関しては研究者間でも温度差があるような気がしてくる。いずれにせよ、できる限り必要な対策を講じて、取得したデータが信頼できることを示していく必要があるのは間違いないだろう。

どう改善していくか？

デバイスとソフトウェア

オンライン実験を行う際には、参加者が使うデバイスやブラウザの仕様が結果に影響を与えることがある。例えば、反応時間を正確に測定する課題では、数ミリ秒単位のタイミングの違いが研究の信頼性を左右する。このような実験では、参与者に特定のスペックのデバイスや特定のブラウザを推奨することが望ましい。例えばPCのほうがスマートフォンやタブレットよりも誤差が少なく、またブラウザごとに表示や反応のスピードが微妙に異なる。また、ネット環境もデータの精度に影響する。接続が遅いと、刺激の表示タイミングや反応時間の記録に遅延が生じることがあるため、安定した接続環境での参加を求める必要がある。

私も実験前にはデバイスは必ず指定することにしている。ただ、Gorilla experiment builderはどのような環境で受検したのかがデータとして提供されるのだが、PCを指定しても数％くらいは指示を無視してタブレットで回答してくる。文法性判断やアンケートでは問題ないかもしれないが、反応時間の測定のときには気を付けたほうがいいかもしれない。

あと反応時間の正確性の話ではないが、ラップトップまたはデスクトップPCであれば問題なく作動したIbexのプログラムが、タブレット機器＋外付けキーボードでは不具合を起こすという例もあった。オンラインだと参与者が用いるデバイスがバラバラになってしまうので、このあたりは気を付けなければいけないところだと思う。いずれにせよ、対面実験のように一つのPCを用いることができないことを念頭に置いて、環境を統制する努力は必要。

参加者の募集方法

オンライン実験では、参加者の募集方法もデータの質に大きく影響する。Amazon Mechanical TurkやProlificなどのクラウドソーシングプラットフォームは、迅速かつ効率的に多様な背景を持つ参加者を集める手段として非常に有用だが、同時に「スーパーワーカー（superworker）」と呼ばれる、頻繁に実験に参加する一部の参加者がデータの偏りを生む可能性もある。スーパーワーカーは、多数の研究に参加しているため、実験手順や注意事項に慣れてしまい、特定の課題においてはバイアス（偏り）が生じることがある。このため、参加者の経験度に応じてデータを整理する、あるいは新規の参加者を優先的に募集するなどの対策が有効であるとこの論文は主張している。

この点は非常に難しいところである。自分も過去に、同じ参与者から複数回データを取るということをしたことがあるし、私の研究科では実験参加経験が豊富な人が多かった。が、そういう人のほうが、初めてでよくわからないみたいな人よりデータが安定しているという感覚もある（それをバイアスと呼ぶのかもしれないが）。要は見たいものを見れているかが大事なので、極端な歪みを生じさせないための対応は必要だろう。

参加者のパフォーマンス管理

オンライン実験では、研究者が参加者の行動を直接観察できないため、参加者のパフォーマンスを管理する仕組みが必要である。例えば、課題開始前に参加者に簡単な反応時間テストや視覚・聴覚の識別テストを行い、デバイスの適合性や刺激音声の明瞭さを確認させるなど。また、実験後のアンケートで、課題中に技術的な問題が発生しなかったかを確認することも有効である。このような確認を行うことで、データ収集時に予期せぬ技術的なトラブルや認知負荷の影響を特定し、精度の高いデータを確保することが可能となる。

これに関しては、私も必ず実験後アンケートに「気づいたことがあれば書いてください」みたいな自由記述欄を設けておくのだが、それだけでも予期しなかった状況を知ることができる。なんでこの人だけデータがほとんどチャンスレートなんだろう、事前・事後アンケートは適当に答えているわけではなさそうなのにと思ったら、本実験だけ画面が白飛びしてほとんど見えなかった、みたいなことを自由記述に書いてきた人がいたりした。

あと、適当にやってる人たちを割り出すアンケート項目みたいなのは日本語でもたくさん報告があるので、初めてオンライン実験を行う際には調べてみたほうが良いと思う。個人的な体感では、Prolificで英米国在住者を選択したときはみんなびっくりするくらい真面目に回答してくれるが、MTurkを使ったり、対象者を変えると急にテキトーな回答が増えたりする。「エンゲージメント」とかでなく認知プロセスの違いをみたいのであれば、やはりこれに対する対策は必須だろう。

参加者の関与を促す

参加者が実験に積極的に取り組むよう動機づけを工夫することが、データの信頼性向上に役立つ。実験の内容に関心を持ってもらうため、社会貢献や知識の獲得といった側面をアピールすることで、「利他的なモチベーション」を喚起すること大事だとのこと。例えば、「この研究は社会に貢献するものです」「実験後には、あなたの結果が全体の傾向とどう異なるのか知ることができます」などと説明することで、参加者の協力度が向上する。さらに、フィードバックを提供することで、参加者は自分の行動が研究にどのような影響を与えるかを知り、より注意深く取り組むようになる。このようなフィードバックは、特に学術的な知識を得たいと考える参加者にとって重要であり、彼らのモチベーションを高める要因となる。

実験の結果がどう還元されるかを述べることはもちろん研究倫理的に大切なのだけど、そこを示すだけでこういう効果も生じるのか、と勉強になった。

おわりに

前のブログ記事でもふれたが、オンライン実験は地理的制約を超えて幅広い参加者からデータを収集できる。言語を対象に実験系の研究をしているとこれが実に大きな制約になることが多いので、オンライン実験が昔より手軽にできるようになったのはとてもありがたい。

一方で、従来の対面実験とは異なる課題も多い。ここで示した技術的な環境の最適化、参加者募集方法の工夫、参加者のパフォーマンス管理、動機づけの工夫はそのうちの一部かもしれないが、このような点に配慮することで、データの信頼性を高めることができる。オンライン実験を成功させるためには、これらの対策を積極的に取り入れ、データ品質の確保に努めることが重要だろう。

これ、オンライン実験を行う際のチェックリストみたいなの作ってる人とかっていないですかね。OSFとかではプレレジのチェックシートみたいなの公開されてた気がするので、なんかあるような気もするけど、もしいい情報あったら教えてください。オンライン実験を行う研究室とかなら、日本語のチェックリスト作成してメンバーに配ったりしてもいいかもしれませんね（私はそういう指導はしていないので、なかなかモチベーションが沸かないですが）。

この記事が気に入ったらサポートをしてみませんか？