アンケート調査の「エキスパートレビュー」とは何なのか
こんにちは、Aska Intelligenceの川本です。
今回は、エキスパートレビュー(Expert review)について書いていきたいと思います。
エキスパートレビューとは
アンケート調査の教科書等では実施までの手順として、
1. エキスパートレビュー
2. 事前調査(フォーカス・グループ)
3. 本調査
というようなプロセスがよく書いてあります。
アンケート対象や質問設計を精査するために、まずは少人数(通常2人〜3人)で調査内容に問題がないか評価しましょうというのがエキスパートレビューですが、エキスパート(専門家)とは何のことで、何を評価するのでしょうか。世界標準のフォーマットなどはあるのでしょうか?
結論から言うと、確立されたフォーマットなるものは存在しません。
以下の論文でも、こんなふうに書かれています。
ここで出てくるTourangeauは、単なるクレーマーというわけではなく、何十年もアンケート調査法を研究している研究者です。
アンケート設計のノウハウ集みたいなものは、様々な業界でいろんな人が提案しているので、ある意味それらを実行するプロセスがエキスパートレビューなわけですが、「お気持ち」の話になりがちで体系化しづらいということです。
とはいえ国勢調査レベルの調査をするときには何かしら慎重に準備していかないといけないわけで、具体的にどんな着眼限を持ってレビューしているのかを資料から読み解いていこうと思います。
レビューに参加する人
エキスパートレビューは、通常以下のような人たちが参加して議論します。
アンケート設計の専門家(次節で挙げるようなポイントを熟知している人)
アンケート対象分野の専門家(ドメイン知識と照らし合わせたコメントをする人)
翻訳家(多言語に翻訳して調査する場合、誤解のない翻訳になっているか確認する人)
評価内容
動機づけの問題:無回答・不正確な回答が出現しないか
無回答というのは、回答者が回答を拒否(スキップ)することで、不正確な回答というのは例えば婚姻調査において「あなたが離婚したのは何年何月ですか?」のように記憶を聞く質問では、回答者の記憶を頼りにするために精度が必ずしも高くないというようなケースを指します。
無回答(回答拒否)や不正確な回答というのは結果であって評価項目そのものではありませんが、これらの危険性を評価するための評価項目として、以下のような項目が検討されます [K. Olson (2010)]:
負担になるか(回答者に多大な認知作業を要するか)
機微に触れるものであるか(恥ずかしいまたは私的な情報を明かす必要があるか、日常会話では取り上げられないトピックであるか)
社会的に望ましくないものであるか(社会的な規範と比較される可能性がある情報を明かす必要があるか)
思い出すのが大変な内容だったり、病気を持っているかの開示だったり、ドラッグの使用歴について答えたり、というような例がこれらに当てはまるケースですね。
言葉づかいの問題
質問文の言葉づかいについてのチェック項目としては、以下のようなポイントがあります [Graesser et al., (2006)]:
多くの人にとって馴染みのない言葉
不明確な相対的用語(動詞、形容詞、副詞)
many, few, rarely, frequentlyのように、頻度の認識が人によって異なる表現など曖昧または不明確な名詞句
items, amount, it, thereなどの抽象的な名詞や代名詞など、何を指しているか曖昧な場合複雑な構文を持つ質問
修飾子が過剰に多い表現など作業記憶に負担をかける質問
多言語の場合の問題点
[Goerman et al. (2018)]では多言語への翻訳について詳しく触れられています。
原文と訳文において概念が欠けていたり追加されていたりすること
原文と訳文のレジスター(つまり、用語の形式や複雑さ)に不一致があること
対象言語の用語が、異なる国籍の回答者(例:スペイン語やアラビア語)の間で十分に理解されない可能性があること
文法的な誤り
可読性の問題
ウェブツール
人手ではなく、質問文に問題がないかをチェックするウェブアプリはないのだろうかと思わないでしょうか。
実はそういうものを実装しようとした人たちはいて、Question Understanding Aid (QUAID) というウェブシステムがある(あった)そうです。現在は稼働していないようなので実物は確認できませんが、このシステムを提案した論文 [Graesser et al., (2006)] から、どのようなシステムであったかを垣間見ることができます。
QUAIDの入力項目は「質問文(必須)」「文脈(オプション)」「選択肢(オプション)」の3つで、これらを自然言語で入力すると、前節の「言葉づかいの問題」についての評価が返ってきます。
ChatGPTでのプロンプトほどの自由度はないと思いますが、2006年のシステムですから、いろいろなデータベースを参照する形で相当頑張って作ったのではないでしょうか。
今ならChatGPT等の生成AIを使って聞いてみたり、それをチューニングしてみるというのが順当なアプローチかと思います(あとで少しだけ触れます)。言語表現に着目するのであれば、それに特化した添削システム(Grammarlyなど)も有用なのかもしれません。
現状
エキスパートレビューは、やってみると結構評価する人によって結果がバラバラになりがちだと言われています([Olson (2010)]では実際にそれを実験しています)。冒頭にも触れた通り、具体的なプロセスもかなり属人化されたものなので、掴みどころのなさがあります。
ただそうであっても、問題点を指摘する行為は、やらないよりはやっておいたほうが良いので、エキスパート同士の整合性を測っておくことにはメリットがあるとは言われています(まあ、当たり前のことを言っているだけですが)。
ちなみに調査設計全体としては、「そもそもどういった目的で調査するのか」とか「どのような調査方法が適切か」という、より前段階の議論もあります。これをエキスパートレビューに含める場合もあるかと思います。また、事前調査をした後にもう一度レビューするということもあるかもしれません。
さいごに
今回は、エキスパートレビューでは具体的にどんなことをチェックするのかをいくつかの論文を参考にしながらまとめてみました。
生成AI用プロンプト
生成AIのある今の世の中では、エキスパートレビューのチェック項目さえ把握していれば、実際の人間を介さずともある程度実行できるかと思います(ここは程度問題なので、出来るとも出来ないとも言えると思います)。
これがどれだけ十分かは分かりませんが、参考までにプロンプト例を貼っておきますので興味ある方は試してみてください。
ここまで読んでいただき、ありがとうございました。
参考文献
Goerman, Patricia, Mikelyn Meyers, and Yazmín García Trejo. "The place of expert review in translation and questionnaire evaluation for hard-to-count populations in national surveys." GESIS Symposium on" Surveying the Migrant Population: Consideration of Linguistic and Cultural Aspects". Vol. 19. DEU, 2018.
Olson, Kristen. "An examination of questionnaire evaluation by expert reviewers." Field methods 22.4 (2010): 295-318.
Graesser, Arthur C., et al. "Question Understanding Aid (QUAID) a web facility that tests question comprehensibility." Public Opinion Quarterly 70.1 (2006): 3-22.
この記事が気に入ったらサポートをしてみませんか?