アンケート調査の「エキスパートレビュー」とは何なのか

2024年7月30日 15:17

こんにちは、Aska Intelligenceの川本です。
今回は、エキスパートレビュー（Expert review）について書いていきたいと思います。

エキスパートレビューとは

アンケート調査の教科書等では実施までの手順として、
1. エキスパートレビュー
2. 事前調査（フォーカス・グループ）
3. 本調査
というようなプロセスがよく書いてあります。

アンケート対象や質問設計を精査するために、まずは少人数（通常2人〜3人）で調査内容に問題がないか評価しましょうというのがエキスパートレビューですが、エキスパート（専門家）とは何のことで、何を評価するのでしょうか。世界標準のフォーマットなどはあるのでしょうか？

結論から言うと、確立されたフォーマットなるものは存在しません。
以下の論文でも、こんなふうに書かれています。

多くの研究者は、専門家レビュー法の欠点について議論しています（Presser & Blair, 1994; Tourangeau, 2004）。特に、Tourangeauは専門家レビューが「厳密でない、むしろ主観的な方法で」実施されがちであると指摘しています（p. 210）。多くの専門家レビューは専門家による評価を含んでいますが、専門家間で使用される方法には一貫性が欠けています。一部の研究者は、「専門家レビューは、どれだけ体系的であっても、透明性のある、実証的な、または分析可能なデータを提供せず、科学的方法と見なすことはできない」とまで言っています（U.S. OMB Inventory, 2016b, p. 13）。

[P. Goerman et al., (2018)]の和訳

ここで出てくるTourangeauは、単なるクレーマーというわけではなく、何十年もアンケート調査法を研究している研究者です。

アンケート設計のノウハウ集みたいなものは、様々な業界でいろんな人が提案しているので、ある意味それらを実行するプロセスがエキスパートレビューなわけですが、「お気持ち」の話になりがちで体系化しづらいということです。

とはいえ国勢調査レベルの調査をするときには何かしら慎重に準備していかないといけないわけで、具体的にどんな着眼限を持ってレビューしているのかを資料から読み解いていこうと思います。

レビューに参加する人

エキスパートレビューは、通常以下のような人たちが参加して議論します。

アンケート設計の専門家（次節で挙げるようなポイントを熟知している人）
アンケート対象分野の専門家（ドメイン知識と照らし合わせたコメントをする人）
翻訳家（多言語に翻訳して調査する場合、誤解のない翻訳になっているか確認する人）

評価内容

動機づけの問題：無回答・不正確な回答が出現しないか

無回答というのは、回答者が回答を拒否（スキップ）することで、不正確な回答というのは例えば婚姻調査において「あなたが離婚したのは何年何月ですか？」のように記憶を聞く質問では、回答者の記憶を頼りにするために精度が必ずしも高くないというようなケースを指します。

無回答（回答拒否）や不正確な回答というのは結果であって評価項目そのものではありませんが、これらの危険性を評価するための評価項目として、以下のような項目が検討されます [K. Olson (2010)]：

負担になるか（回答者に多大な認知作業を要するか）
機微に触れるものであるか（恥ずかしいまたは私的な情報を明かす必要があるか、日常会話では取り上げられないトピックであるか）
社会的に望ましくないものであるか（社会的な規範と比較される可能性がある情報を明かす必要があるか）

思い出すのが大変な内容だったり、病気を持っているかの開示だったり、ドラッグの使用歴について答えたり、というような例がこれらに当てはまるケースですね。

回答者の認知反応プロセス
回答者がどのような認知プロセスを経て回答をするかを、Tourangeauらは4つの段階に分類しました [Tourangeau et al. 2000]。認知反応プロセスの4つの段階は、
・理解（質問を理解すること）
・検索（質問の情報を記憶から取得すること）
・判断（取得した情報を評価し、質問の目的に適合するかどうかを判断すること）
・編集（回答を修正すること）
とされています（これはTourangeauらの分類で、他の分類を提唱している人もいます）。質問項目に問題があると判断された場合、この認知プロセスのどこに問題が生じるかという評価を行うこともあります [K. Olson (2010)]。

言葉づかいの問題

質問文の言葉づかいについてのチェック項目としては、以下のようなポイントがあります [Graesser et al., (2006)]：

多くの人にとって馴染みのない言葉
不明確な相対的用語（動詞、形容詞、副詞）
many, few, rarely, frequentlyのように、頻度の認識が人によって異なる表現など
曖昧または不明確な名詞句
items, amount, it, thereなどの抽象的な名詞や代名詞など、何を指しているか曖昧な場合
複雑な構文を持つ質問
修飾子が過剰に多い表現など
作業記憶に負担をかける質問

多言語の場合の問題点

[Goerman et al. (2018)]では多言語への翻訳について詳しく触れられています。

原文と訳文において概念が欠けていたり追加されていたりすること
原文と訳文のレジスター（つまり、用語の形式や複雑さ）に不一致があること
対象言語の用語が、異なる国籍の回答者（例：スペイン語やアラビア語）の間で十分に理解されない可能性があること
文法的な誤り
可読性の問題

ウェブツール

人手ではなく、質問文に問題がないかをチェックするウェブアプリはないのだろうかと思わないでしょうか。

実はそういうものを実装しようとした人たちはいて、Question Understanding Aid (QUAID) というウェブシステムがある（あった）そうです。現在は稼働していないようなので実物は確認できませんが、このシステムを提案した論文 [Graesser et al., (2006)] から、どのようなシステムであったかを垣間見ることができます。

QUAIDの入力項目は「質問文（必須）」「文脈（オプション）」「選択肢（オプション）」の３つで、これらを自然言語で入力すると、前節の「言葉づかいの問題」についての評価が返ってきます。

ChatGPTでのプロンプトほどの自由度はないと思いますが、2006年のシステムですから、いろいろなデータベースを参照する形で相当頑張って作ったのではないでしょうか。

今ならChatGPT等の生成AIを使って聞いてみたり、それをチューニングしてみるというのが順当なアプローチかと思います（あとで少しだけ触れます）。言語表現に着目するのであれば、それに特化した添削システム（Grammarlyなど）も有用なのかもしれません。

現状

エキスパートレビューは、やってみると結構評価する人によって結果がバラバラになりがちだと言われています（[Olson (2010)]では実際にそれを実験しています）。冒頭にも触れた通り、具体的なプロセスもかなり属人化されたものなので、掴みどころのなさがあります。

ただそうであっても、問題点を指摘する行為は、やらないよりはやっておいたほうが良いので、エキスパート同士の整合性を測っておくことにはメリットがあるとは言われています（まあ、当たり前のことを言っているだけですが）。

ちなみに調査設計全体としては、「そもそもどういった目的で調査するのか」とか「どのような調査方法が適切か」という、より前段階の議論もあります。これをエキスパートレビューに含める場合もあるかと思います。また、事前調査をした後にもう一度レビューするということもあるかもしれません。

さいごに

今回は、エキスパートレビューでは具体的にどんなことをチェックするのかをいくつかの論文を参考にしながらまとめてみました。

生成AI用プロンプト

生成AIのある今の世の中では、エキスパートレビューのチェック項目さえ把握していれば、実際の人間を介さずともある程度実行できるかと思います（ここは程度問題なので、出来るとも出来ないとも言えると思います）。
これがどれだけ十分かは分かりませんが、参考までにプロンプト例を貼っておきますので興味ある方は試してみてください。

ここまで読んでいただき、ありがとうございました。

あなたはアンケート調査設計の専門家です。
与えられた文脈に基づき、質問や選択肢についてsurvey methodologistとしてエキスパートレビューを行います。

調査内容：
＊＊ここに具体的な調査内容（対象者・質問文・選択肢等）を記載＊＊

エキスパートレビューは、以下の点に注意しながら実行してください。

- 動機づけの問題：無回答・不正確な回答が出現しないか
1. 負担になるか（回答者に多大な認知作業を要するか）
2. 機微に触れるものであるか（恥ずかしいまたは私的な情報を明かす必要があるか、日常会話では取り上げられないトピックであるか）
3. 社会的に望ましくないものであるか（社会的な規範と比較される可能性がある情報を明かす必要があるか）

- 言葉づかいの問題
1. 多くの人にとって馴染みのない言葉
2. 不明確な相対的用語（動詞、形容詞、副詞）
3. 曖昧または不明確な名詞句
4. 複雑な構文を持つ質問
5. 作業記憶に負担をかける質問

参考文献

Goerman, Patricia, Mikelyn Meyers, and Yazmín García Trejo. "The place of expert review in translation and questionnaire evaluation for hard-to-count populations in national surveys." GESIS Symposium on" Surveying the Migrant Population: Consideration of Linguistic and Cultural Aspects". Vol. 19. DEU, 2018.
Olson, Kristen. "An examination of questionnaire evaluation by expert reviewers." Field methods 22.4 (2010): 295-318.
Graesser, Arthur C., et al. "Question Understanding Aid (QUAID) a web facility that tests question comprehensibility." Public Opinion Quarterly 70.1 (2006): 3-22.

この記事が気に入ったらサポートをしてみませんか？