二次データを利用しよう
2020年の日本心理学会第84回大会でシンポジウムに登壇しました。オンライン大会での発表は普段と違って,意外と緊張するものです。聞いている人たちの反応が見えないというのは,また独特な雰囲気です。
そこで話した内容にも関連するのですが,今回の記事は二次データの利用に関することです。
心理学はどうも,「自分でデータをとらないと価値がない」と考える研究者が多いような印象があります。実験でも調査でも面接でも,自分で実施して,自分でデータを得て,自分で分析することに価値がある,という考え方です。
心理学ではこういう本もあるのですよね。『Secondary Data Analysis: An Introduction for Psychologists』です。
自分のデータじゃないんでしょ?
自分でデータをとらずに他のものを利用する,という研究方法にはメタ分析もあります。いくつか論文も書いたのですが,一緒に研究していた人から聞いたのですよね。他の研究者と話をしていたら,「でも,それって自分でデータをとっているわけじゃないんでしょ」と言われたことがあるということだそうです。
でもこの話,時間横断的メタ分析の話題の中で出てきたことらしいのですよ。いや,どうやって過去にさかのぼって一次データをとったらよいのでしょうか……(必要なのはドラえもんやドクター・フーですよね)。
メタ分析だけじゃなく,既存のデータセットを使って研究するという方法もあります。すでにあるデータを,別の目的のために利用することを二次データ分析と言います。
二次データ利用ガイド
二次データを利用するコツは,何かあるのでしょうか。利用ガイドがまとめられた論文があるので,見てみましょうか(A Step‐by‐Step Guide to Using Secondary Data for Psychological Research)。
まず「二次データ」という言葉なのですが,これは何らかの一次的な目的の下に情報源として収集されたものであり,利用可能な状態になっているものを指します。一次データは何かの目的の下に収集されるのですが,当初の目的とはまったく異なる目的のために利用されることがあるというわけです。データが広く公開されていることもありますし,人づてに得ることもありますし,自分で交渉して得ることもあります。
二次データのよい点
二次データを使うことに何かよい点はあるのでしょうか。
まずは,研究の時間短縮ですね。大規模な調査を計画して実施するためには,多くの時間と労力とお金がかかります。この限られたリソースを有効に活用しつつ,よりよい研究をする上で,二次データの活用はひとつの手段になります。
また,長期的なデータ収集や長年にわたる定点観測的なデータが手に入ることも,二次データ分析のよい点です。これは研究者の活動できる時間という制限から考えても有効です。私が今から50年にわたる長期的な調査を計画しても,終了する前に寿命を迎えてしまいます。
貴重な変数を手にすることができるという点も,二次データを利用する利点ですね。健康や病気,購買行動や移動,居住地など,個人に紐づけられたデータがあると,そこから新しい領域の研究へと踏み出していく可能性が出てきます。
誤解
二次データを使う上での誤解もあるようです。
まず,二次データを使う上で複雑で面倒なことが多くあるのではないかという点です。もちろん,どういった二次データを使うかにもよります。研究に使える変数に合成することができるかは最大の問題かもしれませんが,これもアイデア次第でしょうね。
もうひとつが,最初にも書いたような「自分で収集したデータよりも劣っているのではないか」という点です。この論文の中にも,「二次データを使うことは,個人でデータを集めることに取って代わるわけではありません」と書かれています。実験や他の調査,面接などと併用しながら,組み合わせて研究をすることが望ましいと言えます。
昔から心理学では「マルチメソッド(多方法)で研究をするのが望ましい」と言われているのですから,そのひとつに二次データ分析を入れてもよいのではないでしょうか。
短所
二次データ分析の短所としては,
◎変数の問題
◎測定の問題
があります。
研究者が望む変数がデータの中に含まれていない可能性がありますので,それをどうやって工夫するかという点が,研究者に課される課題であるように思います。個人的には,あれこれとアイデアを考えることができて面白いと思うのですけどね。
それから,調査時期や調査方法をコントロールできないという点は欠点かもしれません。でもこれも,研究者ができない調査をしてくれているとポジティブに考えることもできます。
ステップガイド
あとこの論文では,どのような手続きで二次データを使っていくかが解説されています。
ステップ1:研究に合った二次データを見つける……自分の研究テーマに合った二次データを見つけましょう。公開されているデータセットもありますので,うまく検索する必要があります。
ステップ2:自分のデータセットをつくりましょう……二次データセットには多数の変数が含まれていますので,変数を探索して自分の研究に必要な変数を選んで,分析できるデータセットに整形します。
ステップ3:必要な変数をつくりましょう……多くの二次データセットは,別の研究の目的のためにつくられたものですので,今回の研究に必要な変数がそのまま入っているとは限りません。ですので,必要な変数を合成します。たとえば,質問項目がバラバラと含まれているデータがあって,そこから因子分析などしてパーソナリティの尺度に合成していく,ということをする場合もあります。
ステップ4:統計的な分析を行う際の注意……たとえば欠損値をどう扱うかは注意が必要ですね。それから,だいたい二次データはサンプルサイズが大きいので,「統計的に有意かどうか」だけでものを言うのは避けた方が賢明です。効果量を考えましょう。
自分自身でデータを得ることも研究では必要ですが,せっかく公開されているデータセットがあるのなら,そこから研究を展開するというのもひとつの有効な方法です。「二次データは価値が低い」とは,少なくとも私自身は思いません。せっかくある重要な資源なので,うまく活用していきたいですね。
ここから先は
日々是好日・心理学ノート
【最初の月は無料です】毎日更新予定の有料記事を全て読むことができます。このマガジン購入者を対象に順次,過去の有料記事を読むことができるよう…
この記事が気に入ったらサポートをしてみませんか?