【IMPS2023 参加レポート】 国際学会に参加して気になった研究のまとめ
この記事は【IMPS2023 参加レポート】 国際学会初心者が実際に足を運んで現場情報をお届けします!の、私が初めて参加した国際学会での経験と学びを詳しくお伝えする続きとなります。
IMPS2023で目にした数々の興味深い研究の中から、特に印象的だったものを選び、その内容と感想をテーマ別にまとめて共有させていただきます。この学会での経験が、今後の研究や学びの参考になれば幸いです。
テーマ1:計量心理学におけるログデータ活用
その中でも私が特に興味を持ち、深く学びたいと感じたテーマ「計量心理学におけるログデータ活用」に焦点を当て、Tomasz Zoltakさんの短期講義の内容と私の感想を共有したいと思います。
研究1:From Collecting Log-data to Analyzing Process Indicators with logLime R Package
説明
タイトルにある「ログデータ」は、Webアンケートシステムのログデータを指しています。Webアンケートシステムのログデータをデータマイニングすることで、最終的な回答結果を測定するだけでなく、特定の結果をもたらした前のステップやアクションという回答者の問題解決プロセスを分析することを目的にしています。
前半の形式は講義で、Tomasz Zoltak博士は「パラデータ」(Para-data)について説明しました。パラデータとは、データの収集方法に関する情報であり、さまざまな形式で存在する可能性があります。通常、応答時間、ハードウェアおよびソフトウェアの情報、タイピング速度、アクションシーケンス、マウスの移動、センサーの地理位置情報などが含まれます。
そして、彼は「ログデータ」(Log Data)について、パラデータはデータ収集の背景やコンテキストを提供するのに対し、ログデータはシステムの動作やユーザーの行動を詳細に記録すると説明しました。両者ともに、データ分析の際には前処理やクリーニングが必要となることが多いです。特に、大量のログデータやパラデータが生成される場合、そこから関連性のある情報を抽出するための処理が必要となります。それは「プロセス指標」(Process Indicators)です。
特にオンラインシステムの無制御環境では、さまざまな設定、デバイス、干渉、およびマルチタスク処理などの要因が存在します。これにより、同じデータ形式でも異なる方法で解釈や処理される可能性があります。また、回答者が使っていたブラウザウィンドウのサイズが通常異なりますので、スクロール補正をする必要もあります。
その後、Tomasz Zoltak博士はパラデータに関する先行研究の制約について説明し、自分で開発した『logLime』というパッケージがログデータの収集、前処理、および最も一般的なプロセス指標の計算までの完全なプロセスをカバーできることを言いました。
後半の講義は実際の分析を実践して、主にR言語でのパッケージの使い方について説明しました。このパッケージは、ログデータの類型を区別し、異常なデータをクリーニングし、カーソルのスクリーン座標系を修正することができます。
最後に、ヒートマップやGIFを使用してアンケート調査の結果の生成過程を表示します。これにより、回答者がアンケートに回答する際にマウスをどのように移動したか、カーソルが画面のどこにどれだけ滞在したか、最終的な回答を提出するまでに何回修正したかなど、視覚的にデータを解析する方法は、非常に直感的でわかりやすいと感じました。
所感
実際にこのログデータから何を分析することができるのかが気になったので、自分でログデータマイニングに関連する論文を検索してみたところ、教育ビッグデータの文脈におけるログデータマイニングとその応用
--中国におけるPISA(2012年)問題解決テストの事例研究という論文では、2012年のPISAの中国地域の「交通」という質問回答に関するログデータ(回答時間、マウスクリック数、マウスの移動範囲など)を使って、学生の行動パターンを分析し、戦略的習得と非習得のレベルが異なるグループを特定し、地域間の学生問題解決パターンの相違点の把握と比較をしました。
この短期講義を通じて、ログデータは大量に保存しながら実用に至っていないケースも多いと思いますが、実は非常に価値のある情報源であることを改めて認識しました。今後、私自身の研究や業務においても、このようなデータを活用して新しい知見を得ることができるのではないかと期待しています。
テーマ2:計量心理学と機械学習の融合
心理統計学の研究分野には、古典的テスト理論・項目反応理論に代表される心理測定手法や、実験や行動データに基づいた数理モデル以外に、機械学習などの技術も取り入れられてきています。
特に、近年では大量のデータを扱うことが一般的となり、その中でのパターンの発見や予測の精度を高めるための技術として、機械学習手法が注目されています。機械学習は、データから自動的にルールやパターンを学習する技術として、心理統計学の研究においても個人の心理的特性や行動の予測、異常検知、クラスタリングなどの多岐にわたるタスクでの応用が進められています。
今回のIMPS2023も機械学習セッションが設置されて、その中からいくつか面白い研究を紹介します。
研究2:Integrating Psychometric Analysis and Machine Learning to Augment Data for Cheating Detection in Large-Scale Assessment
この研究では、大規模評価データを使って、心理測定分析と機械学習手法によるデータ拡張をして、カンニング行為検出用のモデルを構築しました。バリバリに機械学習を使った心理測定研究ですね。
大まかに言えば、次のような内容です:
概要
説明
使用したデータは、カンニングの可能性が高い大規模な免許試験のデータです。テスト用紙は170個の正誤データで構成されています。1636人の受験者のうち、46人がカンニングの可能性があると判定されました。データセットは、項目回答、回答時間、合計項目回答時間、テスト受験の試行回数で構成されて、合計342の変数が提供されました。SMOTEとRandomUndersamplingでカンニングと非カンニングのクラスの不均衡問題を解決しました。
データ補強に四つの方法を使いました。それぞれ要約統計量に基づく拡張、異常検出に基づく拡張、パーソンフィット測定に基づく拡張、スタッキングアンサンブルに基づく拡張です。
要約統計量に基づく拡張は、テスト総得点、170項目にわたる平均値、中央値、最小値、最大値、項目応答時間などを使用特徴量に追加しました。
異常検出に基づく拡張は、Isolation Forest、Elliptic Envelope、One-Class SVM、Local Outlier Filterなどの異常検出アルゴリズムから出力された外れ値フラグを使用特徴量に追加しました。
パーソンフィット測定に基づく拡張は、テストやアンケートに対する異常な反応を検出することを目的とした一連の指標をRのパッケージPerfitとsirtによって算出して、使用特徴量に追加しました。ちなみに、今回「心理測定なんて誰が気にするだろうか?」を講演したKlaas Sijtsma教授が、ここでのパーソンフィット尺度の$${H^{T}}$$統計量(ある回答ベクトルと残りの人物の回答ベクトルとの類似性を定量化するための相関指標)を開発しました。
パーソンフィット尺度とは、観察された反応パターンが検査モデルから導かれた期待反応パターンと一致するかどうかをチェックすることです。例えば、ある受験者が、より難しい項目には正答したが、より簡単な項目には正答できなかった場合、その回答パターンは「予想外」、「異常」、「誤答」であると考えられます。
それで合計29のパーソンフィット尺度が計算されて、カット値を設定して不適合者と判定された受験者に対してフラグを立てて、ベースモデル開発のための特徴に加えました。
スタッキングアンサンブルに基づく拡張は、フィルター法、ラッパー法、埋め込み法などの特徴選択法によって、モデル性能と解釈可能性に影響するノイズや重要でない冗長な特徴量を削減しました。
最初にベースモデル開発をするために、決定木、ナイーブベイズ、ニューラルネットワーク、判別分析、ロジスティック回帰、サポートベクトルマシンとランダム・フォレストと勾配ブースティングを選びました。8つのベースモデルは、項目応答(170個)、項目応答時間(170個)、および要約統計量(7個)、パーソン・フィット尺度(29個)、および異常検出手法(4個)に基づく拡張特徴(合計380個)を使用しました。
ベースモデル開発に使用された特徴量のうち、上位の効果的な特徴量がメタモデル開発のための拡張特徴量として選択されました。重複する特徴を除去した結果、55個のユニークな特徴が残りました。55の有効な特徴量のうち、2つのパーソン・フィット尺度、1つの異常検出尺度、5つの総テスト得点と応答時間の要約統計量、 20の項目応答時間変数、27の項目応答変数がありました。
異なる特徴選択手法から選択された最も効果的な特徴量を集めて、ベースモデルから選択された55個の特徴量と各ベースモデルから出力、合計63個の特徴量がメタモデル開発に用いられました。ロジスティック回帰には改善が見られた。本研究で開発されたランダムフォレスト、勾配ブースティング、判別分析のメタ・モデルは、同じデータセットを使用した他の研究と比較して最も良い結果を示しました。
所感
個人的な感想ですが、この論文の最も優れた点は、データ拡張手法と精度向上のための様々な機械学習手法を非常に幅広く使用していることです。この論文を読むと、まるで体系的な機械学習の事例研究を見ているような印象を受けました。機械学習モデルに心理統計学で計算されたパーソンフィット尺度を特徴量として入れるのも面白いです。
研究3:Mixed effects in machine learning – A flexible mixedML framework to add random effects to supervised machine learning regression
概要
大まかに言えば、この論文は次のような内容です:
説明
クラスター化されたデータは、実は伝統的な心理統計学、社会科学、経済学、医学だけでなく、違う都市の天気予報や異なる地域の住宅価格などの機械学習問題でもよく考慮されています。この場合、データはいくつかのクラスターに分かれており、同じクラスター内のデータは関連性を持っています。このようなデータを扱う際に、同じクラスター内のデータは独立でないため、通常の統計的仮定が成り立ちません。推定の誤りや誤った結論を引き起こすことがあります。
こうした問題を解決するための一般的なアプローチは、ランダム効果をモデルに入れることです。そういうクラスターデータの具体的な説明と、社会心理学や社会学、経済学でよく使われているマルチレベルモデルは、以前のブログ記事を参照することができます。
この研究では、混合効果機械学習フレームワーク(mixedML)を紹介しました。これは既存な機械学習と混合効果モデリングを組み合わせたモデルです。教師あり回帰モデルやディープラーニングモデルに直接適用することができ、クラスターデータに対する予測力を高めることができます。そして、この研究は一つのフレームワークに手法を統一し、そのフレームワークの中で新しい推定手法を追加するとともに、機械学習手法の選択も柔軟にできます。
混合効果機械学習フレームワーク(mixedML)の詳しい中身は論文をゆっくり見て欲しいです。このフレームワークの有用性を実際のデータでテストするために、Snijders & Bosker (2011)の教科書で紹介されているデータセットを使用しました。データセットには、211個の異なる学校にグループ分けされた3758人の生徒の言語テストの結果が含まれています。生徒レベル(レベル1)では、生徒のIQと社会経済的地位(SES)を使用します。学校レベル(レベル2)では、学校平均IQ(sIQ)と学校平均SES(sSES)を用います。
このモデルのパラメータ推定値をSnijders & Bosker (2011)の結果と比較して上の表6に示しました。この研究で使われたREML推定法は、実データに対しても、伝統的な手法と一致していると結論づけられます。結構強力な機械学習モデルと言えます。
所感
このモデルをどう適用するかと言えば、今のAISCの全国賃料予測ツールは、各都道府県のデータごとに教師あり機械学習モデルを訓練しています。なぜなら、 都道府県ごとの平均家賃相場も異なるですから。もし各都道府県の平均家賃相場をランダム効果と見なし、mixedMLによって全国賃料予測機械学習モデルが一つのモデルにまとめられるかという発想がありました。
テーマ3:項目反応理論のモデルをツリー構造に
IRTree(Item Response Tree)は、心理学や教育学の分野でよく用いられる項目反応理論(IRT)を基盤としたモデルの一つです。このモデルは、項目応答にたどり着くまでの被験者の反応プロセスを詳細に分析するために開発されました。
今回の学会では、いくかのIRTreeのモデルや、実際のデータに適用した結果などの研究発表が行われました。これらの発表を通じて、IRTreeの有用性やその応用の幅が広がっていることが確認されました。
また、IMPS2023には掲載されていないものの、IRTreeに関する基本的な概念やモデルの詳細、IRTreeモデルを推定できるパッケージなどをわかりやすく説明した文献を検索しました。以下で紹介します。
IRTreeの概要:A generalized item response tree model for psychological assessments
普通の項目反応理論 (IRT) モデルは、心理評価および行動評価におけるカテゴリ別項目反応を分析するために広く使用されている心理統計手法です。数学的には、特定の応答項目が選択される確率は、その人の潜在的な特性を説明できます。
この研究では、結果だけでなく内部の認知的または心理的意思決定プロセスにも焦点を当てた新しい IRT モデルに関心があります。このモデルは、サブツリーとそれに対応する内部ノードと分岐で構成されるツリー構造を使用して、仮定された内部意思決定プロセスを記述することができます。木は葉に達するまで枝を分岐し続けます。葉は、観察されたカテゴリ項目の応答を表す終端ノードです。このモデルは、ツリー構造を利用しているため、項目反応ツリーモデル(IRTree)と呼ばれます。
以下の図は、よくあるIRTreeの構造です。
ツリー (a) は、カテゴリ 1 から 4 までの順序での応答の連続選択を表します。「まったく悲しくない」、「少し悲しい」、「ほとんど悲しい」、「完全に悲しい」などの選択肢を含む単極スケールのために使用できます。
ツリー (b) は、2 つの隣接するカテゴリのグループが最初に選択される 2 段階の選択プロセスを示しています。 そして、隣接するカテゴリのペア内で最終的な回答が選択されます。「完全に悲しい」、「やや悲しい」、「やや楽しい」、「完全に楽しい」のようなオプションを持つ双極スケールを記述するために使用されます。
ツリー (c) では、カテゴリ 1 の選択は他の 3 つのカテゴリ (2、3、および 4) とは定性的に区別されており、カテゴリ 1 を選択しない場合はフォローアップの決定が必要です。例えば、カテゴリ 1 は「悲しくも楽しくもない」、「おそらく」、「わからない」、「未定」、「?」などの中間応答、カテゴリ 2 ~ 4 は通常の応答カテゴリを表します。
ツリー (d) では、カテゴリ 1 と 2 は質的に異なる 2 つのオプションであり、カテゴリ 3 と 4 とも区別されます。3 と 4 の間の選択には 2 番目の決定が含まれます。
項目反応ツリーは、項目応答カテゴリの独特の特徴を説明するために利用することもできます。
そして、項目反応ツリーは欠損データに対して扱うこともできます。欠損データは心理評価や行動評価においてよく発生しています。一般的な欠損データ処理方法には削除法と代入法があり、代入法でも少なくともランダム欠落(MCAR、MAR)が必要です。項目応答ツリーのアプローチは、欠損データメカニズムをモデル化するのに便利なツールです。
この論文ではRのパッケージflirtを紹介しましたが、他にもirtrees、mirtのパッケージを使用することができます。
これからはIMPS2023で実際にIRTreeに関連している二つのポスター発表研究です:
研究4:Investigating Pre-knowledge and Speed Effects in an IRTree Modeling Framework(Hakyecong Kim, Justin L.kern)
概要
研究5:Empirical comparisons among models in detecting extreme response style(Jianhung Huang, Hui-Fang Chen)
概要
説明
この学会の多くの発表者は、反応スタイル(Response Style)によって正確な評価が脅かされる可能性があると言及しました。反応スタイルには極端なカテゴリを好むタイプ(ERS)と中間のカテゴリを好むタイプ(MRS)があり、これらが個人の回答に影響を与えることが報告されています。
ERS とは、参加者が声明への同意を 0 (まったく同意しない) から 4 (非常に同意する) までの 5 段階評価で評価するときに、評価カテゴリー 0 と 4 などの 2 つの極端なエンドポイントを使用する傾向を指します。MRS の回答者は、2 つの「反対の極端な」カテゴリを避け、すべての項目にわたって一貫して中間範囲の回答カテゴリ (1、2、3 など) を選択する傾向があります。
ここでのUD treeは、IRTreeの一種です。
UD treeの構造は、まずステップ1では、発言に対する否定的、中立的、肯定的な態度を決定するのに対し、ステップ2では、より極端な回答、より極端でない回答、中立的な回答があります。回答者は、ステップ1で賛成でも反対でもないことを選択するか、ステップ2で賛成か反対かを強調しないかの2つのルートで、中間のカテゴリーを選択することができます。このツリー状のアプローチは、ステップ1から測定された潜在能力とステップ2から得られた回答スタイルを同時に推定することができます。
テーマ4:regdifパッケージで複数の DIF 共変量を処理
実は、口頭発表やポスター発表以外にも、スポンサー展示エリアでも論文を手に入れることができます。
今回私はcoffee break areaでduolingoの企業ブースに行って、そこの担当者はシールやペン、そしてある印刷された論文をくれました。その論文を書いた方は急な事態で来られなかったが、企業ブースに論文を配布していました。
研究6:The regDIF R Package: Evaluating Complex Sources of Measurement Bias Using Regularized Differential Item Functioning
概要
実は大まかに言えば、この論文は次のような内容です:
最後に
以上は私が学会に参加し、その中で特に興味を引かれた研究を選び、まとめてみました。この記事を通じて、私が学会で得た知識や感想を少しでも皆様と共有できたら嬉しいです。もしこれらの研究に関する理解に誤りがあれば、教えていただけると幸いです。
また、これを読んで興味を持たれた方が、さらに深く研究テーマに触れてみたいと思うきっかけになれば嬉しいです。
参考文献
首新, 叶萌, 胡卫平. 教育大数据背景下log数据挖掘与应用: 以PISA (2012) 中国区问题解决测验为例[J].电化教育研究, 2017, 38 (12) :58-64.
Jiao, H., Yadav, C., & Li, G. (2023, May 2). Integrating Psychometric Analysis and Machine Learning to Augment Data for Cheating Detection in Large-Scale Assessment. https://doi.org/10.31234/osf.io/fjz2c
Tendeiro, J. N., Meijer, R. R., & Niessen, A. S. M. (2016). PerFit: An R Package for Person-Fit Analysis in IRT. Journal of Statistical Software, 74(5), 1–27. https://doi.org/10.18637/jss.v074.i05
Pascal, K., Sangbeak, Y., Augustin, K. (2022, Dec 18). Mixed effects in machine learning – A flexible mixedML framework to add random effects to supervised machine learning regression. https://openreview.net/forum?id=MKZyHtmfwH&nesting=2&sort=date-desc
Jeon, M., De Boeck, P. A generalized item response tree model for psychological assessments. Behav Res 48, 1070–1085 (2016). https://doi.org/10.3758/s13428-015-0631-y
William C. M. Belzak (2023) The regDIF R Package: Evaluating Complex Sources of Measurement Bias Using Regularized Differential Item Functioning, Structural Equation Modeling: A Multidisciplinary Journal, DOI: 10.1080/10705511.2023.2170235
この記事が気に入ったらサポートをしてみませんか?