Meteyard＆ Davies (2020) Best practice guidance for LMEのレビュー

2021年10月27日 14:29

気になっていた以下の論文をざっと読んだのでまとめておく。

Meteyard, L., & Davies, R. A. (2020). Best practice guidance for linear mixed-effects models in psychological science. Journal of Memory and Language, 112, 104092.　https://doi.org/10.1016/j.jml.2020.104092

タイトルの通り，混合効果モデル (linear mixed-effects models; LMM) のベストな使用法に関する論文なのだが，大きくは（１）LMMの説明（特に変量効果に焦点を当てて），（２）LMMの使用における研究者へのアンケート調査，（３）論文におけるLMM使用のレヴュー，（４）LMMの使用法に関する提言の4つに分かれている。（２）と（３）はざっくり言えば，LMMの使用や報告方法についてはばらつきがあったり，共通理解が不足している部分が多いという（割と分かりきった）ことが述べられており，方法論研究を行いたい人にとっては有益な情報かもしれないが，単なるユーザー側にとってはへぇーという内容なのでここではまとめない。代わって，これまでも学んだことではあるが分かりやすくて改めて勉強になった（１）と，多くの人が興味があるであろう（４）をまとめたい。（１）についてはすでに知っている人は読み飛ばしてもよいだろう。

変量効果の意味

混合効果モデルは協力者および項目の変量効果の切片 (intercept）を含むことがほとんどだが，これはそもそも協力者によって刺激項目全体に対する反応速度が違うとか，項目によっても反応が速くなりやすい項目と遅くなりやすい項目（そのように意図していなくても）があり，そのばらつきを説明するためにモデルに含まれているものである。本論文ではこのようなばらつきをrandom differncesとかunexplained differnecesなどと呼んでいて，事例として命名課題の正答率の協力者ごとのばらつきがFig 1a, 1bで図示されていて非常に分かりやすい。

また，命名課題において複数の提示条件 (cue type) がある場合，その条件による影響の度合いも協力者で異なることも考えられる。このようなばらつきを説明するのが協力者の変量効果の傾き (slopes）であり，Fig 2a, 2b, 2cに図示されている（※もちろん項目の変量効果にも同様のことが言えるが，論文中では簡略化のために協力者の変量効果のみに説明を絞っている）。条件間の差の大部分が協力者のrandom differencesによって説明される場合，variance-covariance strutureを持つデータと呼ばれる（詳細は理解できていないが，この概念がLMMの解釈には重要となるようだ）。

さらに，変量効果の傾きが連続変数の場合 (項目の語長や頻度など)，傾きが変量効果の切片と相関するということも考えられ，それを示しているのがFig 4とFig 5である。Fig 4は協力者のinterceptと語長のslopeに正の相関がある場合を示しており，正答率の高い協力者ほど語長の効果が大きくなっている (steeper slopesである) 。Fig 5は協力者のinterceptと頻度のslopeが負の相関を示す場合で，正答率の高い協力者ほど頻度効果が小さい (shallower slopesである) ことを示している。

Best practice guidance

このセクションが実際の使用についてのガイダンスである（実際の論文ではここに至るまで非常に長い…）。以下，論文の項目ごとに要点をまとめていくが（一部統合したり省いたりしている），理解不足の点もあるため誤った記述や補足すべき点があればコメント欄からご指摘いただきたい。

Preparation for using LMMs

できるだけ多くの協力者，項目数でデータを収集することが重要である。特にランダム効果の構造が複雑な場合は，データ数の少なさは収束の問題 (convergence issues) を引き起こしやすい。また，ランダム効果の分散も確認しておくこと。ゼロに近い場合はほとんど説明に寄与していない。

Power Analysis for LMMs

LMMでは，たとえば特定の協力者が試行間で高い相関を示した場合，データの主要な説明要因は項目差や条件間の差ではなく協力者となる。このような場合，その協力者に対する試行数を増やしたとしても検定力は上がらない。これはつまり，LMMの検定力を考える上で変量効果の分散は非常に重要な情報となるということである。

LMMの検定力を高めるために一般的に言えることは，サンプリングユニット（協力者数と項目数）を多くするということである。サンプリングユニットはデータの分散に影響するため，この数が大きいほうが望ましい。

（注）「サンプリングユニット」は協力者数と項目数を指していることは論文に明記されているが，完全には理解できなかった。協力者数だけあるいは項目数だけを増やしてもダメで，協力者と項目の組み合わせから成る数を大きくするというように読めたのだが…。それと，論文中では具体的に推奨されるサンプリングユニット数などもいくつかの論文から引用して示されているが，実際にはパラメータ数などでも大きく変わる，検定力の話題についてはそれを中心に議論した論文（Kumle et al., 2021など) を参照したほうが良いと思う。

Assumptions for LMMs

LMMの前提として，残差と変量効果が正規分布しているということがある。これらをプロットで確認するのが最もシンプルな前提の確認方法である。

Selecting random effects

変量効果の選定方法はいわゆる前向き (minimal to maximal)，後ろ向き (maximal to minimal) があるが，どちらもまずは変量効果が決定された後に固定効果が追加されるものである。

後ろ向きの場合は実験デザインに応じて変量効果が選定されるが，この方法は仮説検定型の研究で推奨される。最大モデルの組み方はBarr et al. (2013) によると (1) 協力者あるいは項目の切片を入れる，（２）協力者内効果に対する傾きを入れる，（３）協力者内の交互作用に対する傾きを入れる，という手順にまとめられる。最大モデルからモデルを簡素化する方法は主成分分析（PCA）を使う方法など様々ある。

前向きの場合はモデルの適合度を向上させる変量効果を加えることになるが，切片から始まり，主要な効果（固定効果のこと？）に対応した傾き，切片と傾きの両方，主要な効果間の交互作用の順で検討していく。

どちらの方法をとるかは研究者自身に委ねられており，その選択に対するrationaleを述べることが重要である。

Model comparison and model selection / A pragmatic approach to life with multiple models / Model comparison

他の統計モデリングと同じく，モデル（のパラメータ）選択については使用した基準や根拠について明確に説明されるべきである。また，それは主にリサーチクエスチョンに基づくものでなくてはならない。

条件が統制された実験の場合は，予想される効果に基づいて固定効果が決定されていく。一方，よりシンプルな説明モデルの構築を目的とする場合は，実験デザイン上あり得る効果をすべて投入した後でモデルの当てはまりに影響を与えない効果を除外していく。このどちらを選択したのかは主にリサーチクエスチョンによって正当化される必要がある。

モデル比較はAICなどの情報規準とLRTによって行われる。LRTはモデルがネストしている場合のみ適用され，ネストしていない場合はAICなどの情報規準が使われる。LRTは，特定の効果の有無によってモデルがどう変わるか (models varying in the presence vs. absence of hypothesized effects) を比較する際に役立つことが多い。LRTが使われる際は，比較対象となる後続のモデルは固定効果あるいは変量効果が異なるモデルであり，その両方が異なるモデルであってはならない。

（もう１つ，モデル比較でLRTを繰り返すことで有意水準の調整が必要か，という話題が挙がっていたが，これについてははっきりとした回答は書かれていないように思えた）

Reporting model building

最終的なモデルに至るまでの過程は報告される必要がある。その報告例がAppnedix Table 5.1 (Example for reporting model comparison and the model building/selection process) である。また，このような追加情報は論文のSupplemetary materialsやAppnedixを利用して掲載することが可能であり，同様に分析のスクリプトやデータを提供するのも過程を明確にする方法の１つである。

Testing the significance of fixed effects

固定効果の有意性をどのように判断するか (p値の算出) は様々な方法があるが，本稿ではモデルをREMLによって推定し，SatterthwaiteもしくはKenward-Rogers approximate degrees of freedomを使って有意検定を行うことを推奨する。Luke (2016) によると，異なるサンプルサイズ間でこの方法が最も頑健な方法だったと報告されている。

また，NHSTからの脱却も踏まえれば，平均あるいはcoefficent estimates, 信頼区間を報告することも重要である。また，ベイズ統計の枠組みでのLMMを使用する研究者も増えており，このモデルではより複雑な構造のモデルで起こりやすい収束の問題を避けることができる。

Reporting

モデルの決定や選択過程を示すには，データ分析のスクリプトを提供することが最もシンプルである。このことで，ベストな使用法や報告についてのより建設的な議論にもつながる。

Bullet points for best practice

最後に，箇条書きで要点がまとめられていた (p. 20)。最初にこれだけ読んでもよく分からないものであるが，上記のまとめを踏まえて読むと多少は理解できるのではないだろうか。

・Plan to collect data for as many stimuli and as many participants as
possible.

・Complete power analysis prior to data collection. This will require
that you specify the model and consider plausible effect sizes.

• Acknowledge that the choices you make during analysis are considered,
justified and one path amongst many.

• During analysis, check that assumptions of LMMs have been met.

・If using LMMs to control for unexplained variance (e.g. when replacing
ANOVA), fit random effects first.

• Provide a clear rationale for selection of fixed effects and any model
comparison or model selection process.

• Appendix 5 provides example tables for concisely reporting model
comparison and model outputs (https://osf.io/bfq39/files/)

• Provide the model equation(s) for the final model or models to be
reported.

・If reporting p values, estimate the final model or models to be re
ported using REML and report Satterthwaite or Kenward-Rogers
approximate degrees of freedom for p values for fixed effect coefficients.

• Report point estimates, standard errors and confidence intervals for
the fixed effect coefficients.

• Report random effect variances from the final model in full.

• Whenever possible, share analysis code and data on publication.

この記事が気に入ったらサポートをしてみませんか？