見出し画像

【解説】統計検定 2019年準1級 問6

問題本文

問題本文は公式サイト又は公式問題集を参照してください。



問題解説(1)

【問題要約】
説明変数{x1, ..., x8}について主成分分析を行った。この時、累積寄与率が80%以上になるのは第何主成分か答えよ。

【回答】
第5主成分

【解説】
主成分分析はn個の説明変数をそれぞれ直交する形で配置し、n次元のデータ空間を作成する。その後、分散が最も大きい軸を第1主成分、第1主成分に直交する中で最も分散が大きい軸を第2主成分...と置き換える操作を指します。

寄与率とは主成分の分散の度合いを表しており、分散が大きいほど寄与率も高くなります。また、寄与率の大きさは、必ず第1主成分 > 第2主成分 > ... > 第n主成分となり、合計は1になります。

本問の主成分と寄与率を表したものが以下の表になります。

スクリーンショット 2021-06-10 23.22.37

ここから、累積寄与率が80%以上になるのは第5主成分であることが分かります。



問題解説(2)

【問題要約】
第1主成分と第2主成分のみを抜き出したグラフがどれかを答えよ。

【回答】
グラフ①

【解説】
ここではグラフを掲載しませんが、x4の値に注目すると、第1主成分では-0.593, 第2主成分では-0.014になります。x4の値が横軸(第1主成分)で-0.5よりも左に位置するのはグラフ①だけになります。

よって、正しいグラフは①となります。



問題解説(3)

【問題要約】
モデルの選定を行うため、各モデルのAICを計算した。主成分分析で変換した変数を{z1, z2, ..., z8}と表した時、予測の観点から最適なモデルはどれかを答えよ。尚、各モデルとAICの結果は以下の通りであった。

Model1(AIC: 506.8): y ~ z1
Model2(AIC: 507.9): y ~ z1 + z2
Model3(AIC: 506.7): y ~ z1 + z2 + z3
Model4(AIC: 504.6): y ~ z1 + z2 + z3 + z4
Model5(AIC: 505.6): y ~ z1 + z2 + z3 + z4 + z5
Model6(AIC: 506.7): y ~ z1 + z2 + z3 + z4 + z5 + z6
Model7(AIC: 508.8): y ~ z1 + z2 + z3 + z4 + z5 + z6 + z7
Model8(AIC: 510.3): y ~ z1 + z2 + z3 + z4 + z5 + z6 + z7 + z8

【回答】
Model4

【解説】
最適なモデルとは、『被説明変数を正確に説明できる』且つ『より少ない説明変数で表現できる』モデルを指します。

AICの詳細な説明は省きますが、被説明変数を正確に説明できるモデルほど値が小さくなり、説明変数が増えるほど値が大きくなります。そのため、AICが最も小さいモデルが最適なモデルと判断できます。

よって、AICの値が最も小さいModel4が最適なモデルとなります。



問題解説(4)

【問題要約】
主成分分析の説明として正しいものを答えよ。

【回答】
解説参照

【解説】
選択肢①
主成分分析の前処理としてデータを標準化することが不可欠である。

不正解
データの単位を無視したい場合等は標準化することが望ましいが、不可欠ではない。標準化しない場合は共分散行列で対応する。


選択肢②
相関行列に対応する主成分分析では、各主成分の固有ベクトルはその主成分と元の説明変数の相関係数と一致する。

正解


選択肢③
AICを用いて比較できるのはモデルのパラメータ集合間に包含関係がある場合に限る

不正解
ステップワイズ法を用いる場合は包含関係が必須となるが、AICはその限りではない。


選択肢④
AICは一般的にモデル同定の一致性を持つ

不正解
モデル同定の一致性とは「サンプルサイズが大きくなるに従い同じモデルを選択する確率が1に収束する確率」のことらしいです。
AICはサンプルサイズを計算に加味していないため、サンプルサイズが増えると罰則項の役割が相対的に弱まる性質があります。そのため、モデル同定の一致性を持ちません。
これに対してBICはサンプルサイズを計算に取り入れているため、サンプルサイズが増えるに従い、一意の結果を返すようになります。


選択肢⑤
AICによるモデル選択は、交差検証法に比べて計算量が大きくなる

不正解
交差検証法は計算量が多く、特にLOOCVと呼ばれる手法は計算量が尋常ではないため、AICによるモデル選択が計算量で上回ることはないです。


この記事が気に入ったらサポートをしてみませんか?