見出し画像

[PSPP]因子分析①直交回転

ここでは、多くの情報をまとめるための分析を取り扱います。そのひとつは因子分析です。因子分析では、調査によって観測された変数(これを観測変数と言います)から、その背後にあって、観測変数に影響を与えている潜在的な構成概念を探ります。この潜在的な構成概念を因子と呼びます。

もうひとつは主成分分析です。主成分分析では、いくつかの観測変数が持っている情報を集約して合成変数を作り出します。こうして作り出された合成変数を主成分と呼びます。

どちらもたくさんの情報をまとめる要素をつくり出すのですが、その考え方の方向がちょうど逆になっています。


因子分析

観測変数の背後にあって、影響を与えている潜在的な構成概念である因子を探すのが因子分析だと、先ほど述べましたが、もう少し分かりやすく説明してみましょう。

たとえば、国語・算数・理科・社会という四つの科目があったとします。概ね国語ができる子どもは社会もできるし、算数ができる子どもは理科もできる傾向があります。また、国語と社会、算数と理科ほど結びつきは強くはないかもしれませんが、国語的な力は算数や理科の問題を解く上でも必要でしょうし、算数や理科に見られるような論理的側面も国語や社会には必要でしょう。そうすると、国語・社会には強く影響するけれども、算数・理科には少ししか影響しない能力、算数・理科には強く影響するけれども、国語・社会には少ししか影響しない能力というものが想定されます。仮に前者を文系的能力、後者を理系的能力としましょう。

また、算数では例えば立体図形の問題などでは空間認識の力があるかどうかというのが影響しますが、これは恐らく他の3科目にはほとんど影響しないでしょう。

この文系的能力と理系的能力、空間認識の力は、科目テストでは直接は観測されません。これが因子です。

これらのうち、文系的能力と理系的能力は、影響の強弱はありますが、どの科目にも影響を与えます。このような因子を共通因子と言い、空間認識の力のように算数だけに影響し、他には影響しないような因子を独立因子と言います。

因子分析で因子という場合、一般的には共通因子のことです。独立因子は誤差として扱われ、分析の表には出てきません。


直交回転

生活習慣について約5000名を対象に調査した結果があります。これを元にして因子分析を行い、3つの因子を見出すということをやってみましょう。

生活習慣の質問は、A1からA12まであり、それぞれが1つの変数になっていて、1~4の数字が入っています。1が「あてはまらない」、2が「あまりあてはまらない」、3が「ややあてはまる」、4が「あてはまる」です。

A1からA12の質問は、以下の通りになっています。

A1 :自分は毎日、決まった時間に起きる。
A2 :毎日、決まった時間に寝る。
A3 :家での勉強時間は、一週間の中でパターンが決まっている。
A4 :学校に持って行くものを、前日の夜に確かめている。
A5 :自分は、人付き合いはいい方だと思っている。
A6 :みんなと楽しく過ごす方が好きだ。
A7 :初めてあった人でも気軽に話すことができる。
A8 :クラブや同じ趣味の仲間など、いくつもの“友だちグループ”に属している。
A9 :美術館・博物館・科学館などに行くことがある。
A10:自分が読みたい本を探しに、図書館や書店などによく行く。
A11:身近な自然や生き物を見て、自分なりの発見をしたりするとうれしい。
A12:テレビで、ニュースやドキュメンタリーを見る。

では、以下で具体的に手順を見ていきましょう。

・[分析]→[因子分析]を選択。
・[変数]に対象の変数、この場合は「A1」から「A12」を指定します。

つぎに[因子抽出]と[回転]を設定します。
・[因子抽出]で以下の設定をする。
・[解法]は[主因子法]を選択。
・[分析]は[相関行列]にチェック。
・[表示]は、[回転のない因子]と[スクリープロット]の両方にチェック。
・[抽出]では、[固有値の平均の]で数値を指定(通常は1を入れておけばいい)するか、求めたい因子数が決まっている場合は[抽出する因子]で数を指定する。今回は、後者で「3」を入力する。
・[収束のための最大反復回数]は「25」くらいであれば問題ない。
・[続く]をクリック。

・[回転]で以下の設定をする。
・[方法]で[バリマックス]にチェック。
・[表示]で[回転後の解]にチェック。
・[収束のための最大反復回数]は「25」くらいであれば問題ない。
・[続く]をクリック。

・[因子分析]の画面で[貼り付け]をクリックして、シンタックスエディタを立ち上げる。
・「/FORMAT=SORT」を途中に追加。
・「/PRINT」の最後に「CORRELATION SIG」を追加。
・[実行]→[すべて]を選択。


出力の見方

最初に出力されたのは「相関行列」。

実は[分析]で[相関行列]にチェックをつけても、シンタックスに反映されないバグがあるようなので、シンタックスエディタ上で、「CORRELATION SIG」を追加したのです。

変数間の相関係数と相関係数の有意水準が出力されているので確認する。この例では、上中下でグループ化されそうなイメージが見て取れる。

「共通性」は共通因子で説明される程度を表している。今回はバリマックス回転を行っているので、「抽出の基準」を見る(SPSSでの「因子抽出後」に相当する)。

共通性は通常は最大が1で、1から共通性を引いた値が独立性になる。

「初期固有値」は、因子数が1から変数の数まで出力される。「合計」の値が1以上あれば、少なくとも1つの観測値がその影響を受けているということになる。

「合計」の値の差が大きくなっているところが因子数を決める目安になる。

「回転後の負荷率の平方和」に記載されているのは因子寄与で、因子分析の結果を表に記載する場合は「合計」の値と「累積%」(累積寄与率)を記入します。

「スクリープロット」は共通性をプロットして表したものです。この場合、2と3、3と4の間に大きな差があるので、2因子構造の方がいいかもしれませんが、3因子構造でもそれほど問題はないのではないかと思われます。

最後に、「因子行列」と「回転後の因子行列」があります。

これは因子負荷量を示しています。シンタックスで「/FORMAT=SORT」を追加したので、負荷量が高い順に並び替えがされています。

「因子行列」は初期の因子負荷量で、言ってみればとりあえずの数値です。よって、これを使って因子を解釈することはできません。

直交回転の因子分析では、「回転後の因子行列」を見ます。

概ね0.3~0.4を基準にして因子を解釈します。

この場合、因子ごとに負荷量が基準以上のものを見ていくと、第1因子はA7・A8・A5、第2因子はA11・A9・A10・A12、第3因子はA1・A4・A2・A3となります。

質問の内容から、第1因子は「社交性」、第2因子は「知的体験」、第3因子は「規則性」と解釈することができるでしょう。

分析では、これでかまいませんが、質問紙作成の事前調査であるような場合、各因子の質問数が異なると都合が悪いことがあります。そうした場合は、第2因子をA11・A9・A10、第3因子をA1・A4・A2として、各因子が3問になるように、質問紙を作成することになります(詳細は信頼性のところで説明)。

分析結果を表にまとめると、例えば次のようになります。


直交回転をするということ

PSPPが標準で備えている回転は、バリマックス、クォーティマックス、エカマックスの3つです。これはいずれも直交回転です。バリマックスは(varimax)で、分散(variance)を最大化(max)にして、因子ごとに因子負荷のばらつきを大きくするという意味を持っています。クォーティマックスは各項目で因子負荷の絶対値が大きなものと 0に近いのものが多くなるように回転させます。エカマックスは各因子の寄与ができるだけ等しくなるように回転させます。そのため、クォーティマックスは偏りが大きく、エカマックスは偏りが小さくなる傾向があります。

これらの直交回転は、縦軸と横軸を、直角を保ったまま、原点を中心にして回転させることで測定値と因子が合致するようにします。

そして、これら直交回転は、因子間に相関がない(これを因子の直交性と言います)ことを仮定して因子を求めます。そうして求めた因子を直交解と言います。因子間に相関が仮定される場合には、斜交回転を用います。

そのため、斜交回転を優先し、相関がないことを確かめてから直交回転を行うべきであるという意見もあります。

この記事が気に入ったらサポートをしてみませんか?