主成分分析/クラスター分析を用いた世界の幸福度分析 ~Part 2 主成分分析による外れ値探索
増川 直裕
Part 1ではOECD加盟国(トルコを除く)を対象とし、主成分分析の負荷量プロットやスコアプロットから、各国の幸福度に寄与する要因との関連性や、寄与する要因間の関連性、各国間の関連性などについて調べました。
今回のPart 2では、主成分分析の結果をさらに考察し、他の国とは異なる幸福感を持っている国はどこなのか? 異なる幸福感の要因となるものは何か?について調べてみます。
その際にJMPの主成分分析では、データ(サンプル)の外れ値を見つけ、なぜそのデータが外れているのかを分かりやすく解釈できる機能があるので、これを活用してみます。
■他の国々と異なる幸福状態を示す国は?
Part 1で紹介しましたが、再度、今回の幸福度分析に関するスコアプロットを再掲します。このスコアプロットには、JMPのオプションを用い”スコアプロットに対する90%確率楕円” を追加しています。
スコアプロットでは、各国に対する第1主成分(横軸)のスコア、第2主成分(縦軸)のスコアがプロットされていますが、この楕円の外に位置する点がいくつかあります。
たとえば、日本(Japan)を含め、韓国(South Korea)、メキシコ(Mexico)が楕円の外側に位置しています。
(※ギリシャ(Greece)もギリギリ楕円の外に位置しますが、ここでは無視します。)
主成分分析のスコアプロットは、多変量の量的データに対し、多変量空間における外れ値を調べる用途で使われることがあります。スコアプロット自体はいわゆる散布図ですので、点のプロットを見ながら視覚的に考察できる利点があります。
この例で外れ値となった3つの国は、他の国々と比較して幸福に寄与する要因が異なると考えられます。では、どの要因が大きく寄与して外れ値になったのでしょうか?
Part 1で示したバイプロット(スコアプロットと負荷量プロットを重ねあわせたプロット)で、国と項目間の関連性が見てとれるときは、ある国の近くにある幸福要因の項目を調べることにより検討がつくことはありますが、明確に分からないことも多々あります。
このようなときに、JMPでは主成分分析のオプションとして搭載している「外れ値分析」を使うことをお勧めします。
■JMPの強力機能:主成分分析における「外れ値分析」
JMPでは、主成分分析のレポート左上にある赤い三角ボタンをクリックし、[外れ値分析]のオプションを選択すると、次のようなレポート(グラフ)が表示されます。
※上記の図はデフォルトの出力に対し、主成分の数を”2” に、有意水準を0.1に変更し、最初に示した”スコアプロットの90%確率楕円”に合わせています。
グラフの横軸はデータテーブルでのデータ(サンプル)の並び順になりますが、この例では左側が全体的な幸福度が高い国を、右側が低い国を示しています。
縦軸のT2(「T」に上付きで「2」)は、外れ値を示す指標だと考えてください。この値が大きくなるほど外れていることを示し、X軸に対して平行に引かれている赤い線(UCL = 4.44)がしきい値になります。先ほどのスコアプロットの確率楕円と同様に、メキシコ、日本、韓国が外れ値になっていることがわかります。
ではなぜ、この3つの国は外れ値となったのでしょうか。ここからがJMPを使う醍醐味です。グラフ上でこの3つのプロット点を選択し、「選択した行の寄与率プロット」というオプションを実行すると、選択した行(国)ごとに棒グラフが表示されます。
表示される「T2(「T」に上付きで「2」) 寄与率プロット」は、外れ値分析で表示されたグラフの縦軸の値に、各幸福の項目がどれぐらい寄与しているかを示したものです。値が大きい(棒が長い)ほど、その項目が大きく影響している、つまり外れていことの大きな原因になっていることが言えるのです。
それぞれの国に対するプロットを見てみましょう。
メキシコの寄与率プロット
健康寿命が最も大きく寄与しており、その次にGDPが寄与しています。
韓国の寄与率プロット
社会支援の充実度、健康寿命が大きく寄与しており、残差(6つの項目では説明できない幸福度)も寄与しています。
日本の寄与率プロット
健康寿命が大きく寄与しています。併せて残差も大きく寄与しています。
いかがでしょうか。これら外れ値の3つの国間でみると、それぞれ寄与している要因が一緒ではないことがわかります。
■パラレルプロットと併せて解釈する
寄与率プロットで、どの項目が寄与しているかを調べられると述べましたが、寄与率だけではその項目がポジティブに寄与しているのか、ネガティブに寄与しているかはわかりません。
例えば、3つの国では共通して健康寿命が大きく寄与していることが分かりましたが、健康寿命が他の国より高すぎる(ポジティブ)ことが寄与しているのか、または他の国より低すぎる(ネガティブ)ことが寄与しているかは示していないのです。
バイプロットも併せてみると、その項目がポジティブなのかネガティブなのかを知るのに参考になりますが、JMPのグラフビルダーを使って、次のようなパラレルプロットを描くのも良いでしょう。
パラレルプロットは、各国における項目の値を折れ線で結んだものです。これにより、各項目の値の相対的な大きさを比較できます。
外れ値となった3つの国は太い色付きの折れ線で示しましたが、三者三様(三国三様?)といった感じですね。
日本(赤色の折れ線): 健康寿命が他の国に対してダントツで高くなっています。また、他者への寛容性(Generosity)はかなり低いですが、他にも低い国かいくつかあるため、健康寿命ほど寄与率が高くなっていません。
韓国(水色の折れ線): 健康寿命は高く、社会支援の充実度は低いことで、これらの寄与率は高いことがわかります。同じアジアでも、韓国は社会支援の充実度が低いと感じていることを初めて知りました。
メキシコ(黄緑色の折れ線): 健康寿命が低く、GDPが低いことが大きく寄与しています。
※注意: 主成分分析の外れ値分析の寄与率は、多次元のデータを2次元に縮約したものなので、2つの成分の累積寄与率が低い場合は、上記のような外れ値分析の寄与度とパラレルプロットの解釈が一致するとは限りません。
ここまで深く分析すると、国ごとの興味深い傾向を読み取ることができますね。
次回のPart 3ではクラスター分析を使って、幸福の要因が似ている国、違う国を分類し、主成分分析のレポートと併せて解釈してみます。
■無料セミナーご案内
本記事のテーマを無料オンラインセミナーでご紹介!満席になる可能性もあるため、お申込は以下よりお早めに!
JMPをマスターしよう 主成分分析/クラスター分析編 | JMP
10月4日(火)、 12日(水)15:00~16:30
■JMPトライアル版
https://www.jmp.com/ja_jp/download-jmp-free-trial.html
この記事が気に入ったらサポートをしてみませんか?