【インサイトコラム】多変量解析の実務的問題と対応策

2020年2月19日 13:09

マーケティングリサーチにおいて多変量解析は非常によく利用されますが、その処理に関して困難に直面することもしばしばあります。そのような時、どのように対処されていますでしょうか？多変量解析を行わないことも選択肢の一つですが、既に提案してしまっているので、そのような訳にはいかない、というケースがほとんどでしょう。ここでは、多変量解析の実務で出番の多い因子分析とクラスター分析の方法、その際によく遭遇する問題について、概説します。

因子分析＆クラスター分析での問題

多変量解析で最も多く用いられるものは因子分析とクラスター分析の組み合わせと言っても過言ではないでしょう。件数法で聴取した意識・態度データに対して（例：「仕事の成果としてポジションは重要である」に「非常にそう思う」～「全くそう思わない」で回答）、因子分析で因子を抽出し、推定された因子得点からクラスタリングを行うというものです。これは有用度が高く、多くのケースで比較的納得感のある結果を与えてくれます。いわゆるSTPのSegmentationとTargetingに資するものです。
ところが実際に行ってみると、解釈しにくい因子が抽出されたり、生成されたクラスターが解釈不能であったり、などのよろしくない結果になってしまうことが起こります。これらは、そもそもの質問項目が適切でないことが主要因ですが、すでに実査は終わってしまい、今目の前にある質問項目の取捨選択で乗り切らないといけないのが実情です。

因子分析について

まず、因子分析の段階でよく起こるのが、解釈しにくい因子が抽出されることだと思います。抽出する因子数を少なくしていけば、意味不明な因子は消滅するかもしれませんが、同時に残したい因子も抽出されなくなりがちです。この時は、まず共通性の低い項目を削除するのが良いでしょう。できれば0.5未満、最低でも0.4未満を目安としてください。或いは、どの因子に対しても負荷量の小さい項目を除くこともよく行われる対策です、こちらはできれば0.5未満を目安としてください。共通性が低い、もしくはすべての負荷量が小さい項目は、抽出された因子での説明力が小さくノイズになっている可能性があるため、これらを除くことで因子がまとまるかもしれません。因子分析においてこの共通性と負荷量の確認は不可欠です。
それでも意味不明な因子が抽出される時はクラスタリングの際に使用しないことを検討すべきでしょう。通常、意味不明な因子は固有値が小さく、因子の持つ情報量が少ないため、使用しなくても特に問題はありません。
これらを駆使しても因子分析がうまくいかない場合は、因子分析をせずに項目そのままでクラスタリングすることを試みてもいいでしょう。実は、クラスタリングに因子分析は必須ではないのです。（クラスタ―分析の時はその前段階として因子分析が必要と思っている人をたまに見かけますが、違います）。
回転方法（直交回転、斜向回転）を変えるという手もあるかもしれませんが、それで解決することはなさそうです。

クラスター分析において

クラスタリングに際しては、上述の因子が解釈可能なものであれば、訳の分からないクラスタ―ばかり生成されることはあまりないと思います。
しかし、どの因子項目にもプラスに反応するクラスター、逆にマイナスに反応するクラスターが生成されたり、非常にサイズの大きいクラスタ―（構成比50％以上が目安）が生成されるなどの問題は頻繁に生じます。
まず、どの因子項目にもプラス反応するクラスタ―に対しては、ボリュームと他の質問への回答を見て、本当に意識の高いクラスタ―であるのか、単にポジティブに回答する傾向が強いだけなのか十分に吟味する必要があります。購買データと突き合わせてみると、（意識は高いが）購買金額は少ないといったことがあります。このクラスタ―を最重点クラスタ―と設定するのは誤った判断かもしれません。
一方、反応の低いクラスタ―について、それらの意識・態度に関連する商品を実は結構買っているというケースも考えられなくもありませんが、実際はあまり発生しません。よってこの反応の低いクラスタ―は「無関心層」として扱って構いません。いずれにしても、（可能であれば）実際の購買金額や閲覧サイトなどの行動データを紐付けて確認することで、各クラスターの解釈の正確性が増しますのでお勧めいたします。
極端にサイズの大きいクラスタ―が生成された場合は、このクラスタ―だけを更にクラスタリングして無理やり細分化するということもあります。理論的には正しくないと思われますが、それで解釈しやすくなるのであれば必ずしも否定されるものではないと考えます。クラスタリングの場合、途中の手続きが多少間違っていても、安定的に（サンプルを分割して同じ手続きでクラスタリングしても同じようなクラスタ―が生成される）分かりやすいクラスタ―が生成されるのであれば、分析結果として良しとすることが、実際にはあります。

本題からはずれますが、実務的テクニックとして、クラスタリングの際、サンプルサイズを鑑みながら3から15くらいまでクラスタ―を生成させ、クラスタ―間のクロス集計結果を見て、塩梅のよいクラスタ―数を決めています。この時、クラスタ―数の決定に関しては、一般的な基準がないように思います。しかし、あえて基準を設けるとすれば、いくつかの重要な項目（例えば、特定ブランドの購入率や購入意向）とのΧ2値を参照して、その伸びが鈍化する数に決める、という方法が考えられるでしょう、但し、一意には決まらず、最終的には分析者の判断に委ねられるところは残ります。SPSSにあるTwo Step法を使うのも一案です。

もう一点重要なことですが、クラスタリングの母集団の定義をどうするかを考える必要があります。これは、20歳～49歳までの男女から意識・態度データを得た時に、全体サンプルでクラスタリングを行うのか、それとも男女別に行うのか、はたまた性年代に分割してからクラスタリングを行うのか、といったことの検討です。分析目的次第ではありますが、デモグラフィック特性で予め分類してからクラスタリングすると、それぞれの母集団の特徴を活かしたインサイトフルな結果が得られることもあり、試みる価値はあります（例：女性の化粧に関する意識・態度をクラスタリングする場合、全年代を母集団とせずに20代女性、30代女性等を別々に分析する等）。

次回は重回帰分析、お楽しみに！

以上、因子分析＆クラスター分析の際によく遭遇する問題について、その実務的対応策を紹介いたしましたが、勿論問題は他にもいろいろあると思います。都度これらに対処しながら、分析結果をマーケティング上使い勝手のよいセグメンテーションとターゲット設定に資するものへと昇華させていかなければなりません。因子分析＆クラスタ―分析は、実施すればそれなりの結果の出力される点が便利なところですが、であるが故に慎重に分析結果を読み解く必要があります。
是非、分析者の醍醐味として試行錯誤を楽しんで頂ければと思います。

次回は、重回帰分析に関する問題や注意点について触れたいと考えています。

この記事が気に入ったらサポートをしてみませんか？