見出し画像

【特許情報活用】Excelで主成分分析を行い散布図/バブルチャートを作成してみた~課題×解決策マップを例に~

*主成分分析の記載について修正しました。(6/28 11:45)

前回(リンク)からの続きです。
特許情報の活用は「 #わたしの習慣 」なので、思いついた内容を共有していきます。

今回は、Excelのアドインツールを活用した「主成分分析」を紹介します。

本記事の最終成果物:左上の課題×解決策マップから、種々の2軸でバブルチャートを作成する。

主成分分析とは:多変量解析の一種。データ行列における次元を削減する処理のこと。(参考:次元削減とは?PCA(主成分分析)を理解する【機械学習入門24】

↓参考書籍:書籍内、アドインツールの使い方やダウンロード方法が記載されている↓

次元の削減・・・!(大介?)

次元の削減とは、例えば以下5次元のデータがあったとき、「理系能力」「文系能力」といった新たな2次元の軸へと変換することを意味します。

データを要約する主成分分析(PCA)とは? 具体例をもとにわかりやすく解説!|統計マーケティング研究所 より引用

これを、課題×解決策マップのような特許情報においても適用することで、2次元で手軽にデータの特徴を把握することができるということです。

前回の記事で作成した「課題×解決策マップ」を事例に考えていきます。

特許情報に基づき作成した課題×解決策マップ(椅子分野)

課題×解決策が 11行×9列 もあり、
これらデータの特徴・関係性が、一見してよくわからないですよね。

個別に眺めれば、

・課題「折り畳」に対する解決策「シート」が2件しかない!(あまり特許出願されていない)

といったことが分かるものの、データ量が多すぎて、どう眺めていけばいいのか。ちょっと疲れます。

そこで役立つのが主成分分析。次元の削減。

Excel上で主成分分析を行えば、上記課題×解決策マップから、例えば以下の散布図を手軽に得ることができます。(作成方法等は末尾に記載)

横軸縦軸ともに解決策。横軸は「総合」的成分、縦軸は「連結」成分。

件数を円の大きさとしたバブルチャートもできます。

2次元のマップであれば情報量が少なく、データの特徴をシャキッと捉えることができるのではと思います。

ただし注意が必要なのは、横軸縦軸ともに「はっきりした軸ではない」ということ。各軸の成分は「固有値と固有ベクトル」欄の値によって定められます。

そしてバブルチャートは画像右下のデータに基づいて作成。このときの横軸・縦軸の成分について、画像左上を参考にします。1.0に近い値が軸の成分となります。

主成分分析を行った結果出力されるデータと、主成分1(横軸)・主成分3(縦軸)としたバブルチャート。「Ctrl」を押しながら主成分1,主成分3,合計の列を選択し、「挿入」→「グラフ」→「バブルチャート」。
ここを眺めることで、横軸縦軸の成分がわかる

<横軸:主成分1、縦軸:主成分3とした例>
主成分1(横軸):0.4付近のデータ(連結、固定、左右、動)をまとめて、横軸は「総合」的な成分と考える。
主成分3(縦軸):0.65あるので、縦軸は「連結」成分と考える。

「総合」とか、なんて曖昧なんでしょうね。「連結、固定、左右、動」を包含する別の概念があればもう少しイメージしやすいですが、特に思いつかないので「総合」としています。

もう少しシャキッとした軸にしたい場合は、1.0に近い値の主成分を軸に設定します。例えば横軸を主成分2にしてみます。

横軸を主成分2とした

Excel表の左上「固有値と固有ベクトル」を眺めると、主成分2においては「構造」が0.80もあり、つまり横軸は「構造」となります。「構造」「強度」といった課題に対して、解決策として「構造」という単語がよく使われているということがわかります。(課題単語として「構造」も出てくるのでなんだか分かりにくい・・)

このときの軸の選定は、どう考えたらいいのか?

こち亀の「おばけ煙突」を事例として考えると分かりやすいかもしれません。おばけ煙突とは、大正15年に建設された東京電力千住火力発電所の煙突であり、見る方向によって煙突の本数が変わって見えるというものです。

こち亀 第59巻 P147 より引用

一番バラつきが大きい軸が「4本」に見える方向(軸)であり、これが主成分1。その次の「3本」に見える方向(軸)が主成分2。そしてバラつきが小さい軸が「1本」に見える方向(軸)ということになります。

このときの、データ群(煙突4本)に対して所定の軸を決めてあげることが主成分分析の成果。直交する2軸で眺めることで、2次元へと次元を削減し、様々な方向(軸)でデータの特徴を確認することができるということ。

(・・・・と認識していますが、何か違っていたら優しく教えていただけると嬉しいです。)

最後にもう一つ。

Excel上で軸を気軽に変えてあげれば、色々な切り口で課題×解決策マップを眺めることができます。今度は 横軸:主成分4(固定:0.51)、縦軸:主成分8(左右:0.61)としてみました。

横軸:主成分4、縦軸:主成分8

ここでは、例えば左下の象限にある「高い」という課題に着目するのも面白そうです。「高い」という課題に対して、「固定」や「左右」といった解決策があまり提示されていないということ。・・・というのは元の課題×解決策マップをみても勿論わかることですが、こうして他のデータとの相対的な関係を眺めることで、何か新たなインサイトが得られるかもしれません。

主成分分析は、課題×解決策マップに限らず、出願人×技術分野 といった様々なデータで応用可能です。知財分野でほかに素敵な使い方があったら、是非教えてほしいです。シャキッとしない曖昧な軸をどう受け入れるか、が大事かなと思います。

曖昧さに少々気持ち悪さがありますが、うまく考えて便利に扱っていけたらと思います。人間関係や社会も、ときには曖昧であることを許容しないといけませんしね。

Uchida


主成分分析 作業イメージ

1.アドインツールをインストール後、「統計」→「主成分分析」

2.データ範囲を指定する。

出力先シート名を入れる。課題・解決策ワードも含めながらデータのセル範囲を指定する。課題×解決策マップは単位が揃ったデータなので、「分散共分散行列」とする。(身長と体重のように単位が異なるデータ群の場合は、データを標準化すべく「相関行列」とする)

3.分析結果のシートが吐き出される

左上の「固有値と固有ベクトル」を眺めて主成分毎の軸を確認し、右下の主成分1~9データに基づいて、散布図やバブルチャートを作成する。

4.散布図・バブルチャートを作成する

<散布図>

主成分1,2を選択しつつ、「挿入」→「グラフ」→「散布図」
横軸:主成分1、縦軸:主成分2 の散布図

<バブルチャート>

合計件数を求め、Ctrlを押しながら、主成分2つ+合計件数を選択した上で「挿入」→「グラフ」→「バブルチャート」。

5.軸の成分を色々と変えて、眺めてみる

おしまい。

参考情報

バブルチャートの作成方法や、各バブルへのラベル付与方法など、例えば以下の動画にて詳しく紹介されています。

以上

記事をご覧いただき有難うございました!