![見出し画像](https://assets.st-note.com/production/uploads/images/109384636/rectangle_large_type_2_2515abb9b624e668a02f66e6182f3f0b.png?width=1200)
【特許情報活用】Excelで主成分分析を行い散布図/バブルチャートを作成してみた~課題×解決策マップを例に~
*主成分分析の記載について修正しました。(6/28 11:45)
前回(リンク)からの続きです。
特許情報の活用は「 #わたしの習慣 」なので、思いついた内容を共有していきます。
今回は、Excelのアドインツールを活用した「主成分分析」を紹介します。
![](https://assets.st-note.com/img/1687676012704-56OTgA3y3w.png?width=1200)
主成分分析とは:多変量解析の一種。データ行列における次元を削減する処理のこと。(参考:次元削減とは?PCA(主成分分析)を理解する【機械学習入門24】)
↓参考書籍:書籍内、アドインツールの使い方やダウンロード方法が記載されている↓
次元の削減・・・!(大介?)
次元の削減とは、例えば以下5次元のデータがあったとき、「理系能力」「文系能力」といった新たな2次元の軸へと変換することを意味します。
![](https://assets.st-note.com/img/1687691507692-hP98BZCUuU.png?width=1200)
これを、課題×解決策マップのような特許情報においても適用することで、2次元で手軽にデータの特徴を把握することができるということです。
前回の記事で作成した「課題×解決策マップ」を事例に考えていきます。
![](https://assets.st-note.com/img/1687098499152-N0tBsgJzxr.png?width=1200)
課題×解決策が 11行×9列 もあり、
これらデータの特徴・関係性が、一見してよくわからないですよね。
個別に眺めれば、
・課題「折り畳」に対する解決策「シート」が2件しかない!(あまり特許出願されていない)
といったことが分かるものの、データ量が多すぎて、どう眺めていけばいいのか。ちょっと疲れます。
そこで役立つのが主成分分析。次元の削減。
Excel上で主成分分析を行えば、上記課題×解決策マップから、例えば以下の散布図を手軽に得ることができます。(作成方法等は末尾に記載)
![](https://assets.st-note.com/img/1687659032146-tYtp132NmK.png?width=1200)
件数を円の大きさとしたバブルチャートもできます。
![](https://assets.st-note.com/img/1687659299780-XIhgfh74Zc.png?width=1200)
2次元のマップであれば情報量が少なく、データの特徴をシャキッと捉えることができるのではと思います。
ただし注意が必要なのは、横軸縦軸ともに「はっきりした軸ではない」ということ。各軸の成分は「固有値と固有ベクトル」欄の値によって定められます。
そしてバブルチャートは画像右下のデータに基づいて作成。このときの横軸・縦軸の成分について、画像左上を参考にします。1.0に近い値が軸の成分となります。
![](https://assets.st-note.com/img/1687662399494-DA4kbz5XQe.png?width=1200)
![](https://assets.st-note.com/img/1687662799515-iOOoYMr7XK.png?width=1200)
<横軸:主成分1、縦軸:主成分3とした例>
主成分1(横軸):0.4付近のデータ(連結、固定、左右、動)をまとめて、横軸は「総合」的な成分と考える。
主成分3(縦軸):0.65あるので、縦軸は「連結」成分と考える。
「総合」とか、なんて曖昧なんでしょうね。「連結、固定、左右、動」を包含する別の概念があればもう少しイメージしやすいですが、特に思いつかないので「総合」としています。
もう少しシャキッとした軸にしたい場合は、1.0に近い値の主成分を軸に設定します。例えば横軸を主成分2にしてみます。
![](https://assets.st-note.com/img/1687662967623-HHIzF2nw5X.png?width=1200)
![](https://assets.st-note.com/img/1687663429429-dfwPHuhX3q.png?width=1200)
Excel表の左上「固有値と固有ベクトル」を眺めると、主成分2においては「構造」が0.80もあり、つまり横軸は「構造」となります。「構造」「強度」といった課題に対して、解決策として「構造」という単語がよく使われているということがわかります。(課題単語として「構造」も出てくるのでなんだか分かりにくい・・)
このときの軸の選定は、どう考えたらいいのか?
こち亀の「おばけ煙突」を事例として考えると分かりやすいかもしれません。おばけ煙突とは、大正15年に建設された東京電力千住火力発電所の煙突であり、見る方向によって煙突の本数が変わって見えるというものです。
![](https://assets.st-note.com/img/1687676277803-kYqCpiBxji.png?width=1200)
一番バラつきが大きい軸が「4本」に見える方向(軸)であり、これが主成分1。その次の「3本」に見える方向(軸)が主成分2。そしてバラつきが小さい軸が「1本」に見える方向(軸)ということになります。
このときの、データ群(煙突4本)に対して所定の軸を決めてあげることが主成分分析の成果。直交する2軸で眺めることで、2次元へと次元を削減し、様々な方向(軸)でデータの特徴を確認することができるということ。
(・・・・と認識していますが、何か違っていたら優しく教えていただけると嬉しいです。)
最後にもう一つ。
Excel上で軸を気軽に変えてあげれば、色々な切り口で課題×解決策マップを眺めることができます。今度は 横軸:主成分4(固定:0.51)、縦軸:主成分8(左右:0.61)としてみました。
![](https://assets.st-note.com/img/1687676640000-ZNf2ubjbPi.png?width=1200)
ここでは、例えば左下の象限にある「高い」という課題に着目するのも面白そうです。「高い」という課題に対して、「固定」や「左右」といった解決策があまり提示されていないということ。・・・というのは元の課題×解決策マップをみても勿論わかることですが、こうして他のデータとの相対的な関係を眺めることで、何か新たなインサイトが得られるかもしれません。
主成分分析は、課題×解決策マップに限らず、出願人×技術分野 といった様々なデータで応用可能です。知財分野でほかに素敵な使い方があったら、是非教えてほしいです。シャキッとしない曖昧な軸をどう受け入れるか、が大事かなと思います。
曖昧さに少々気持ち悪さがありますが、うまく考えて便利に扱っていけたらと思います。人間関係や社会も、ときには曖昧であることを許容しないといけませんしね。
Uchida
主成分分析 作業イメージ
1.アドインツールをインストール後、「統計」→「主成分分析」
![](https://assets.st-note.com/img/1687677355794-11xFc8VHxE.png?width=1200)
2.データ範囲を指定する。
![](https://assets.st-note.com/img/1687678313648-iveHwlyaXr.png?width=1200)
3.分析結果のシートが吐き出される
![](https://assets.st-note.com/img/1687678571361-Xt4le9vqt0.png?width=1200)
4.散布図・バブルチャートを作成する
<散布図>
![](https://assets.st-note.com/img/1687678752614-L86xyrhBG6.png?width=1200)
![](https://assets.st-note.com/img/1687678812472-uYBREsKiZl.png?width=1200)
<バブルチャート>
![](https://assets.st-note.com/img/1687679017819-STUVS2gxFj.png?width=1200)
![](https://assets.st-note.com/img/1687679098406-jzZLnk07Bu.png?width=1200)
5.軸の成分を色々と変えて、眺めてみる
おしまい。
参考情報
バブルチャートの作成方法や、各バブルへのラベル付与方法など、例えば以下の動画にて詳しく紹介されています。
以上
記事をご覧いただき有難うございました!