読書メモ - Excel対応 90分でわかる! 日本で一番やさしい「データ分析」超入門
はじめに
個人的読書メモとして投稿しています。個人的に、重要だと思った・印象に残った文章をあとで見返す目的で書いています。
感想
多変量解析特に回帰分析と重回帰分析に絞って解説されている本。直感で理解できる範囲の内容でビジネスにすぐに使えるようにExcelでの利用例を用いながら整理されているので、分析を始める超初心者がまずサクッと理解するために非常にいい本だと思う。
第1章 相関係数
相関係数は経験則を可視化できる。
![](https://assets.st-note.com/production/uploads/images/69154957/picture_pc_891bf0610986fe01fe832df02337c7bb.png?width=800)
ちなみにknimeでは下記の記事で実現できる。
第2章 ビジネス上の相関係数の使い方
相関係数を満足度調査で応用
平均値と共に散布図にプロットすると、改善点を順位付けするのに使える。
値の大きさでなく、それぞれが平均より上かしたかを基準に結果を解釈するのがポイント
![](https://assets.st-note.com/production/uploads/images/69155326/picture_pc_bed7c41a653455fe0a4502d6aecc3adf.png?width=800)
第3章: Excel回帰分析の使い方
概念は相関係数と同じだが、回帰分析という名がつくと、線形近似式を当て込むことによって予測式が立てられるようになる。
①の部分から y=ax+bの係数を取得
②の部分から予測の精度を判断。R2が1に近いほど精度が高いと判断でき、一般的に0.4以上あれば問題ない。
yの予測したいデータを従属変数、xの予測に使うデータを独立変数と呼ぶ
![](https://assets.st-note.com/production/uploads/images/69155572/picture_pc_203e6acd1fe6bae3677e158cc31410c0.png?width=800)
第4章 重回帰分析
重回帰分析は y=ax + bzのように、予測に使う変数(独立変数)が複数になるときの呼び方。
チェックポイント
予測に使う変数同士の関連性は低くなければならない (マルチコ現象。相関係数が0.7以下である)
予測したいデータと予測に使うデータとの関連性がなければならない (p値が0.05以下である)
予測精度が十分でなければならない (補正R2が0.4以上)
予測に使う変数の関連性が強い場合、符号が逆になったり変な結果になってしまう
予測したいデータと予測に使うデータの関連性を判断するには「P値」を使う。P値は関連性がない確率を示す。0.05(5%)以上の場合関連性がないとみなされるので、P値が0.05以下かをチェックすればいい。0.05以上のものは抜いた上で再度重回帰分析を行なって新しい式を作ると良い。
重回帰分析の場合、補正R2を使って精度を判断。同じく0.4以上あればいい。
補正R2は、変数が増えたことによって計算上精度が良くなったように見える増分を除いて出した変数。
knimeでは、linear regression modelを使用して求める
第5章 質的データの扱い方
データには量的データと数値で表せない(男女など)の質的データがある。
![](https://assets.st-note.com/production/uploads/images/69157454/picture_pc_8cb03fc058698b060f455997775abbfe.png?width=800)
質的データはダミー変数を使って量的データに変換すれば重回帰分析が使用できる。
データが重複するような場合、重回帰分析の前に抜く必要がある。
例えば性別のダミー変数が男の0/1の列と女の0/1の列がある場合、どちらかの列を残せばいい。
![](https://assets.st-note.com/production/uploads/images/69157959/picture_pc_d3bb8cd22f8b52fdda84c88abf416d08.jpg?width=800)
knimeではone to manyで実現可能
第7章 アンケート調査のコツ
アンケート調査を行う場合、コンジョイント分析と呼ばれる手法で行うと複雑な消費者意識を正しく判断できる可能性が高まる。
ただし、アンケート項目が多くなりすぎると調査にならないので、ある程度要素と種類は絞る可能性がある。
![](https://assets.st-note.com/production/uploads/images/69159089/picture_pc_0e9d5ac72b2858ad90786e5b727c045b.jpg?width=800)
作成のポイント
要素と種類(本書では属性と水準)を書き出していく。
例えばメモリという要素の中に、1G、2Gという種類がある。各要素の種類が満遍なく各選択肢に散らばるように配置する。
8個案があるのであれば1Gと2Gを半分ずつ配置など。選択肢で組み合わせに関連性が存在しないようにする。
1Gと黒という組み合わせが異常に多くならないようになど。直交表を使うと作りやすい。
例えば8つの選択肢があるアンケートを作成する場合、要素が2種類ずつ8個ある場合の組み合わせは下図のようになる。直行表を利用せずとも無料ツールがあったりする。
![](https://assets.st-note.com/production/uploads/images/69160008/picture_pc_c570a966cab150850475bc8d1eb91a77.png?width=800)
このようなアンケート調査ができたら、あとは満足度の値を予測したい変数に、アンケート項目の質的データをダミー変数を通して0/1に変換してあげれば、重回帰分析が適用できる。
重回帰分析の係数の合計で各係数を割り返してあげることで、重要度が算出できる。
巻末コラム データの種類と分析手法
さまざまな分析手法がある。今回は単純な量的データの回帰分析による予測がテーマであったが、予測したいデータの種類や使用するデータによって分析手法は様々である。
![](https://assets.st-note.com/production/uploads/images/69160974/picture_pc_498df871b8db2f32c6a92c5fb10bbfea.png?width=800)
この記事が気に入ったらサポートをしてみませんか?