エクセル分析スペシャリスト対策 #01 - データ分析とピボットテーブルの使い方
統計検定2級で学んだ知識を宝の持ち腐れにしないため、Excelで実務で使うレベルの統計解析をできるようにしたいと考え「エクセル分析スペシャリスト」の学習を始めました。ゆくゆくはエクセルでできる統計解析をR・Pythonでもできるようにしてデータサイエンティストを目指したいと考えています。
学習には「Excelで学ぶ実践ビジネスデータ分析」という本を使用しています。
統計量を抽出(データ分析)
Excelデータがすべて数値データである場合は、データ→データ分析を使って統計量を抽出することができます。データ分析ではそれぞれ平均・標準誤差・中央値・最頻値・標準偏差・分散・尖度・歪度・範囲・最小値・最大値・合計・データ個数・95%信頼度が求められます。
この内、尖度はデータ分布の尖り具合を示します。正規分布の尖度を0として、より中央部分が尖っている場合は数値が大きくなります。歪度は分布が左右どちらに歪んでいるかを表します。左の偏りは負の数、右の偏りは正の数として表現されます。
95%信頼度は、母集団の母平均が95%の確率で含まれる範囲を表します。データが含まれる範囲は平均±信頼度の区間となります。
統計量を抽出(ピボットテーブル、ヒストグラム)
Excelデータが質的データである場合は、ピボットテーブルやCountif()関数を使います。度数の割合を表すには、棒グラフ・円グラフ・割合グラフ等を使います。
度数を区間ごとに区切ってその数をカウントすれば、度数分布表を作成することができます。度数分布表を作成するには、データ分析→ヒストグラムを使用します。度数分布表と累積相対度数からは、それぞれヒストグラム・累積相対度数表を描くことができます。累積相対度数は、ジニ係数やローレンツ曲線を表すのにもつかわれていましたね。
正規分布の様なピークが1つのものを単峰型分布といいます。今回のヒストグラムのようなピークが複数ある分布を多峰型分布と言います。
多峰型分布の特徴は、異なる傾向のデータが混在しているケースが多いという事です。例えば今回のケースでは支払金額の多いグループ・少ないグループが混在していると推測することができます。
この記事が気に入ったらサポートをしてみませんか?