見出し画像

ビジネス統計スペシャリスト試験を受けてみた

どんな試験なのか?

ビジネス統計スペシャリスト(エクセル分析スペシャリスト)の試験を受けてきました。

上記はデータ分析スキルに該当する①確率分布や仮説検定、推定などの統計知識と、②Excelを使ったデータ分析技能の習得を目指す試験です。

受験のきっかけは?

データ分析に関する基礎を身に付けたいと思ったからです。

私は普段Webマーケティングの仕事が主務ですが、データの分析や考察もよく行います。

Webサイト上のABテスト(仮説検定)や認知施策と検索広告の関係性調査などに取り組んでおり、今後もできることを増やしていきたいと考えています。

データサイエンティストのように予測モデル構築を行うなどは上司から求められることはもちろんありません。

一方でデータアナリストのように統計手法を用いてデータ解析と洞察を社内関係部署に多く提供できるマーケティング人材になりたい。

統計関連の資格はいくつかあり、代表的な統計検定を受けるか当初迷いましたが、実務で必要な技能に重きを置いているビジネス統計スペシャリスト(エクセル分析スペシャリスト)を受けることにしました。

受験後の感想

試験勉強を通して統計の面白さ、奥の深さを知りました。

試験範囲はビジネス上重要なものをピックアップしてくれている印象で統計学自体はもっと深淵なんだろうなと思いました。

試験内では限定的な統計知識が問われる為、結果は合格でしたが、これで「ビジネス統計」の「スペシャリスト」と言っていいのか?疑問が残りました。

また、マーケティング文脈で言うと確率分布はもっと詳細を学びたい領域でしたが、触れる内容は正規分布がメインでした。

ガンマ分布 · ディリクレ分布などは自分で改めて学んでいこうと思います。

それでも仮設検定や相関分析、回帰分析の詳細を学べたのは良き点でした。

試験後に改めて考えていたのですが、複数の統計学の考え方が人の消費行動や人口動態を的確に説明している点はすごく興味深い…!

統計というツールを使うことで、起こっている事象の真実にさらに近づけるような感覚を持ちました。

改めてその有用性を理解でき、この学問を継続的に理解していきたいと思いました。

学びになったポイント

母集団データ
調査対象全体のデータ。全ての個体や対象が含まれる。
例:ある国の全ての市民の年齢データ。

標本データ
母集団から選び出された一部のデータ。母集団を代表するサンプル。
例:ある国の一部の市民の年齢データ。

記述統計
データを加工し、グラフや表によって可視化することでデータの全体像や傾向を把握したり、統計量を用いて全体像y傾向を数値として表現したりする統計手法。

推測統計
手元のデータを標本データ(サンプルデータ)と見なして、分析し、元となる母集団データでの結果を推定(推測)する分析を「推測統計」という。

推測統計のポイントは、部分的なデータである標本データで分析した結果から、母集団の傾向を推測するという点になり、得られた結論は「断言できない」ことが最大の特徴です。そのため、誤差を加味して結果を読むことが必要になる。

「比較」から「因果関係」へ
比較から原因を考える流れは、「比較から因果関係を考えていく思考」であり、仮説思考を考える上で有効な分析思考。

ちなみ鈴木健一氏の『定量分析の教科書』でも比較は分析の本質であると説明されている。

数字を使った分析の本質は「比較」。「比較をしない分析はない」といっても過言ではない。

比較をすることで数字という原石から意味を抽出するのが分析。普段行っている分析も、その多くは無意識のうちに何かを比較している。

何を比較しているのか、比較対象を意識するだけでも、分析ははるかにシャープになる。

定量分析の教科書 ビジネス数字力養成講座 グロービズ経営大学院教授 鈴木健一

分散と標準偏差
データのばらつきを表す指標。値が大きいほどデータのばらつきが大きく、小さいほどばらつきが小さいことを示す。

ちなみに不偏標準偏差は誤差を加味した標準偏差のこと。母集団の分散を正しく推定するための標準偏差。

Excelでは分散はVAR.P関数、標準偏差はSTDEV.P関数、不偏標準偏差はSTDEV.S関数を活用する。

変動係数
標準偏差を平均で割った相対的なばらつきの指標。

標準偏差はデータのばらつきの絶対的な指標である為、変動係数を使うことで異なる単位やスケールのデータを比較することができる。

相関
2つの変数間の関係性の強さと方向を示すもの。片方の変数が変わると、もう片方の変数もどのように変わるかを示す。

相関係数は2つの変数間の相関の強さと方向を数値で表したもの。相関係数は-1から1の範囲を取る。係数の強さの目安は下記。

+1:完全な正の相関(片方の変数が増えるともう片方の変数も増える)
0:相関なし(変数間に関係がない)
-1:完全な負の相関(片方の変数が増えるともう片方の変数が減る)
±0.7以上:強い相関
±0.4~±0.7:中程度の相関
±0.2~±0.4:弱い相関
±0.2未満:非常に弱い相関またはほぼ相関なし

Excelで学ぶ実践ビジネスデータ分析

相関はExcel上でCORREL関数か分析ツールを
用いることで計算することができる。

また相関結果の有意確率を求めることも可能で、ステップとして「t値を求める」「t値に対応した有意確率を求める」の2つで計算できる。

本パート最後の注意点として、相関は因果関係を想定していない点は注意。

仮説検定
二変数の関係性を仮説ととらえて、標本データでその仮説が成り立つといえるかどうかを判断する分析手法。

ビジネスでは不確定なことを「仮説」と考えて検証する状況が多く、仮説検定はWebサイト上の施策評価などに頻繁に用いられる。

有意確率
有意確率とは「一部のデータで計算した二変数の関係性が、どれくらい”たまたま”起こりうるか」を確率として表現した値です。確率なので、0から1の間の値を取る。

有意確率による判断には①度数による結果の安定性、②差の大きさによる結果の安定性という2つの視点を留意する。

①度数による結果の安定性
前提として仮説検定は推測統計であり、母集団の一部から抽出した標本データ数は多ければ多いほど結果が安定する。

②差の大きさによる結果の安定性
関係性の判断には、差の大きさも重要。差が大きければ、対象が多少入れ替わっても結果の大勢は変わらないと考えられる為。

カイ二乗検定
観測データが期待されるデータとどれだけ一致しているかを調べるための統計手法。ExcelではCHISQ.TEST関数を用いることで、カイ二乗検定を行うことができる。

ABテストのような実験で、異なるバージョンの結果に有意差があるかを確認する際に使う。

有意差を確認する際に見る指標が有意確率。有意確率とは「一部のデータで計算した二変数の関係性が、どれくらい"たまたま"起こりうるか」を確率として表現した値です。

回帰分析
原因系変数と結果経変数の関係性を仮説ととらえて、標本データでその仮説が成り立つといえるかどうかを判断する分析手法。

回帰分析はさらに関係性の数式化とそれによる予測、仮説に用いた原因系変数と結果経変数の動きのどれくらいを説明できいるかまで分析できます。

単回帰分析は1つの原因系変数を用いるが、
重回帰分析は複数の原因系変数を用いる。

・単回帰分析の式(y:売上個数 ← x:価格の場合)
売上個数=a 価格 + b           a:傾き b:切片

・重回帰分析の式(y:売上個数 ← x:価格の場合、競合の価格、最高気温の場合)
売上個数=a1 価格 + a2 競合の価格 + a3 最高気温 + b
a1:価格による傾き a2:競合の価格による傾き a3:最高気温による傾き
b:切片

傾きと切片
Excelで因果関係を想定して散布図を作った際に近似曲線とその式を追加できる。直線関係の式は、以下のような式で表せる。

a(傾き)とは「原因系からの結果への影響の仕方」を表している。

b(切片)はベース得点で、この値をもとにして「傾き×原因系の値」の値を加減して、結果系の値を求める。

ちなみに運用型広告の簡易な予算増額シミュレーションを回帰分析で行っている記事があったので貼っておきます。


係数
原因系変数が1単位変化したときに結果系変数がどれだけ変化するかを示す数値。

重決定R2
重決定係数は回帰モデルの適合度を示す指標で、モデルが従属変数の変動をどれだけ説明できるかを表す。重回帰分析における目安は次の通り。

0.0 〜 0.2: 非常に低い説明力(モデルは結果系変数の変動をほとんど説明していない)
0.2 〜 0.4: 低い説明力(モデルの説明力は弱い)
0.4 〜 0.6: 中程度の説明力(モデルはある程度の変動を説明している)
0.6 〜 0.8: 高い説明力(モデルはかなりの変動を説明している)
0.8 〜 1.0: 非常に高い説明力(モデルはほとんど全ての変動を説明している)

多重共線性
多重共線性とは、回帰分析において独立変数同士が強い相関を持つ状態のこと。推定の不安定化や解釈の困難さ、モデル精度の低下を招く。

期待値
確率変数が取る値を、確率によって重み付けした平均値のこと。あるいは、確率変数のとりうる値にそれが起る確率を掛けた総和のこと。

確率変数
結果が確率によって決定される変数。

ある現象がいろいろな値を取りうる時、
取りえる値全体を確率変数Xとして表す。

どのような値を取るかは決まっていないが、
取りうる値、もしくは取りうる値の範囲とその値をとる確率または確率密度が決まっている数のこと。一般に離散型、連続型の2つが用いられる。

離散型の例としてサイコロの出目がある。
例えば、1つのサイコロを振り、出てくる目の値について考える。

この時、確率変数はX=1,2,3,4,5,6となり、すべてのXについてP(X)=1/6となる。

不等号
「不等号」とは、数の大小関係を表すときに使用する記号。左側の数を基準にして「左の数は右より大きい/小さい」といった意味を表す。

2つの数に大小関係がある時にのみ用い、左右の数が同じ場合は「等号」つまり「=」を使用する。

不等号とは?読み方と使い方(引用元:勉強・受験情報コラム-ワム研-)
不等号とは?読み方と使い方(引用元:勉強・受験情報コラム-ワム研-)

以上です。
引き続き勉強を続けます。


この記事が気に入ったらサポートをしてみませんか?