見出し画像

統計検定対策:記述統計のファインマン学習

統計検定2級の対策の一環として、記述統計について学んだことをファインマン学習してみました。今回の記事は、学習したことに加えて実際に統計を取るための手法を情報収集してみようと思います。

「記述統計・推測統計とは何か?また記述統計は具体的にデータの何を求めるか?」
→記述統計はデータの特徴となる統計量(平均、中央値、分散、標準偏差、相関係数、等々)をもとめ、データ全体の性質や傾向を明らかにするための手法。
推計統計は標本データから母集団の総計・特徴等を予測するための手法。例えば無作為抽出した標本から視聴率や政党の支持率・世論調査等などを行う為に利用されている。

「平均、偏差、分散、標準偏差はそれぞれどのようにして求めるか?」
→平均:全データ / データ数
偏差:データ - 平均
分散:Σ(データ - 平均)^2 / データ数
標準偏差:√ 分散

(復習)「統計量やデータを表すには、どのような図を用いればよいか?」
plotlyのメソッドを用いる
データの分布 → ヒストグラム( px.histogram )、散布図( px.scatter ) 
2データの比較→箱ひげ図( px.box ) 
箱ひげ図は外れ値、最大値と最小値、4分値、中央値を図示化することができる

「統計データに用いる変数をそれぞれ2つ、および4つに分類するとどうなるか。 また、記憶するのにキーワード法をどう使ったか?」
2つの場合
質的変数:データのカテゴリーを表す
量的変数:データの数値を表す

4つの場合
名義尺度:データが同質か否か
順序尺度:データの大小に意味があるか
間隔尺度:データの大小・0が相対値か
比例尺度:データの大小・0が絶対値か
「統計尺度のMJKH」と記憶する。

「ローレンツ曲線とは何か。また、ジニ係数はローレンツ曲線を用いてどうやって求めるか?」
ローレンツ曲線は2データの累積相対度数(%)をプロットし、下方向に凸となるように軸を取ることで描くことができる。ローレンツ曲線は、量の集中度(主に経済的な不公平度など)を図化するのに用いられる。量の集中度を数値化するには、累積度数に偏りがない状態の直線(右上方向への対角線となる。これを完全平等線という)と軸とが作る面積と、ローレンツ曲線と完全平等線の間の積分を比較すれば良い。これをジニ係数という。1
ジニ係数が1に近いほど度数は1様に分布していて、逆に0に近ければかなり偏った分布をしていると考えることができる。

ローレンツ曲線の実際の使い方・描き方に関しては、以下を参照。


「相関係数からわかる2変数同士の関係とは、特にどのような関係か?また、疑似相関である場合、疑似相関となる要因として考えられるものは何か?」

相関係数は2変数同士の線形な関係を表している。2データ間の関係が非線形的である場合は、相関係数は関係の強さを表現するのに適切な尺度ではない。
2変数の相関が強い相関となっている場合、2変数に直接深い関係がある場合と、2変数を媒介する第3の変数があるケースの大きく2ケースに分かれる。後者の場合、この相関を「疑似相関」と呼ぶ。疑似相関であるからといってまったく2データが無関係であるというわけではない。

疑似相関の例としては、「アイスクリームの売上と水の事故」や「ある小学校の算数の点数と身長の高さ」、「各国のチョコレートの消費量とノーベル賞の受賞者数」といった場合などが挙げられる。実際には2変数を媒介する第3の変数は気温・年齢・経済的要因であると推測できる。


「疑似相関でないことを検証するためには、どうすれば良いか?また、そのために用いる数式は?」

                         
疑似相関であること・ないことを検証するには、第3の変数の影響を除いた
偏相関係数を求めれば良い。疑似相関でない場合は元の相関係数に近い値が、疑似相関である場合は0に近い値が得られる。
偏相関係数を求めるには、3データの互いの相関係数が必要である。

R(xy, z) = Rxy - (Ryz * Rxz) / √( 1 - Ryz^2 ) * √( 1 - Rxz^2 ) 


 「相関係数を求めるには、どうするか?」
相関係数を求めるには、まず2データの共分散を求め、それを2データのそれぞれの分散で割る。相関係数の値は、-1 ~ 1の数値で表現される。


「時系列的な平均伸び率を算出するには、算術平均の代わりに何平均を用いるか?」

平均伸び率の算出には、幾何平均を用いる。
幾何平均はデータの総積を求め、それをデータ数の逆冪を当てることで求められる。


「“時系列データのKKF“とは何か?また時系列データを分解した要素のうち、簡易な方法で求められるものか何か?」

「時系列データのKKF」とは、時系列データを傾向変動・季節変動・不規則変動の3つに大まかに分割することを指す。傾向変動は比較的簡単な方法で求めることができ、移動平均というデータの近傍の小平均を求める方法で算出することができる。

傾向変動・季節変動の良い例としては平均気温の時系列データ等がある


「時系列データの自己相関を求める目的とは、何か?」

データの周期にいかなる規則や相関があるかを図化する。
時系列データとそれを数個分ずらしたものの自己相関を求めることで、「どの時期のデータが過去・未来ののデータに大きな影響をもたらすか」というデータの変動を予測できる様になる。自己相関を図化するには、横軸にデータのズレをとり縦軸に相関係数を表示する、コアログラフを用いるのが効果的である。

気温の自己相関データは減衰振動の形を描く


この記事が参加している募集

#探究学習がすき

7,494件

この記事が気に入ったらサポートをしてみませんか?