見出し画像

時系列データをpython【#1.5】平均と標準偏差の簡単な事前説明

時系列データを分析とか予測をしたことがなかったのでやっていきます。「株価をpython」というブログの続きです。
以下の流れで進めていこうと思います。
今回は、「2.サンプルデータの自己相関・相互相関」に行く前に、相関を出すときに使う、平均と標準偏差の話をしておきます。(私が偏差値38なので)偏差値38の人向けにしますので、極力簡単に、かつ想像できるように説明します。

1.サンプルデータの作成
2.サンプルデータの自己相関・相互相関
3.サンプルデータのDTW
4.オープンデータの追加
5.データの予測

平均、標準偏差ってなぁに?と、なぜこれらが必要なのか、というところから。
小学校のテストの点数を例に考えてみます。
3-1組は3人のクラスです。算数のテストの点数が、40点、50点、60点でした。
3-2組も3人のクラスです。算数のテストの点数が、10点、50点、90点でした。
ここで各クラスにつき、3つの点数、合計6つの点数があっても、なんのことやら、って感じです。ここで平均を出してみましょう。3-1組の平均点は50点、3-2組の平均点も50点。平均値は代表値の1つなので、この平均を算出することで、3-1組と3-2組を比較することができるようになりました。この場合、どちらも平均点が50点なので、同等レベルの理解をしているのかな?って想像できます。なので平均ってなぁに?というと、代表値の1つで、いっぱいあるデータを代表してなんとなくわかった気にさせてくれる数値の1つです。これを使って説明すると、忙しい人や、理解させたくない相手や、理解する気がない人への説明には十分です(日本人の平均所得、所得の中央値の話とか、平均値だけ説明してなんとなくわかった気になれますよね)。

次に、標準偏差です。言葉が難しいので、ここでは「ばらつき」と言い換えます。3-1組も3-2組も平均点は同じ50点ですが、どうも点数が50点付近にかたまっているクラスと、バラバラしているクラスがあります。そこで使うのが標準偏差(=ばらつき)です。
(計算とか説明はむちゃくちゃですが)3-1組のばらつきは平均50点±10点なので10点、3-2組のばらつきは平均50点±40点なので40点とします(excelだとstdev.s関数)。ばらつきは値が大きいと、ばらつきが大きい状態です。なので、ばらつき10点と40点だと40点のクラスのほうがばらついているといえます。
なので標準偏差ってなぁに?というと、ばらつきを測るものの1種です。値が大きいとばらつきが大きくなる。標準偏差の親戚に分散もいますが、それもばらつきの1種です(説明するとややこしくなるので割愛します)。

最後に、「ではなんで平均とか標準偏差が必要なのか?」について。
それは、考えるためです。3-1組と3-2組は平均点は同じだが、バラツキが大きいクラスと小さいクラスがある。ここまでは事実です。このあとです。考えます。なんでなんだろう?なんでばらつきに差が出たのだろう?
想像1;3-1組は先生の教え方が上手で、どの生徒も理解しやすい。想像2;3-2組は先生の教え方が独特で、入ってくる子には入ってくるし、分からない子には全然わからない。想像3;学級崩壊している。授業を聞かなくても塾で学んでいる子と、走り回って授業を聞くより他のことを優先している子がいる。などなど。この想像をするために、いろいろと数字があると思っています。データ分析者としては、最後に、ヒアリングをします。「先生、ホントのところはどうなんですか?」すると先生から「正解!」「はずれ!」などなどいろいろと答えが返ってきます。そのあと、「じゃあどうします?」「ばらつきを減らすためにどうします?」「平均点を上げるためにどうします」と問います。

最後は少し逸れましたが、
平均、ばらつきなどを使うと、比較できて、考察できます。もしかしたら、改善点が見つかって、よりよい生活ができるようになるかもしれません。
ということで、それらを使って、次回相関の話をします。
(ちなみに、大学で唯一落とした単位が統計です。)
ありがとうございました。


この記事が気に入ったらサポートをしてみませんか?