見出し画像

概念を捕まえないといけない

統計の本を読んでるよって話を書いてました。仲間から「統計の概念がよくわからないからちょっと聞いてもいい」というのでお話してきました。わたしなりの理解を伝えたつもりで、うまく伝わったらいいなとおもいました。

他の方からも、分散と標準偏差の関係がよくわからないといわれるのです。しかし、わたしも「正しい理解」をしてるというか、自分の中で概念として捕まえるように努力しています。

例えば

分散は「データーの広がり具合、散らばり具合の指標」(向後ら 2016)と書いています。でもこれって「出てきた数字を比べてみないといけない数字」なんですよね。このことに気がつかないと「16666.67」って数字って分散でどういう意味なの!となってしまいます。

平均が同じ5でも、0.91と8.18を比べたらとりあえず8.18のほうが大きいからデーターが分散してるんだな、という程度で理解できるんです。

ここで出てきた分散は、元データーと平均を引いた二乗同士の足し算をデーター個数でわった値なので、元データーに対して使いづらい。なぜならデーターが全部二乗のせいで、単位が二乗になるから。たとえば、上の表が単位が"cm"だとしたら、平均は"cm"。でも分散は(平均ー分散)^2をするので、cm^2になってしまう。だから単位をあわせるためにルートをしたら、単位がcmになったよね。という話だと理解しています。これを標準偏差(SD)と呼んでるだけです。

じゃあ、単位がそろったところでこれなんの値?という話になります。きっとだれかがしらべたんだとおもいます。するとSDにはどうやら「データーが正規分布に従っている場合、平均±1SDのエリアにデーターの68%が分布する」(向後ら 2016)という性質があるとのこと。

まとめると単位をあわせたおかげで平均値にSDを足したり引いたりすることができた。平均に足し引きしてみたらそこの間にデーターの68%があることがわかった。これだけ。

たぶんこの程度の理解をしながら「身につく入門統計学」を読めばたぶん必要な解析はできるようになるとおもいますよー。なので本を暗記するよりも概念を理解すると道具はつかえるようになります。とはいえ私数学こう見えて苦手で、いまだにベクトルの内積の概念がいまいち自分で捉えられてないんですよね。もうちょっとがんばればわかるかな?

で、最後に全然別件。サイボウズLiveがEnd of Lifeになるので慌てているという話をちらほらききます。ただエンジニアとかの界隈でなんにも話題にならないということは、「ベンチャーとか大企業はつかってないから俺しらない」っていう話じゃないかとおもうんです。実際に友達が作っていたLivedoor Readerのときは、代替サービス作る!って宣言してたぐらいなので。

http://www.itmedia.co.jp/news/articles/1709/27/news102.html

Cybozu Liveは仲間ががんがんつかっています。じゃあ自分には何が貢献と考えたときに、「サイボウズLive」の互換機能をもってほぼ同じUIのアプリつくるしかないかな、とおもっています。

・グループ
・掲示板+ファイル保存
・チャット

機能だけに絞れば、Rails + Bootstrap4で開発すれば3ヶ月で動くモノはできるんじゃないかなとおもっています。データー移行も、添付ファイルと投稿の紐付け除けば、さっくりいけるんじゃないと思います。自分がいまお世話になっている人達に、なにができるか考えた結果、いままでもってきたエンジニアリングの知識を総動員したいとおもいます。興味ある方はコメントとかください。

よろしくお願いします。

参考文献
向後千春・冨永敦子 (2016) 身につく 入門統計学 技術評論社.


この記事が気に入ったらサポートをしてみませんか?