マガジンのカバー画像

確率的

23
データ分析をする際に心がけている『確率的』にデータを見るということを中心に、データとの向き合い方や今までのマーケットリサーチなどを少しずつアウトプットしていきたいと思います。 …
運営しているクリエイター

記事一覧

相関と見せかけの相関の違いを考える

最近、会社のデータの関係性を分析しようと思っていて、相関、因果などを調べているのですが、その中で勉強したこと、考えたこと、学んだことを一回まとめてみたいと思います。 相関とはまずは、一番の基礎となる相関からスタート。相関とはなにか。英語の方が考えやすいと感じているのですが、英語では、correlation(統計の関数などではcor とかcorrみたいな関数になることが多いですよね)。きっと co-relationなんです。つまり、お互いに関係している状態ということです。

noteで数式を書いてみよう

新年あけましておめでとうございます。2022年何かを始めようと考えている方も多いのではないでしょうか? 自分は、Pythonちゃんとやろうかなと思ったり、思わなかったり。。。 改めて、統計を勉強してみようかと思っている人もいるのかなと思います。 学んだことをアウトプットすることで記憶に定着をさせる。そのためにnoteを使ってみるのもよいと思います。続けていけば、おなじ統計勉強している人たちでコミュニティを作って切磋琢磨していけかもしれません。そうしてみんなでパワーアップでき

条件付き独立とは

先日、今年目標にしていた統計検定準1級合格することができました。 合格できたのは100%、毎週すうがくぶんかの先生たちが見捨てることなく教えてくれたからです。複雑な(私から見るとですが、)数式でポカーンとするたびに翻訳してくれるというか、何とか私でもイメージできるように説明してくれ、内容を理解できるようにしてくれたからだと思っています。 自分が特にそうなのかもしれませんが、まずふわっと全体のイメージと特徴的なところをつかむと全体の理解が進みやすいなぁと思っています。 そん

最尤推定量が少しわかってきた気がする

毎週、すうがくぶんかの先生たちに統計学を教えてもらっています。今、統計検定の準一級をターゲットに(幸運にも、いやいや残念ながら6月の検定が中止になってしまったので、(来年がんばります))、数理統計をじっくり勉強しています。 統計検定の2級と比べて、段違いに難しくなってきているのですが、そこで出てきた最尤推定量の話が、なんかやっと腑に落ちてきたのでメモを残しておきたいと思います。 統計とはそもそも何かかなり乱暴に言うと、統計学って、 ・世の中の多くは確率で決まる。(確率分

野球でノーアウト1塁送りバントはありか、なしか~因果推論で考察する

今年になってから本格的に勉強始めている因果推論。 岩波データサイエンティストのVol3に傾向スコアの使い方のケースで野球のメジャーリーガーで、ノーアウト1塁で送りバントをした方が、しなかった時よりも得点が入りやすいかを確率的に考察されている内容が面白かったので自分も考えたいと思います。 (2006~2014年 4233場面中、1038場面でバント 9年間でこのケース数なので、全件なのかどうかはよくわからず。感覚的には少ないような。) 因果推論 因果推論とは、ある施策(処置

統計検定2級はデータ分析者と一緒に仕事をしている人が受けるべき理由

統計検定2級の試験を受けてきました。 テストが終わり、改めて勉強してきたノートとかを見直していたのですが、この試験で出る範囲は、データ分析者にとっては基礎的な部分のカバーする範囲ではあるのですが(だからこそ、落ちると恥ずかしいと思っています。たぶん大丈夫なはずなんですが。。。) むしろ、データ分析者と一緒に仕事をする人、データの活用を促進したい人こそ受けるべき知識を習得できる構成になっていることに気づきました。 今回はその理由について説明していきたいと思います。 は

統計検定2級の使っている教材

まずは問題を先にやってみたほうがいいと思うので、公式サイトで過去問をやってみましょう。 回答がついていますが、解説やなんでその答えになるかは何もありません。 その時に参考になるのが、統計Webというサイト。(リンクは現在公開中の2019年6月の過去問の答えのまとまっているページのはず。) このサイトは、統計検定2級で理解しておくべき知識をまとめたサイトにもなっていて便利&ほかの人の評価も高いようです。 そのほかには、以下の参考書と過去問を買いました。 https:/

統計検定2級の範囲

統計検定2級ですが、試験の出題範囲としては となっています。 ざっくりいうと、自分の理解としては、 ①データを大枠見れる(データをもらったときにその内容をざっくり把握できる)こと。平均とか中央値とか、四分位とか。箱ひげ図とか。この辺はデータ分析をやっていると感覚的にでも使っているはず。それに合わせて少し追加の知識が必要になるくらいです。 ②確率:事象(余事象とか)、条件付確率、ベイズの定理確率の期待値・分散など。あとは確率分布(2項分布系と正規分布系がメインかなと)

統計検定2級を受けます

いまさらながら、統計検定2級をうけます。 このまえ、なんDに参加した時の懇親会で、分析の仕事に携わってどれくらいという話をしまして、来年で10年。 アクセス解析→アンケートなどの定量調査→ゲームのデータ分析→noteの分析と、内容は変わりつつも、データを扱う仕事をずっとしています。 前職の時に、チーム内に統計検定ブームがきた時も自分はいいかなと思ってました。二つの理由で必要性を感じてなかったためです。 ・ゲームは賛否両論あるかもですが、全数調査できるということ。なので、ドメ

Bonfire Data Analyst #1に言っていました。

ヤフーさんがData Analystのミートアップを開催してくれました。もともとエンジニアなどを対象にしたイベントをやっていたようですが、そのデータアナリスト版です。 タピオカの悲劇などもあり、忘れられないイベントになりました。写真はボンファイア唐揚げだそうです。こんな山盛りの唐揚げをふるまっていただけるなんて、なんて素敵な神イベント。内容も非常に共感を感じさせてくれるものでした。 発表の資料などもこちらに公開されていますので、気になる人はぜひ。 https://yj-m

相関係数と共分散 そして標準化すごい

内場先生の授業2回目 今回のメインテーマは、相関係数と共分散 Corr(X,Y):XとYの相関係数        = Cov(X,Y):XとYの共分散 / (Xの標準偏差・Yの標準偏差)  という公式が昨日のメインでした。 また、Cov(X,Y) は分解の公式がいろいろあるということでごにょごにょ計算に使うのに便利。 だけど一言で説明するのは難しいとのこと 一方、相関係数はイメージしやすいが、応用的に使うのはなかなか難しいという話。 これを一発で解決するのが、標準化だ

確率って考えるってこういうことだってわかった

今週の月曜日から、会社で内場先生の統計のクラスに参加させてもらっています。そこですごい納得をしたことがあるのでご紹介 確率分布のテーマの話だったのですが、そこで出てきた一つの数式   y=ax +b + ε(イプシロン。薬みたいな名前。アトムにもできたはず) 1次方程式なのですが、これを確率を意識して(ばらつき)を意識して考えた形の数式です。 基本的には切片(x=0のときのyの数字)、傾きa分ずつ変化していく数式ですが、このイプシロンが確率的に変動するものです。 た

相関と因果は難しい

ゴールデンウィーク少し勉強しようと思い勉強の仕方をまずはアップデートしようかなと思って本を読んでいるのですが 上の結果から、 実験結果(研究 27-図1) から、正しい書き順でしっかりと漢字が書ける場合にはそれをよく読めて、正しく書けない人は上手に読むことができない、ということがわかります。私たちの 脳には「手の動き」に関する記憶が備わっており、その記憶がしっかりしていれば、読む能力も向上する、ということです。 この表の説明では、しっかり字が書けるとしっかり読めるに関係

協調的機械学習と敵対的機械学習

とうとうMITテクノロジーレビューをサブスクリプション登録してしまいました。最近の機械学習などのトレンドを追うにはいい気がしたんです。 スポンサードシェアという仕組みがあり、以下のリンクをクリックしていただくと全文読めるみたいです。 今日、気になった記事は、 「医療用AI普及へブレークスルー「協調機械学習」は何が画期的か?」 https://www.technologyreview.jp/s/130402/a-little-known-ai-method-can-tra