マガジンのカバー画像

統計ガール

18
最近統計の勉強をしているので試行錯誤なんかをまとめていきたいです。
運営しているクリエイター

#統計学

アラサーエンジニア シティボーイ化計画 - 都会のお得物件を統計的に探してみる -

はじまりこの note を運営しているピースオブケイク社でエンジニアをしている hanaori です。少し前から統計学を勉強中でして、現実世界に当てはめて試せそうな題材を探している毎日を過ごしています。 そんな折、「弊社CTOが引っ越しを検討している」という話を聞き、 CTOの引越し先としてコスパの良い物件を、統計を使って探し出しだす のはどうかとひらめいてしまいました 😆 そこで、重回帰分析を用いてコスパに優れる物件を洗い出していきたいと思います。 今回探す物件の条

階層ベイズ入門 | Eight Schoolsデータを用いて特別教育プログラムの効果を推定する

前回、ベイズ推定の基本について野球選手の打率を例にとって学びました。今回はもう一歩踏み込み、学校教育を例にとって 階層ベイズモデル についてがんばって考えていきたいと思います 💪 使用するデータ今回は Eight Schools というデータを使用します。これはアメリカの 8 つの高校で実施された SAT−V スコア向上のための特別な教育プログラムの平均値と標準誤差(※1)のデータです。例えば、学校 1 の平均と標準誤差はそれぞれ 28, 15 となります。 今回やりたい

ベイズ推定入門|野球選手の打率を推定したい

今年になって『データ解析のための統計モデリング入門(通称 緑本)』を読みました。 とても読者にやさしく書かれているなと感じる一方、どうしても特に後半が個人的に難しく「もっと理解したいな」と思ったため David Robinson さんが書かれた記事なども参考にしつつ、もう少し自分なりに噛み砕いて考えてみようと思います。 ベイズ推定がよくわかってないことが理解が難しかった大きな原因のひとつだと感じたので、こちらの記事ではベイズ推定の基本的な考え方からまとめて共有できればと思

Kaggle|American Express - Default Prediction の評価指標を理解したい(ROC曲線/AUC/正規化ジニ係数)

最近Kaggleに入門しまして、知らないことも多くて日々わくわくしています。最近は『American Express - Default Prediction』というクレジットカードのデフォルト(貸し倒れ)率を予測するコンペティションに参加していました。クレジットカードの支払いが極度に滞ったような状態になりそうかどうかを予測しましょうという内容です。 コンペティションごとにうまく予測ができているかを測るための評価指標が与えられているのですが、自分にとってわかりづらい箇所が何

統計学|検出力とはなんぞや

検出力の手計算がいつもぱっとできないので、これを機に検出力についてまとめてみようと思います。同時にこれから勉強したい、今そこ勉強中だよという方の参考になるとうれしいです 🌱 統計的仮説検定の基本的な流れ最初に基本的な統計的仮説検定の流れを確認します。 第1種の誤りと第2種の誤り 検定を行うときは有意水準・棄却域を定め、求めた検定統計量がその中に入ると自動的に H0 が棄却されます。しかし棄却域に入っているものの本当は H0 が正しい場合もあります。反対に本当は H1 が正

ARIMAモデルでnoteの週間アクティブユーザー数を予測する

今年早々、note の月間アクティブユーザー数が1,000万人を突破したという記事が出たと思います。 実際 note はかなりの勢いで成長していますが、はたして過去のデータを用いて今後の成長の予測ができるのかどうか気になりました。 今回はGAの週間アクティブユーザー数データを用いて、どのようにnote が成長しているのか、次週のアクティブユーザー数が予測できるのかを見ていきたいと思います 😊 ■ 原系列・差分系列・対数差分系列の確認 ① 原系列 ・ 各時点で期待値・

R|階層線形モデルで渋谷区の賃貸価格を予想する

以前の重回帰による賃貸価格の予測では、『最寄り駅ごとに賃貸価格の母集団分布(例えば各説明変数の母回帰係数)が異なりそう』という仮説を立て、1駅ずつ重回帰モデルを推定していきました。 ただ、駅が変わるとモデルの作り直しをしたりですんごいめんどくさい。 今回はそうした「最寄り駅」ごとに階層構造になっているデータに対する分析手法として知られている「階層線形モデル」を試してそうしたお悩みの解消を試みたいと思います( ˆoˆ ) ■ 今回やりたいこと■ 階層線形モデルとは切片や傾

Normal Q-Q プロットを理解する

重回帰で物件価格を予測する記事でNormal Q-Q プロットという図が出てきたと思います。初めて見られた方はなんの図か理解するのが難しかったのではないでしょうか?(わたしはさっぱりわからなかったです…。) 今回はこの図が意味するところを追っていきたいと思います。 Q-Q プロットの縦軸と横軸の関係Q-Q プロットは2つの確率分布からなるデータを縦軸・横軸に持ち、プロットの結果を見ることでデータが理論的な確率分布に従っているか確認できます。 その中でも Normal Q-

R|ggplot2で箱ひげ図を描く

* Rのggplot力をあげたいシリーズ第3弾 * (ggplot2の基本についてはこちらを見てね) この記事でわかること1. 基本の箱ひげ図の描画 2. 省略記法 1. 基本の箱ひげ図の描画 箱ひげ図を描くにはグラフの種類の部分に geom_boxplot を指定します。 今回は『あやめ』のデータを使っていきます。 aes のx軸にグルーピングしたい変数を、y軸にばらつきを確かめたい変数を指定します。 今回は、以下を指定します。 x:三種類のあやめの品種を表す

R|ggplot2で棒グラフを描く

* Rのggplot力をあげたいシリーズ第2弾 * (ggplot2の基本についてはこちらを見てね) この記事でわかること1. 基本の棒グラフの描画 2. 積み上げて描画する 3. グループ化して描画する 1. 基本の棒グラフの描画 棒グラフを描くにはグラフの種類の部分に geom_bar を指定します。 今回は『異なるエサで飼育されたヒナの体重の推移』のデータを使っていきます。 > data(ChickWeight)> head(ChickWeight) w

R|ggplot2 とは

Rのggplot力をあげたいシリーズ第1弾 この記事でわかること1. ggplot2とは 2. ggplot2の文法 3. 描画してみる 1. ggplot2とはggplot2はハドリー・ウィッカム氏が作成したR言語で使用できるグラフ描画用のパッケージです。 レイヤーを重ねるようにグラフを構成することができます。 2. ggplot2の文法 ggplot2でグラフを描く場合、上記のような文法になります。 +で繋がれているように、ggplotオブジェクトに要素を足

文系のわたしが統計検定2級に合格するまでに読んだ本

統計検定を受けようと思った背景昨年Courseraという教育系サービスでMachine Learningを学んだところ統計の知識が前提になっている部分が垣間見え、もっと根本から理解したいと思い勉強をスタートしました。 ちなみに今回合格したのはCBTでの受験です。 同じような方の参考になるかなと思い、今回は勉強に使った本をご紹介します。 こんな人間です参考書① よくわかる数学2・B 実際今回の検定と直接的に関係がありそうなのは3章目からなんですが、いかんせん自分文系なので