マガジンのカバー画像

統計ガール

18
最近統計の勉強をしているので試行錯誤なんかをまとめていきたいです。
運営しているクリエイター

記事一覧

固定された記事

アラサーエンジニア シティボーイ化計画 - 都会のお得物件を統計的に探してみる -

はじまりこの note を運営しているピースオブケイク社でエンジニアをしている hanaori です。少し前から統計学を勉強中でして、現実世界に当てはめて試せそうな題材を探している毎日を過ごしています。 そんな折、「弊社CTOが引っ越しを検討している」という話を聞き、 CTOの引越し先としてコスパの良い物件を、統計を使って探し出しだす のはどうかとひらめいてしまいました 😆 そこで、重回帰分析を用いてコスパに優れる物件を洗い出していきたいと思います。 今回探す物件の条

階層ベイズ入門 | Eight Schoolsデータを用いて特別教育プログラムの効果を推定する

前回、ベイズ推定の基本について野球選手の打率を例にとって学びました。今回はもう一歩踏み込み、学校教育を例にとって 階層ベイズモデル についてがんばって考えていきたいと思います 💪 使用するデータ今回は Eight Schools というデータを使用します。これはアメリカの 8 つの高校で実施された SAT−V スコア向上のための特別な教育プログラムの平均値と標準誤差(※1)のデータです。例えば、学校 1 の平均と標準誤差はそれぞれ 28, 15 となります。 今回やりたい

ベイズ推定入門|野球選手の打率を推定したい

今年になって『データ解析のための統計モデリング入門(通称 緑本)』を読みました。 とても読者にやさしく書かれているなと感じる一方、どうしても特に後半が個人的に難しく「もっと理解したいな」と思ったため David Robinson さんが書かれた記事なども参考にしつつ、もう少し自分なりに噛み砕いて考えてみようと思います。 ベイズ推定がよくわかってないことが理解が難しかった大きな原因のひとつだと感じたので、こちらの記事ではベイズ推定の基本的な考え方からまとめて共有できればと思

Kaggle|American Express - Default Prediction の評価指標を理解したい(ROC曲線/AUC/正規化ジニ係数)

最近Kaggleに入門しまして、知らないことも多くて日々わくわくしています。最近は『American Express - Default Prediction』というクレジットカードのデフォルト(貸し倒れ)率を予測するコンペティションに参加していました。クレジットカードの支払いが極度に滞ったような状態になりそうかどうかを予測しましょうという内容です。 コンペティションごとにうまく予測ができているかを測るための評価指標が与えられているのですが、自分にとってわかりづらい箇所が何

Kaggle初心者がCompetitions Expertになるためにやった4つのこと

今年の3月頃から同僚とKaggleを始めて、つい最近2つめの銅メダルを取りKaggle Competitions Expertになりました。 Kaggleは世界規模のデータサイエンスコンペティションに参加できるプラットフォームです。Kaggleを始めてみたものの機械学習エンジニアの経験などはないため、どう戦っていけばいいかわからないことだらけでした。 今回の経験で感じたことが同じようにKaggle興味ある・頑張りたいなと思っている方の参考になればうれしいと思い、体験談の1

データ分析者さん以外にもおすすめしたい『データ分析のためのデータ可視化入門』

訳者の1人である @kilometer00さん から『データ分析のためのデータ可視化入門』をいただいて、ざっくり読んだので感想を書きたいなと思います。 この本をおすすめしたい対象者・ データの可視化について学びたい人 ・ 伝わりやすいグラフを描きたい人 良いグラフ・悪いグラフについて考えたいとくに感動したのが、良いグラフ/悪いグラフはなんなのか、というところから説明してくれているところです。今まで R やその他のツールでグラフを書くことはありましたが、どう表現するのが適切

大学数学に入門しました -微分積分編-

今年の 3 月に高校数学を一通り勉強し終えた ので、もうちょっと踏み込んだい内容を勉強したいと思い、微分積分を続けて勉強することにしました。9月に一区切りついたので勉強に使った本などを振り返りたいと思います。 こんなかんじの人間です統計学を勉強中なのですが、もう少し理解できるようになりたいな、と思って数学の勉強をはじめました。 ・ 文系(英文学科)出身 ・ Webエンジニア ・ 数ⅠA〜数ⅢCまでは一応復習済み 受講した講座一度勉強した範囲だったり、数学が得意という方は

統計学|検出力とはなんぞや

検出力の手計算がいつもぱっとできないので、これを機に検出力についてまとめてみようと思います。同時にこれから勉強したい、今そこ勉強中だよという方の参考になるとうれしいです 🌱 統計的仮説検定の基本的な流れ最初に基本的な統計的仮説検定の流れを確認します。 第1種の誤りと第2種の誤り 検定を行うときは有意水準・棄却域を定め、求めた検定統計量がその中に入ると自動的に H0 が棄却されます。しかし棄却域に入っているものの本当は H0 が正しい場合もあります。反対に本当は H1 が正

数学を勉強する時におすすめのツール

少し前に高校数学をやり直したのですが、徐々に勉強スタイルが整ってきたので使って便利だったツールをまとめておこうと思います。 今から勉強はじめようと思ってる方や、もうすでにはじめられてる方の参考になればうれしいです。 GeoGebra Graphing Calculator 数式を入力するとグラフを描いてくれます。 Webブラウザやスマホ・iPadのアプリでも使用でき、ぱっとグラフの形を確認したいときにとっても便利です。 Webブラウザや iPad などでも使用できます

文系社会人が統計のために1から高校数学をやりなおしました

こういう人間です・ 文系(英文学科) ・ Webエンジニア ・ 統計を勉強中 モチベーションここ2年ほど統計を勉強しているのですが、そこで毎回立ちふさがるのが数学の壁でした。わたしは文系ということもあって数ⅡB(しかも途中まで)しか履修していなかったため、微分積分や線形代数などが出てくると理解することが難しく時間がかかってしまいます。 でももっと統計を知りたいし理解したい 😭 という気持ちをずっと感じていて今回数学をやり直すことにしました。 高校3年分と考えるとなかな

ARIMAモデルでnoteの週間アクティブユーザー数を予測する

今年早々、note の月間アクティブユーザー数が1,000万人を突破したという記事が出たと思います。 実際 note はかなりの勢いで成長していますが、はたして過去のデータを用いて今後の成長の予測ができるのかどうか気になりました。 今回はGAの週間アクティブユーザー数データを用いて、どのようにnote が成長しているのか、次週のアクティブユーザー数が予測できるのかを見ていきたいと思います 😊 ■ 原系列・差分系列・対数差分系列の確認 ① 原系列 ・ 各時点で期待値・

R|階層線形モデルで渋谷区の賃貸価格を予想する

以前の重回帰による賃貸価格の予測では、『最寄り駅ごとに賃貸価格の母集団分布(例えば各説明変数の母回帰係数)が異なりそう』という仮説を立て、1駅ずつ重回帰モデルを推定していきました。 ただ、駅が変わるとモデルの作り直しをしたりですんごいめんどくさい。 今回はそうした「最寄り駅」ごとに階層構造になっているデータに対する分析手法として知られている「階層線形モデル」を試してそうしたお悩みの解消を試みたいと思います( ˆoˆ ) ■ 今回やりたいこと■ 階層線形モデルとは切片や傾

R|imagerパッケージで画像処理

R Advent Calendar 2018の21日目の記事です( ˆoˆ ) imagerとはRで画像処理を行うためのライブラリ。 CImgというC++ライブラリがベースになっています。 この記事でわかること・ インストール ・ 画像の表現 (cimgクラス) ・ 画像の加工(リサイズ・トリミング) ・ 複数の画像を組み合わせる ・ GIFアニメーションを作成 インストール> install.packages("imager")> library(imager) ※

Normal Q-Q プロットを理解する

重回帰で物件価格を予測する記事でNormal Q-Q プロットという図が出てきたと思います。初めて見られた方はなんの図か理解するのが難しかったのではないでしょうか?(わたしはさっぱりわからなかったです…。) 今回はこの図が意味するところを追っていきたいと思います。 Q-Q プロットの縦軸と横軸の関係Q-Q プロットは2つの確率分布からなるデータを縦軸・横軸に持ち、プロットの結果を見ることでデータが理論的な確率分布に従っているか確認できます。 その中でも Normal Q-