nekoumei

データサイエンティスト kaggle expert 🥈2 Twitter: h…

nekoumei

データサイエンティスト kaggle expert 🥈2 Twitter: https://twitter.com/nekoumei 旧記事: https://qiita.com/nekoumei

記事一覧

ガブリエル比較区間をpythonで出す

はじめにこんにちは。 信頼区間、便利ですよね。僕もよく使います。 あまり統計に詳しくない方向けにビジュアライズするときにも、95%信頼区間をエラーバーで描画すること…

nekoumei
4年前
3

「サンプルサイズが大きすぎると良くない」ってどういうこと?

はじめにこんにちは。 データ分析界隈でたまに、「サンプルサイズ大きすぎると良くない」って話を聞きます。 主に、検定を行いp-valueから有意差を確認する文脈で言われて…

nekoumei
4年前
88

econmlのestimatorにlgb.cvをつっこむ

こんにちは。因果推論してますか? 最近、つくりながら学ぶ! Pythonによる因果分析 を読んでてmeta-learnersいいなーって思いました。 meta-learnersは実装自体はそんなに…

nekoumei
4年前
10

Alluvial PlotをPythonで描く

TL;DR・Alluvial Plotはいいぞ ・Pythonで良いかんじに描けるライブラリがなかったからつくった ・https://github.com/nekoumei/pyalluvial はじめに皆さんはデータを分析…

nekoumei
4年前
22

LightGBMのCalibration Curveを確認する

はじめに何らかの問題を二値分類で解くとき、予測確率を正しく求めたいことがあります。 scikit-learnのDocumentの例では、ナイーブベイズおよびSVCでの予測確率が実際の確…

nekoumei
4年前
14
ガブリエル比較区間をpythonで出す

ガブリエル比較区間をpythonで出す

はじめにこんにちは。
信頼区間、便利ですよね。僕もよく使います。
あまり統計に詳しくない方向けにビジュアライズするときにも、95%信頼区間をエラーバーで描画することで意図が伝えやすくなる場面もそこそこあります。
しかし、95%信頼区間の重なり具合は必ずしも差がある/あるとは言えないを表しません。
特に、たとえば複数のカテゴリの平均値とその信頼区間を並べたとき、多重比較になるためより誤解が生まれそう

もっとみる
「サンプルサイズが大きすぎると良くない」ってどういうこと?

「サンプルサイズが大きすぎると良くない」ってどういうこと?

はじめにこんにちは。
データ分析界隈でたまに、「サンプルサイズ大きすぎると良くない」って話を聞きます。
主に、検定を行いp-valueから有意差を確認する文脈で言われているようです。

サンプルサイズ設計に関してー理論編より引用
基本的に、多くの検定では例数が大きくなると、有意差があるという結果が得られやすくなります。
(中略)
例数が多すぎる場合:実際には差がなくても有意と判定してしまう

統計

もっとみる
econmlのestimatorにlgb.cvをつっこむ

econmlのestimatorにlgb.cvをつっこむ

こんにちは。因果推論してますか?
最近、つくりながら学ぶ! Pythonによる因果分析 を読んでてmeta-learnersいいなーって思いました。
meta-learnersは実装自体はそんなに難しくないので自力で実装してもいいんですが、個人的にはeconmlを使うのが手軽で良いです。
※ econmlのmeta-learnersの解説、簡易な実験についてはusaitoさんの記事が分かりやすいで

もっとみる
Alluvial PlotをPythonで描く

Alluvial PlotをPythonで描く

TL;DR・Alluvial Plotはいいぞ
・Pythonで良いかんじに描けるライブラリがなかったからつくった
https://github.com/nekoumei/pyalluvial

はじめに皆さんはデータを分析するときに、ある状態の数量などの遷移を可視化したい(たとえばWebページのPVやサービス利用ユーザのクラスタの時系列変化など)とき、どんな可視化を検討しますか。
いろいろある

もっとみる
LightGBMのCalibration Curveを確認する

LightGBMのCalibration Curveを確認する

はじめに何らかの問題を二値分類で解くとき、予測確率を正しく求めたいことがあります。
scikit-learnのDocumentの例では、ナイーブベイズおよびSVCでの予測確率が実際の確率からずれていて、Calibrationを行うことで改善される例が紹介されています。
LightGBMの場合どうなんでしょう。
lgbの公式ドキュメントによると binary classificationの場合は b

もっとみる