nekoumei

データサイエンティスト kaggle expert 🥈2 Twitter: h…

nekoumei

データサイエンティスト kaggle expert 🥈2 Twitter: https://twitter.com/nekoumei 旧記事: https://qiita.com/nekoumei

最近の記事

ガブリエル比較区間をpythonで出す

はじめにこんにちは。 信頼区間、便利ですよね。僕もよく使います。 あまり統計に詳しくない方向けにビジュアライズするときにも、95%信頼区間をエラーバーで描画することで意図が伝えやすくなる場面もそこそこあります。 しかし、95%信頼区間の重なり具合は必ずしも差がある/あるとは言えないを表しません。 特に、たとえば複数のカテゴリの平均値とその信頼区間を並べたとき、多重比較になるためより誤解が生まれそうです。 このあたりの詳しい話は 【翻訳】ダメな統計学 (6) 有意であるかないか

    • 「サンプルサイズが大きすぎると良くない」ってどういうこと?

      はじめにこんにちは。 データ分析界隈でたまに、「サンプルサイズ大きすぎると良くない」って話を聞きます。 主に、検定を行いp-valueから有意差を確認する文脈で言われているようです。 サンプルサイズ設計に関してー理論編より引用 基本的に、多くの検定では例数が大きくなると、有意差があるという結果が得られやすくなります。 (中略) 例数が多すぎる場合:実際には差がなくても有意と判定してしまう 統計的仮説検定をするときのサンプルサイズの決め方より引用 現実には仮説検定でつかうサ

      • econmlのestimatorにlgb.cvをつっこむ

        こんにちは。因果推論してますか? 最近、つくりながら学ぶ! Pythonによる因果分析 を読んでてmeta-learnersいいなーって思いました。 meta-learnersは実装自体はそんなに難しくないので自力で実装してもいいんですが、個人的にはeconmlを使うのが手軽で良いです。 ※ econmlのmeta-learnersの解説、簡易な実験についてはusaitoさんの記事が分かりやすいです。 さて、そんなeconmlですが利用するestimatorはsklearnラ

        • Alluvial PlotをPythonで描く

          TL;DR・Alluvial Plotはいいぞ ・Pythonで良いかんじに描けるライブラリがなかったからつくった ・https://github.com/nekoumei/pyalluvial はじめに皆さんはデータを分析するときに、ある状態の数量などの遷移を可視化したい(たとえばWebページのPVやサービス利用ユーザのクラスタの時系列変化など)とき、どんな可視化を検討しますか。 いろいろあると思いますが、Sankey Diagramは代表的な手法のひとつだと思います。

        ガブリエル比較区間をpythonで出す

          LightGBMのCalibration Curveを確認する

          はじめに何らかの問題を二値分類で解くとき、予測確率を正しく求めたいことがあります。 scikit-learnのDocumentの例では、ナイーブベイズおよびSVCでの予測確率が実際の確率からずれていて、Calibrationを行うことで改善される例が紹介されています。 LightGBMの場合どうなんでしょう。 lgbの公式ドキュメントによると binary classificationの場合は binary log loss classification (or logist

          LightGBMのCalibration Curveを確認する