マガジンのカバー画像

データ分析 python設定(初歩)〜スタッキング(上級)

26
アナコンダの環境設定や、リストのつかいかたnumpyの使い方など、初歩の初歩から、実際のデータ分析で回帰分析、スタッキングなど上級レベルまでの記事。 pythonで簡単なコードし…
運営しているクリエイター

記事一覧

Udemy for businessで「データ分析」学習記録【都度更新】

最近、会社で希望者全員にUdemy for businessのアカウントが作成されました。 もともとUdem…

1

UMU Python入門 修了【11/28最終更新】

〜2021/11/26会社でe-learning教材としてUMUが使えるようになりました。 学習記録を単元ごと…

1

UMU 機械学習概論 【12/4修了】

Python入門を11/28で修了したので、機械学習概論に入ります。 2021/11/28display(titanic.hea…

1

UMU 実用テーブルデータ処理 【12/12修了】

機械学習概論を12/4で修了したので、実用テーブルデータ処理に入ります。 ここまでやってきて…

データ分析コンペ

2021/12/8欠損値を0(96.011)としていたものを1(96.876)とか3.5(96.876)に変更してみた。結果は…

実用テーブルデータ処理:回帰編【12/21修了】

:今回のコンペは回帰問題なので、回帰編の講義に沿って実際のコンペデータで進めていこうと思…

データ分析コンペ20位以内への試行錯誤①【アンサンブル、LabelEncoder】

2021/12/22【アンサンブル】一通りモデル構築やデータクレンジングの方法が理解できたので、データ分析コンペで上位に入るために試行錯誤の記録を残します。 現在の順位(Publicスコア)は43位。20位以内を目指します。 今日はアンサンブルを試してみる。RF、XGboost、lightGBMの3つのモデルの予測値の平均値、中央値、最小値、最大値をとってみる。 sub_imp_pred=np.min( np.array([sub_gbm_best, sub_rf_be

データ分析コンペ20位以内への試行錯誤②【カテゴリ型、DataFrameの文字列の列からリ…

引き続き予測精度向上に向けて試行錯誤していきます。 2021/12/28【カテゴリ型】引き続き、Ti…

4

データ分析コンペ20位以内への試行錯誤③【説明文を参考にする】

コードをきれいにまとめられるようになってきた気がする。クロスバリデーションも手に入れたか…

データ分析コンペ20位以内への試行錯誤④【クロスバリデーション、箱ひげ図】

2021/12/30PropertyType=宿泊施設の種類を見ていく。 :欠損値はない。64個のユニークなデー…

lightGBMのクロスバリデーション サンプルコード

試行錯誤してなんとかmaeのクロスバリデーションができるようになったので残しておきます。 i…

1

データ分析コンペ20位以内への試行錯誤⑤【カテゴリ型変数を追加してサブミット】

2021/12/31MaximumAccommodates=最大収容人数について見ていく。これは、これまでもずっと学…

1

データ分析コンペ20位以内への試行錯誤⑥【テストデータの分布推測、カテゴリ変数の追…

2022/1/1【テストデータの分布推測】あけましておめでとうございます。今年も更新を頑張ってい…

データ分析コンペ20位以内への試行錯誤⑦【新しい特徴量の作成】

2022/1/1【新しい特徴量の作成】続いて、Vacancy30=30日後までのうち、何日予約が空いているかを見ていく。これは、予約が空いてない方が需要と供給の関係からPriceが高くなりそうと予想できる。 :欠損値はなくて、フロート型だから扱いやすい。 :空きが全く無いのが半分以上、30は全く予約がないということなのか、まあ完全に埋まってないだけということもあるか。 :うーん、Priceとの関係性も読めないな。予約の空きが少ない方が高いということでは全然なさそう。