【Python】目からウロコが落ちるとはこれ。私のような脳筋系でも感動できたTIPS集

ムジン #IT業務改善＆ネットショップ運営改善やってます

2021年4月9日 18:00

こんなやり方があるんだなと。Tweetしたりブックマークしたりしましたが、それでも忘れそうなので、ここにメモしようという。

いや、本当にこんなやり方があるのかと。

Pandasで偏差値を出す

データフレームの辞書型の生成からの説明です。こういうのが親切だと思います。本当に。

母分散・母標準偏差の計算で引数を渡すところとか、lambda式の書き方と、for文で書いたらどうなるかの説明もあり、結果までの流れがわかりやすいです。

偏差値というのが案外大事で、例えば競馬予想していても、全体として見たときにその馬や騎手の能力は？と問われると、偏差値化したくなるものです。※私は、ですけど

複数の機械学習ライブラリを一発で適応しちゃう方法

KFoldの使い方になっています。

cross_val_scoreの説明も丁寧なんですが、DecisionTreeClassifier, KNeighborsClassifier, SVCをまとめて検証する方法が、とっても便利に感じる人も多いはず。できるはずだよな？と思ったときに、こういう記事は大助かり。

Pandas各グループ内の最上位nレコードを取得

これなんですが、ランキング学習で上位の結果を目視するのに使いました。こんな方法があるんだと、本当に目からウロコが落ちる思い。

df.groupby('id').head(2)

#機械学習
なんてあたまのいい方法だ。。。

Pandas各グループ内の最上位nレコードを取得 https://t.co/LE7AbNbOj2 #python #pandas #greatest-n-per-group #window-functions #top-n
— ムジン｜業務改善＆メディア制作 (@MKP3share) April 8, 2021

nlargestなんかどこで使うんだろうと思ってましたが、ココでした。

python pandas 連番の繰り返しにグループ番号を付与したい

これ、なんてうまいやりかたなのかしら。

「python pandas 連番の繰り返しにグループ番号を付与したい」 https://t.co/l7pqtqVY6N #teratail
— ムジン｜業務改善＆メディア制作 (@MKP3share) April 8, 2021

(df['No'] == 1).cumsum()

これもランキング学習時に、クエリーデータにindexをつけるような作業があって検索中に発見しました。

cumsumしてどうするんだ？と私は思いました。
そして、１がくる度にcumsum（累積和）するのかとわかりました。
最初見た時、？と思いましたが、自分の愚かさがよくわかった件。

Pandas Dataframeでgroupbyの後に条件付きカウントを行う方法は？

グループ化したデータフレームに対し、条件つけしてデータを抽出したい時はあると思います。結構よくあるはず。

特にkeyをapplyしながらラムダでカウントするやり方はスマートだなと思いました。

Pythonを使った機械学習でグループごとに学習させたい

これそのものをTIPSとして、手元の機械学習に使っているわけではないのですが、当然こう思うよなという納得があった質問。

あるデータの塊ごとに学習させて、時系列データを処理していきたい的なことです。
こういうのを経験しておくと、機械学習の結果の検証に自信が持てると思います。

Pythonの決定木をdtreevizでスマートに可視化する

見栄えは大事。
決定木は条件分岐が可視化されると、人間が理解しやすいと思います。
その意味で、dtreevizの見栄えはよくて、とにかくみやすい。
それをビフォー・アフターを交えながら、解説する記事もみやすい。
助かります。

【python】大量のcsvファイルを高速に読み込む方法

大量のデータを扱う際に、その時間は作業コストに直結します。
それにイライラしますからね。
実証結果が載っていて、更に並列処理などにも触れている内容で、非常に参考になりました。ありがたいありがたい。

いつもお読みいただき、ありがとうございます。書くだけでなく読みたいので、コメント欄で記事名入れてもらうと見に行きます。