田中

大学院生、普段はゲノム解析、趣味で野球のデータ分析

2022年のプロ野球野手データをクラスタリングしたよ。

概要2022年度のプロ野球データから規定打席到達者の主成分分析およびクラスタリングを行ったよ。データ主成分分析クラスタリングの流れで紹介します。 1. データいつものごとくNPB公式からシーズン成績を拝借しました。 2. 主成分分析データを見る上のデータを使って主成分分析行います。まずデータのインポート import pandas as pdimport seaborn as snsimport matplotlib.pyplot as pltim

比例尺度を順序尺度に変換、色々な統計量をみる

年齢のデータを20代、30代という風に分けたいとき価格のデータを安い、普通、高いという風に分けたい時に使える #ageのヒストグラムを表示sns.distplot(titanic["Age"]) これを~20歳、20~40歳、40~60、60~というふうに分ける #レベル分けした関数を作るdef convert(i): a=0 if i<20: a="young" elif i>=20 and i<40: a="adult"

田中

2年前
散布図、箱ひげ図、ヒストグラムを用いて外れ値を見る

外れ値は平均などの統計量に影響を与えてしまう。外れ値を見るために散布図を見る #必要なライブラリのインポートimport pandas as pdimport seaborn as snsimport matplotlib.pyplot as plt%matplotlib inlinesns.set(style="darkgrid") 最後はseabornの図のスタイル #散布図sns.scatterplot(data=df,x="Age",y="Fare") 外

田中

2年前
Kaggleの流れ2（欠損値の多いデータの扱い)

データ(列)の欠損値が多いとseabornでヒストグラムを扱えない。また、上位者は約20%の欠損値のある列は列ごと消している。 #データの読み込みtitanic=pd.read_csv("titanic_train.csv) #欠損値をカウント、％を表示する関数def null_count(df,v): total=df[v].isnull().sum() percent=total/len(df[v])*100 return pd.DataFram

田中

2年前

2022年のプロ野球野手データをクラスタリングしたよ。

田中

1年前

比例尺度を順序尺度に変換、色々な統計量をみる

田中

2年前
散布図、箱ひげ図、ヒストグラムを用いて外れ値を見る

田中

2年前
Kaggleの流れ2（欠損値の多いデータの扱い)

田中

2年前

Kaggleの流れ(ヒートマップの作り方)

１　データの概要をチェックコンペの目的、データの概要をチェック２　各データの意味や値をチェックデータは目的変数と関係あるか？しっかり分析する必要あるか？意味がわからないところは調べるデータが多い場合ヒートマップを用いるヒートマップの作り方(例としてKaggleのhome priceのtrain dataを用いた) #必要なライブラリのインポートimport pandas as pdimport seaborn as snsimport numpy as

田中

2年前
Kaggleの流れ(ヒートマップの作り方)

田中

2年前
MacBook Airのキーボード割り当てを変更した。

こんにちは田中です。僕は大学入った最初によく分からず生協パソコンを買ってしまった身ですが、長らく問題がなかったため「生協パソコンは情弱が買うもの」という言葉は間に受けていません。しかし使用して4年も経つとボロが出てしまうもの。_（ろ）のキーが反応しなくなりました。この無事だった期間が短いのか長いのかはわかりませんがこれを機にいろいろ調べたのでその備忘録として残したいと思います。 1 　本当にキーボードが反応しているのかチェックまずこのキーは押されてる状態なの？と

田中

3年前

1
MacBook Airのキーボード割り当てを変更した。

1

田中

3年前

最近の記事

2022年のプロ野球野手データをクラスタリングしたよ。

比例尺度を順序尺度に変換、色々な統計量をみる

散布図、箱ひげ図、ヒストグラムを用いて外れ値を見る

Kaggleの流れ2（欠損値の多いデータの扱い)

2022年のプロ野球野手データをクラスタリングしたよ。

比例尺度を順序尺度に変換、色々な統計量をみる

散布図、箱ひげ図、ヒストグラムを用いて外れ値を見る

Kaggleの流れ2（欠損値の多いデータの扱い)

Kaggleの流れ(ヒートマップの作り方)

Kaggleの流れ(ヒートマップの作り方)

MacBook Airのキーボード割り当てを変更した。

MacBook Airのキーボード割り当てを変更した。