キータ@python/データ分析の修行

おかやまの学生。python/データ分析の独学中。現在、IPO準備中のベンチャーでイン…

32 フォロー 9 フォロワー

回帰問題に対しての評価（scikit-learn)

キータ@python/データ分析の修行

3本
分類問題に対しての評価（scikit-learn)

キータ@python/データ分析の修行

3本
教師あり学習（scikit-learn)

キータ@python/データ分析の修行

5本
教師なし学習（scikit-learn）

キータ@python/データ分析の修行

3本
データ前処理(sklearn)

キータ@python/データ分析の修行

4本

すべてのマガジンを表示

分析後の最終成果物の作成

〇アタックリストの作成・予想される定期預金キャンペーン申込率・期待できる収益（利益×申込率）・投資収益率ROI（期待できる収益/費用×100）を顧客ごとに整理し、投…

キータ@python/データ分析の修行

2年前

パラメータチューニング

〇パラメータとは？　－モデルを作る際の設定値や制限値。　－機械学習では自動的には学習してくれない。　－モデルの性能を大きく左右する。〇料理にたとえると、、、…

キータ@python/データ分析の修行

2年前

グラフレイアウトの概念

〇figure と axes ・1つのfigureに複数のaxesを配置することができます。・figureはたくさんのグラフを描くための大きなキャンバス。・axesはキャンバスの中のグラフを…

キータ@python/データ分析の修行

2年前

洗練されたグラフの作成【seaborn】

〇seabornとは？　　→matplotlibをベースに作られた。　　→matplotlibより細かい調整には不向き。【主な特徴】　　・綺麗なグラフが手軽に作れる。　　・カテゴリの…

キータ@python/データ分析の修行

2年前

データフレームからのグラフ作成

〇折れ線グラフSeriesまたはDataFrameが代入された変数.plot(kind="グラフの種類")SeriesまたはDataFrameが代入された変数.plot.グラフの種類() ★引数kindにグラフの種類…

キータ@python/データ分析の修行

2年前

複数のグラフの操作

〇タイトル・軸ラベルの追加〇タイトルの追加 axesオブジェクトを代入した変数.set_title(グラフのタイトル) 〇軸ラベルの追加 axesオブジェクトを代入した変数.set_x…

キータ@python/データ分析の修行

2年前

グラフの装飾

〇フォントサイズplt.title("東京の月別気温", fontsize=14) 〇色の指定plt.plot(横軸のデータ, 縦軸のデータ, color=色) 【代表的な色】　　red/blue/yellow/green/b…

キータ@python/データ分析の修行

2年前

データの可視化

〇1次関数のグラフ x = 横軸のデータy = 縦軸のデータplt.plot(x, y)plt.show() 〇2次関数のグラフpython標準のリスト型は計算に不向き！　　　　　　　⇓ ライブラリ…

キータ@python/データ分析の修行

2年前

スクレイピング

スクレイピングの具体例としては<p>タグの中身を抽出し、SIGNATEサンプルページの文字列を抽出をします。【ウェブスクレイピングのライブラリ】①reqests　　→ウェブ…

キータ@python/データ分析の修行

2年前

テキストデータに対しての前処理

〇データの確認　・columnを調べる。　→　df.columns 　・ユニークな値を確認→　df.[ ].unique( ) 　・データの大きさ　　→　df.shape 〇テキストデータの内容を確認…

キータ@python/データ分析の修行

2年前

表形式のデータに対する前処理

①対象データの確認と整備最終的にどのようなデータにするべきなのかを明確に決めておく！【データ要件】　・csv形式　・ヘッダーの項目は1行のみ　・pandasで取り込…

キータ@python/データ分析の修行

2年前

今年度中に達成すべきこと。

①数字で語れる男　会社で社長と話すとき、社長のはなしにはいつも『数字』がついてくる。『数字』は、話に『具体性』をもたせた『根拠』となり『信頼性』を感じることに…

キータ@python/データ分析の修行

2年前

R²Score【決定係数】

・R²Scoreは決定係数という。・統計学において独立変数（説明変数）が従属変数（目的変数）のどれくらいを説明できるかを表す値。・最も当てはまりの良い場合、1.0 ・寄…

キータ@python/データ分析の修行

2年前

MeanSquaredError【平均二乗誤差】

・MeanSquaredErrorは平均二乗誤差（MSE）という・実際の値と予測値の絶対値の2乗を平均したもの。・MAEに比べて大きな誤差が存在する時に大きな値を示す。 sklearn.met…

キータ@python/データ分析の修行

2年前

MeanAbsoluteError【平均絶対誤差】

中身のロジックは単純に、誤差の絶対値の平均を示します。 sklearn.metrics.mean_absolute_error（）　　　・第1引数：正解ラベル　　　・第2引数：予測ラベル　＜手順…

キータ@python/データ分析の修行

2年前

AccuracyScore

教師あり学習で作成した分類モデルがどのくらいの精度になっているか確認するためにaccuracyを算出してみましょう。＜手順①＞ライブラリのインポート In [1]: # ライブ…

キータ@python/データ分析の修行

2年前

キータ@python/データ分析の修行

2022年3月3日 07:24

分析後の最終成果物の作成

〇アタックリストの作成・予想される定期預金キャンペーン申込率
・期待できる収益（利益×申込率）
・投資収益率ROI（期待できる収益/費用×100）
を顧客ごとに整理し、投資収益率が高い順に並び変えたものを作成。

＜初期数値＞
・マーケティング費用（通信費、オペレーター人件費）
　　→１顧客当たり約300円
・定期預金を申し込んでくれた時の利益
　　→１顧客当たり約2,000円

＜方向性＞
評価

もっとみる

キータ@python/データ分析の修行

2022年3月3日 06:35

パラメータチューニング

〇パラメータとは？　－モデルを作る際の設定値や制限値。
　－機械学習では自動的には学習してくれない。
　－モデルの性能を大きく左右する。

〇料理にたとえると、、、
　・データ　→　食材
　・パラメータ　→　加熱時間、分量、など
　・アルゴリズム　→　レシピ

〇交差検証　→パラメーターのチューニング方法の１つ。
　→分割によって学習・評価データのパターンを複数つくり、モデルの汎化性能を評価する方

もっとみる

キータ@python/データ分析の修行

2022年2月27日 18:07

グラフレイアウトの概念

〇figure と axes

・1つのfigureに複数のaxesを配置することができます。
・figureはたくさんのグラフを描くための大きなキャンバス。
・axesはキャンバスの中のグラフを描く領域。

※グラフを2つ描く場合は、以下の2パターンが考えられる！
　　①figureを2つ用意し、それぞれのfigureの中にaxesを1つずつ作成。
　　②figureを1つ用意し、その中にaxe

もっとみる

キータ@python/データ分析の修行

2022年2月25日 22:53

洗練されたグラフの作成【seaborn】

〇seabornとは？　　→matplotlibをベースに作られた。
　　→matplotlibより細かい調整には不向き。

【主な特徴】　　・綺麗なグラフが手軽に作れる。
　　・カテゴリの比較が簡単にできる。
　　・統計グラフィックが充実している。
　　・データフレームを参照してグラフを作成する。

〇データの準備　→データの可視化をすぐに試すことができるよう、アヤメやタイタニックのデータセット

もっとみる

キータ@python/データ分析の修行

2022年2月24日 03:13

データフレームからのグラフ作成

〇折れ線グラフSeriesまたはDataFrameが代入された変数.plot(kind="グラフの種類")SeriesまたはDataFrameが代入された変数.plot.グラフの種類()

★引数kindにグラフの種類を指定する記法★

★plot()関数の引数★

SeriesまたはDataFrameが代入された変数.plot(title="グラフのタイトル")

例）

# matplotli

もっとみる

キータ@python/データ分析の修行

2022年2月23日 21:21

複数のグラフの操作

〇タイトル・軸ラベルの追加〇タイトルの追加

axesオブジェクトを代入した変数.set_title(グラフのタイトル)

〇軸ラベルの追加

axesオブジェクトを代入した変数.set_xlabel(横軸のラベル名)axesオブジェクトを代入した変数.set_ylabel(縦軸のラベル名)

※pyplotモジュールを使う場合と、axesオブジェクト関数を使う場合では、同じ操作でも関数名が異

もっとみる

キータ@python/データ分析の修行

2022年2月22日 00:56

グラフの装飾

〇フォントサイズplt.title("東京の月別気温", fontsize=14)

〇色の指定plt.plot(横軸のデータ, 縦軸のデータ, color=色)

【代表的な色】
　　red/blue/yellow/green/black/white

　※引数colorはcと省略して表記。

〇透明度の指定plt.hist(数値型データ, alpha=透明度)

　　※alpha 『0.0

もっとみる

キータ@python/データ分析の修行

2022年2月21日 18:40

データの可視化

〇1次関数のグラフ

x = 横軸のデータy = 縦軸のデータplt.plot(x, y)plt.show()

〇2次関数のグラフpython標準のリスト型は計算に不向き！
　　　　　　　⇓
ライブラリnumpyのarray()関数を使用して、
numpy.ndarray型の配列を使用！

# matplotlib.pyplotのインポートimport matplotlib.pyplot a

もっとみる

キータ@python/データ分析の修行

2022年2月21日 18:01

スクレイピング

スクレイピングの具体例としては<p>タグの中身を抽出し、SIGNATEサンプルページの文字列を抽出をします。

【ウェブスクレイピングのライブラリ】①reqests　　→ウェブページを取得する際に使う。

②BeautifulSoup　　→取得したウェブページを解析し、タグの検索、データの形成をする。

【スクレイピングの手順】①.get( )を用い、取得したいウェブページのURLを指定。

もっとみる

キータ@python/データ分析の修行

2022年2月21日 01:34

テキストデータに対しての前処理

〇データの確認
　・columnを調べる。　→　df.columns
　・ユニークな値を確認→　df.[ ].unique( )
　・データの大きさ　　→　df.shape

〇テキストデータの内容を確認する。

In [1]: # ライブラリのインポート import pandas as pd # データの読み込み df_data = pd.read_csv(

もっとみる

キータ@python/データ分析の修行

2022年2月20日 21:10

表形式のデータに対する前処理

①対象データの確認と整備最終的にどのようなデータにするべきなのかを明確に決めておく！

【データ要件】
　・csv形式
　・ヘッダーの項目は1行のみ
　・pandasで取り込んだ後に可視化を行うことが出来る。

ーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーー

②データの読み込みと内容確認

②-1.データの読み込み・Excelファイルの場合、pandasのread_exce

もっとみる

キータ@python/データ分析の修行

2022年2月18日 01:10

今年度中に達成すべきこと。

①数字で語れる男　会社で社長と話すとき、社長のはなしにはいつも『数字』がついてくる。
『数字』は、話に『具体性』をもたせた『根拠』となり『信頼性』を感じることに気づいた。『このビジネスモデルはなんとなくいける気がするんです。』なんてゆわれても誰も信じない。なぜうまくいくのか？どれくらいうまくいくのか？どれくらいの確率で成功するのか？がわかれば信じる人は増える。こんなにパワーのある『数字』を味方につ

もっとみる

キータ@python/データ分析の修行

2022年2月13日 02:35

R²Score【決定係数】

・R²Scoreは決定係数という。
・統計学において独立変数（説明変数）が従属変数（目的変数）のどれくらいを説明できるかを表す値。
・最も当てはまりの良い場合、1.0
・寄与率と呼ばれることもある。
・MAEに比べて、大きな誤差が存在する時に小さな値を示す特徴
・MAEと異なり、値が大きいほど誤差の少ないモデル

sklearn.metrics.r2_score
　　　　・第1引数：正解ラベル
　

もっとみる

キータ@python/データ分析の修行

2022年2月13日 02:35

MeanSquaredError【平均二乗誤差】

・MeanSquaredErrorは平均二乗誤差（MSE）という
・実際の値と予測値の絶対値の2乗を平均したもの。
・MAEに比べて大きな誤差が存在する時に大きな値を示す。

sklearn.metrics.mean_squared_error
　　・第1引数：正解ラベル
　　・第2引数：予測ラベル

＜手順①＞ライブラリのインポート、データのロード

# ライブラリのインポートimport pa

もっとみる

キータ@python/データ分析の修行

2022年2月13日 02:35

MeanAbsoluteError【平均絶対誤差】

中身のロジックは単純に、誤差の絶対値の平均を示します。

sklearn.metrics.mean_absolute_error（）　　　・第1引数：正解ラベル
　　　・第2引数：予測ラベル　

＜手順①＞ライブラリのインポート、インスタンスの作成

# ライブラリのインポートimport pandas as pdfrom sklearn.datasets import load_bostonfr

もっとみる

キータ@python/データ分析の修行

2022年2月13日 02:35

AccuracyScore

教師あり学習で作成した分類モデルがどのくらいの精度になっているか確認するためにaccuracyを算出してみましょう。

＜手順①＞ライブラリのインポート

In [1]: # ライブラリのインポート from sklearn.metrics import accuracy_score

＜手順②＞正解ラベル、予測ラベルの指定

# 予測ラベル y_pred = [0

もっとみる

マガジン

回帰問題に対しての評価（scikit-learn)

分類問題に対しての評価（scikit-learn)

教師あり学習（scikit-learn)

教師なし学習（scikit-learn）

データ前処理(sklearn)

記事一覧

分析後の最終成果物の作成

パラメータチューニング

グラフレイアウトの概念

洗練されたグラフの作成【seaborn】

データフレームからのグラフ作成

複数のグラフの操作

グラフの装飾

データの可視化

スクレイピング

テキストデータに対しての前処理

表形式のデータに対する前処理

今年度中に達成すべきこと。

R²Score【決定係数】

MeanSquaredError【平均二乗誤差】

MeanAbsoluteError【平均絶対誤差】

AccuracyScore