記事一覧
分析後の最終成果物の作成
〇アタックリストの作成・予想される定期預金キャンペーン申込率
・期待できる収益(利益×申込率)
・投資収益率ROI(期待できる収益/費用×100)
を顧客ごとに整理し、投資収益率が高い順に並び変えたものを作成。
<初期数値>
・マーケティング費用(通信費、オペレーター人件費)
→1顧客当たり約300円
・定期預金を申し込んでくれた時の利益
→1顧客当たり約2,000円
<方向性>
評価
パラメータチューニング
〇パラメータとは? -モデルを作る際の設定値や制限値。
-機械学習では自動的には学習してくれない。
-モデルの性能を大きく左右する。
〇料理にたとえると、、、
・データ → 食材
・パラメータ → 加熱時間、分量、など
・アルゴリズム → レシピ
〇交差検証 →パラメーターのチューニング方法の1つ。
→分割によって学習・評価データのパターンを複数つくり、モデルの汎化性能を評価する方
洗練されたグラフの作成【seaborn】
〇seabornとは? →matplotlibをベースに作られた。
→matplotlibより細かい調整には不向き。
【主な特徴】 ・綺麗なグラフが手軽に作れる。
・カテゴリの比較が簡単にできる。
・統計グラフィックが充実している。
・データフレームを参照してグラフを作成する。
〇データの準備 →データの可視化をすぐに試すことができるよう、アヤメやタイタニックのデータセット
データフレームからのグラフ作成
〇折れ線グラフSeriesまたはDataFrameが代入された変数.plot(kind="グラフの種類")SeriesまたはDataFrameが代入された変数.plot.グラフの種類()
★引数kindにグラフの種類を指定する記法★
★plot()関数の引数★
SeriesまたはDataFrameが代入された変数.plot(title="グラフのタイトル")
例)
# matplotli
テキストデータに対しての前処理
〇データの確認
・columnを調べる。 → df.columns
・ユニークな値を確認→ df.[ ].unique( )
・データの大きさ → df.shape
〇テキストデータの内容を確認する。
In [1]: # ライブラリのインポート import pandas as pd # データの読み込み df_data = pd.read_csv(
表形式のデータに対する前処理
①対象データの確認と整備最終的にどのようなデータにするべきなのかを明確に決めておく!
【データ要件】
・csv形式
・ヘッダーの項目は1行のみ
・pandasで取り込んだ後に可視化を行うことが出来る。
ーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーー
②データの読み込みと内容確認
②-1.データの読み込み・Excelファイルの場合、pandasのread_exce
今年度中に達成すべきこと。
①数字で語れる男 会社で社長と話すとき、社長のはなしにはいつも『数字』がついてくる。
『数字』は、話に『具体性』をもたせた『根拠』となり『信頼性』を感じることに気づいた。『このビジネスモデルはなんとなくいける気がするんです。』なんてゆわれても誰も信じない。なぜうまくいくのか?どれくらいうまくいくのか?どれくらいの確率で成功するのか?がわかれば信じる人は増える。こんなにパワーのある『数字』を味方につ
R²Score【決定係数】
・R²Scoreは決定係数という。
・統計学において独立変数(説明変数)が従属変数(目的変数)のどれくらいを説明できるかを表す値。
・最も当てはまりの良い場合、1.0
・寄与率と呼ばれることもある。
・MAEに比べて、大きな誤差が存在する時に小さな値を示す特徴
・MAEと異なり、値が大きいほど誤差の少ないモデル
sklearn.metrics.r2_score
・第1引数:正解ラベル
MeanSquaredError【平均二乗誤差】
・MeanSquaredErrorは平均二乗誤差(MSE)という
・実際の値と予測値の絶対値の2乗を平均したもの。
・MAEに比べて大きな誤差が存在する時に大きな値を示す。
sklearn.metrics.mean_squared_error
・第1引数:正解ラベル
・第2引数:予測ラベル
<手順①>ライブラリのインポート、データのロード
# ライブラリのインポートimport pa
MeanAbsoluteError【平均絶対誤差】
中身のロジックは単純に、誤差の絶対値の平均を示します。
sklearn.metrics.mean_absolute_error() ・第1引数:正解ラベル
・第2引数:予測ラベル
<手順①>ライブラリのインポート、インスタンスの作成
# ライブラリのインポートimport pandas as pdfrom sklearn.datasets import load_bostonfr
AccuracyScore
教師あり学習で作成した分類モデルがどのくらいの精度になっているか確認するためにaccuracyを算出してみましょう。
<手順①>ライブラリのインポート
In [1]: # ライブラリのインポート from sklearn.metrics import accuracy_score
<手順②>正解ラベル、予測ラベルの指定
# 予測ラベル y_pred = [0