キータ@python/データ分析の修行

おかやまの学生。python/データ分析の独学中。現在、IPO準備中のベンチャーでイン…

キータ@python/データ分析の修行

おかやまの学生。python/データ分析の独学中。現在、IPO準備中のベンチャーでインターンに参加中。マーケティングのサポートや、業務効率化をします。ポートフォリオや実務経験を積み上げ中。

マガジン

記事一覧

分析後の最終成果物の作成

〇アタックリストの作成・予想される定期預金キャンペーン申込率 ・期待できる収益(利益×申込率) ・投資収益率ROI(期待できる収益/費用×100) を顧客ごとに整理し、投…

パラメータチューニング

〇パラメータとは? -モデルを作る際の設定値や制限値。  -機械学習では自動的には学習してくれない。  -モデルの性能を大きく左右する。 〇料理にたとえると、、、…

グラフレイアウトの概念

〇figure と axes ・1つのfigureに複数のaxesを配置することができます。 ・figureはたくさんのグラフを描くための大きなキャンバス。 ・axesはキャンバスの中のグラフを…

洗練されたグラフの作成【seaborn】

〇seabornとは?  →matplotlibをベースに作られた。   →matplotlibより細かい調整には不向き。 【主な特徴】  ・綺麗なグラフが手軽に作れる。   ・カテゴリの…

データフレームからのグラフ作成

〇折れ線グラフSeriesまたはDataFrameが代入された変数.plot(kind="グラフの種類")SeriesまたはDataFrameが代入された変数.plot.グラフの種類() ★引数kindにグラフの種類…

複数のグラフの操作

〇タイトル・軸ラベルの追加〇タイトルの追加 axesオブジェクトを代入した変数.set_title(グラフのタイトル) 〇軸ラベルの追加 axesオブジェクトを代入した変数.set_x…

グラフの装飾

〇フォントサイズplt.title("東京の月別気温", fontsize=14) 〇色の指定plt.plot(横軸のデータ, 縦軸のデータ, color=色) 【代表的な色】   red/blue/yellow/green/b…

データの可視化

〇1次関数のグラフ x = 横軸のデータy = 縦軸のデータplt.plot(x, y)plt.show() 〇2次関数のグラフpython標準のリスト型は計算に不向き!        ⇓ ライブラリ…

スクレイピング

スクレイピングの具体例としては<p>タグの中身を抽出し、SIGNATEサンプルページの文字列を抽出をします。 【ウェブスクレイピングのライブラリ】①reqests  →ウェブ…

テキストデータに対しての前処理

〇データの確認  ・columnを調べる。 → df.columns  ・ユニークな値を確認→ df.[ ].unique( )  ・データの大きさ  → df.shape 〇テキストデータの内容を確認…

表形式のデータに対する前処理

①対象データの確認と整備最終的にどのようなデータにするべきなのかを明確に決めておく! 【データ要件】  ・csv形式  ・ヘッダーの項目は1行のみ  ・pandasで取り込…

今年度中に達成すべきこと。

①数字で語れる男 会社で社長と話すとき、社長のはなしにはいつも『数字』がついてくる。 『数字』は、話に『具体性』をもたせた『根拠』となり『信頼性』を感じることに…

R²Score【決定係数】

・R²Scoreは決定係数という。 ・統計学において独立変数(説明変数)が従属変数(目的変数)のどれくらいを説明できるかを表す値。 ・最も当てはまりの良い場合、1.0 ・寄…

MeanSquaredError【平均二乗誤差】

・MeanSquaredErrorは平均二乗誤差(MSE)という ・実際の値と予測値の絶対値の2乗を平均したもの。 ・MAEに比べて大きな誤差が存在する時に大きな値を示す。 sklearn.met…

MeanAbsoluteError【平均絶対誤差】

中身のロジックは単純に、誤差の絶対値の平均を示します。 sklearn.metrics.mean_absolute_error()   ・第1引数:正解ラベル    ・第2引数:予測ラベル  <手順…

AccuracyScore

教師あり学習で作成した分類モデルがどのくらいの精度になっているか確認するためにaccuracyを算出してみましょう。 <手順①>ライブラリのインポート In [1]: # ライブ…

分析後の最終成果物の作成

〇アタックリストの作成・予想される定期預金キャンペーン申込率
・期待できる収益(利益×申込率)
・投資収益率ROI(期待できる収益/費用×100)
を顧客ごとに整理し、投資収益率が高い順に並び変えたものを作成。

<初期数値>
・マーケティング費用(通信費、オペレーター人件費)
  →1顧客当たり約300円
・定期預金を申し込んでくれた時の利益
  →1顧客当たり約2,000円

<方向性>
評価

もっとみる

パラメータチューニング

〇パラメータとは? -モデルを作る際の設定値や制限値。
 -機械学習では自動的には学習してくれない。
 -モデルの性能を大きく左右する。

〇料理にたとえると、、、
 ・データ → 食材
 ・パラメータ → 加熱時間、分量、など
 ・アルゴリズム → レシピ

〇交差検証 →パラメーターのチューニング方法の1つ。
 →分割によって学習・評価データのパターンを複数つくり、モデルの汎化性能を評価する方

もっとみる

グラフレイアウトの概念

〇figure と axes

・1つのfigureに複数のaxesを配置することができます。
・figureはたくさんのグラフを描くための大きなキャンバス。
・axesはキャンバスの中のグラフを描く領域。

※グラフを2つ描く場合は、以下の2パターンが考えられる!
  ①figureを2つ用意し、それぞれのfigureの中にaxesを1つずつ作成。
  ②figureを1つ用意し、その中にaxe

もっとみる

洗練されたグラフの作成【seaborn】

〇seabornとは?  →matplotlibをベースに作られた。
  →matplotlibより細かい調整には不向き。

【主な特徴】  ・綺麗なグラフが手軽に作れる。
  ・カテゴリの比較が簡単にできる。
  ・統計グラフィックが充実している。
  ・データフレームを参照してグラフを作成する。

〇データの準備 →データの可視化をすぐに試すことができるよう、アヤメやタイタニックのデータセット

もっとみる

データフレームからのグラフ作成

〇折れ線グラフSeriesまたはDataFrameが代入された変数.plot(kind="グラフの種類")SeriesまたはDataFrameが代入された変数.plot.グラフの種類()

★引数kindにグラフの種類を指定する記法★

★plot()関数の引数★

SeriesまたはDataFrameが代入された変数.plot(title="グラフのタイトル")

例)

# matplotli

もっとみる

複数のグラフの操作



〇タイトル・軸ラベルの追加〇タイトルの追加

axesオブジェクトを代入した変数.set_title(グラフのタイトル)

〇軸ラベルの追加

axesオブジェクトを代入した変数.set_xlabel(横軸のラベル名)axesオブジェクトを代入した変数.set_ylabel(縦軸のラベル名)

※pyplotモジュールを使う場合と、axesオブジェクト関数を使う場合では、同じ操作でも関数名が異

もっとみる

グラフの装飾



〇フォントサイズplt.title("東京の月別気温", fontsize=14)

〇色の指定plt.plot(横軸のデータ, 縦軸のデータ, color=色)

【代表的な色】
  red/blue/yellow/green/black/white

 ※引数colorはcと省略して表記。

〇透明度の指定plt.hist(数値型データ, alpha=透明度)

  ※alpha 『0.0

もっとみる

データの可視化



〇1次関数のグラフ

x = 横軸のデータy = 縦軸のデータplt.plot(x, y)plt.show()

〇2次関数のグラフpython標準のリスト型は計算に不向き!
       ⇓
ライブラリnumpyのarray()関数を使用して、
numpy.ndarray型の配列を使用!

# matplotlib.pyplotのインポートimport matplotlib.pyplot a

もっとみる

スクレイピング



スクレイピングの具体例としては<p>タグの中身を抽出し、SIGNATEサンプルページの文字列を抽出をします。

【ウェブスクレイピングのライブラリ】①reqests  →ウェブページを取得する際に使う。

②BeautifulSoup  →取得したウェブページを解析し、タグの検索、データの形成をする。

【スクレイピングの手順】①.get( )を用い、取得したいウェブページのURLを指定。

もっとみる

テキストデータに対しての前処理

〇データの確認
 ・columnを調べる。 → df.columns
 ・ユニークな値を確認→ df.[ ].unique( )
 ・データの大きさ  → df.shape

〇テキストデータの内容を確認する。

In [1]: # ライブラリのインポート import pandas as pd # データの読み込み df_data = pd.read_csv(

もっとみる

表形式のデータに対する前処理

①対象データの確認と整備最終的にどのようなデータにするべきなのかを明確に決めておく!

【データ要件】
 ・csv形式
 ・ヘッダーの項目は1行のみ
 ・pandasで取り込んだ後に可視化を行うことが出来る。

ーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーー

②データの読み込みと内容確認

②-1.データの読み込み・Excelファイルの場合、pandasのread_exce

もっとみる

今年度中に達成すべきこと。

①数字で語れる男 会社で社長と話すとき、社長のはなしにはいつも『数字』がついてくる。
『数字』は、話に『具体性』をもたせた『根拠』となり『信頼性』を感じることに気づいた。『このビジネスモデルはなんとなくいける気がするんです。』なんてゆわれても誰も信じない。なぜうまくいくのか?どれくらいうまくいくのか?どれくらいの確率で成功するのか?がわかれば信じる人は増える。こんなにパワーのある『数字』を味方につ

もっとみる

R²Score【決定係数】

・R²Scoreは決定係数という。
・統計学において独立変数(説明変数)が従属変数(目的変数)のどれくらいを説明できるかを表す値。
・最も当てはまりの良い場合、1.0
・寄与率と呼ばれることもある。
・MAEに比べて、大きな誤差が存在する時に小さな値を示す特徴
・MAEと異なり、値が大きいほど誤差の少ないモデル

sklearn.metrics.r2_score
    ・第1引数:正解ラベル
 

もっとみる

MeanSquaredError【平均二乗誤差】

・MeanSquaredErrorは平均二乗誤差(MSE)という
・実際の値と予測値の絶対値の2乗を平均したもの。
・MAEに比べて大きな誤差が存在する時に大きな値を示す。

sklearn.metrics.mean_squared_error
  ・第1引数:正解ラベル
  ・第2引数:予測ラベル

<手順①>ライブラリのインポート、データのロード

# ライブラリのインポートimport pa

もっとみる

MeanAbsoluteError【平均絶対誤差】

中身のロジックは単純に、誤差の絶対値の平均を示します。

sklearn.metrics.mean_absolute_error()   ・第1引数:正解ラベル
   ・第2引数:予測ラベル 

<手順①>ライブラリのインポート、インスタンスの作成

# ライブラリのインポートimport pandas as pdfrom sklearn.datasets import load_bostonfr

もっとみる

AccuracyScore

教師あり学習で作成した分類モデルがどのくらいの精度になっているか確認するためにaccuracyを算出してみましょう。

<手順①>ライブラリのインポート

In [1]: # ライブラリのインポート from sklearn.metrics import accuracy_score

<手順②>正解ラベル、予測ラベルの指定

# 予測ラベル y_pred = [0

もっとみる