キータ@python/データ分析の修行

おかやまの学生。python/データ分析の独学中。現在、IPO準備中のベンチャーでイン…

キータ@python/データ分析の修行

おかやまの学生。python/データ分析の独学中。現在、IPO準備中のベンチャーでインターンに参加中。マーケティングのサポートや、業務効率化をします。ポートフォリオや実務経験を積み上げ中。

マガジン

最近の記事

分析後の最終成果物の作成

〇アタックリストの作成・予想される定期預金キャンペーン申込率 ・期待できる収益(利益×申込率) ・投資収益率ROI(期待できる収益/費用×100) を顧客ごとに整理し、投資収益率が高い順に並び変えたものを作成。 <初期数値> ・マーケティング費用(通信費、オペレーター人件費)   →1顧客当たり約300円 ・定期預金を申し込んでくれた時の利益   →1顧客当たり約2,000円 <方向性> 評価用データ=今年のデータ(未知)という前提で、最適なパラメータで学習した決定木モデ

    • パラメータチューニング

      〇パラメータとは? -モデルを作る際の設定値や制限値。  -機械学習では自動的には学習してくれない。  -モデルの性能を大きく左右する。 〇料理にたとえると、、、  ・データ → 食材  ・パラメータ → 加熱時間、分量、など  ・アルゴリズム → レシピ 〇交差検証 →パラメーターのチューニング方法の1つ。  →分割によって学習・評価データのパターンを複数つくり、モデルの汎化性能を評価する方法。  →K分割交差検証は、データをK個(3~5)に分割。 ①すべてのデータが

      • グラフレイアウトの概念

        〇figure と axes ・1つのfigureに複数のaxesを配置することができます。 ・figureはたくさんのグラフを描くための大きなキャンバス。 ・axesはキャンバスの中のグラフを描く領域。 ※グラフを2つ描く場合は、以下の2パターンが考えられる!   ①figureを2つ用意し、それぞれのfigureの中にaxesを1つずつ作成。   ②figureを1つ用意し、その中にaxesを2つ作成。 〇複数のfigureの作成 ①figureオブジェクトを作成す

        • 洗練されたグラフの作成【seaborn】

          〇seabornとは?  →matplotlibをベースに作られた。   →matplotlibより細かい調整には不向き。 【主な特徴】  ・綺麗なグラフが手軽に作れる。   ・カテゴリの比較が簡単にできる。   ・統計グラフィックが充実している。   ・データフレームを参照してグラフを作成する。 〇データの準備 →データの可視化をすぐに試すことができるよう、アヤメやタイタニックのデータセットなど十数種のお試しデータセットが同梱。 sns.load_dataset(デー

        分析後の最終成果物の作成

        マガジン

        • 回帰問題に対しての評価(scikit-learn)
          3本
        • 分類問題に対しての評価(scikit-learn)
          3本
        • 教師あり学習(scikit-learn)
          5本
        • 教師なし学習(scikit-learn)
          3本
        • データ前処理(sklearn)
          4本
        • データの分割(sklearn)
          4本

        記事

          データフレームからのグラフ作成

          〇折れ線グラフSeriesまたはDataFrameが代入された変数.plot(kind="グラフの種類")SeriesまたはDataFrameが代入された変数.plot.グラフの種類() ★引数kindにグラフの種類を指定する記法★ ★plot()関数の引数★ SeriesまたはDataFrameが代入された変数.plot(title="グラフのタイトル") 例) # matplotlib.pyplotのインポートimport matplotlib.pyplot a

          データフレームからのグラフ作成

          複数のグラフの操作

          〇タイトル・軸ラベルの追加〇タイトルの追加 axesオブジェクトを代入した変数.set_title(グラフのタイトル) 〇軸ラベルの追加 axesオブジェクトを代入した変数.set_xlabel(横軸のラベル名)axesオブジェクトを代入した変数.set_ylabel(縦軸のラベル名) ※pyplotモジュールを使う場合と、axesオブジェクト関数を使う場合では、同じ操作でも関数名が異なる。 ・plt.title(グラフのタイトル)・axesオブジェクトを代入し

          グラフの装飾

          〇フォントサイズplt.title("東京の月別気温", fontsize=14) 〇色の指定plt.plot(横軸のデータ, 縦軸のデータ, color=色) 【代表的な色】   red/blue/yellow/green/black/white  ※引数colorはcと省略して表記。 〇透明度の指定plt.hist(数値型データ, alpha=透明度)   ※alpha 『0.0 ~1.0』 # matplotlib.pyplotのインポートimport

          データの可視化

          〇1次関数のグラフ x = 横軸のデータy = 縦軸のデータplt.plot(x, y)plt.show() 〇2次関数のグラフpython標準のリスト型は計算に不向き!        ⇓ ライブラリnumpyのarray()関数を使用して、 numpy.ndarray型の配列を使用! # matplotlib.pyplotのインポートimport matplotlib.pyplot as plt# numpyのインポートimport numpy as np# デー

          スクレイピング

          スクレイピングの具体例としては<p>タグの中身を抽出し、SIGNATEサンプルページの文字列を抽出をします。 【ウェブスクレイピングのライブラリ】①reqests  →ウェブページを取得する際に使う。 ②BeautifulSoup  →取得したウェブページを解析し、タグの検索、データの形成をする。 【スクレイピングの手順】①.get( )を用い、取得したいウェブページのURLを指定。 # ライブラリのインポートimport requestsurl = 'https

          テキストデータに対しての前処理

          〇データの確認  ・columnを調べる。 → df.columns  ・ユニークな値を確認→ df.[ ].unique( )  ・データの大きさ  → df.shape 〇テキストデータの内容を確認する。 In [1]: # ライブラリのインポート import pandas as pd # データの読み込み df_data = pd.read_csv('Shinzo Abe Tweet 20171024 - Tweet.csv')

          テキストデータに対しての前処理

          表形式のデータに対する前処理

          ①対象データの確認と整備最終的にどのようなデータにするべきなのかを明確に決めておく! 【データ要件】  ・csv形式  ・ヘッダーの項目は1行のみ  ・pandasで取り込んだ後に可視化を行うことが出来る。 ーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーー ②データの読み込みと内容確認 ②-1.データの読み込み・Excelファイルの場合、pandasのread_excel関数を利用します。 ・引数として、    ー io :読み込みたいデータのパス

          表形式のデータに対する前処理

          今年度中に達成すべきこと。

          ①数字で語れる男 会社で社長と話すとき、社長のはなしにはいつも『数字』がついてくる。 『数字』は、話に『具体性』をもたせた『根拠』となり『信頼性』を感じることに気づいた。『このビジネスモデルはなんとなくいける気がするんです。』なんてゆわれても誰も信じない。なぜうまくいくのか?どれくらいうまくいくのか?どれくらいの確率で成功するのか?がわかれば信じる人は増える。こんなにパワーのある『数字』を味方につけない手はない。そう思ったから僕は『数字』という最強の相棒を仲間し、今後もともに

          今年度中に達成すべきこと。

          R²Score【決定係数】

          ・R²Scoreは決定係数という。 ・統計学において独立変数(説明変数)が従属変数(目的変数)のどれくらいを説明できるかを表す値。 ・最も当てはまりの良い場合、1.0 ・寄与率と呼ばれることもある。 ・MAEに比べて、大きな誤差が存在する時に小さな値を示す特徴 ・MAEと異なり、値が大きいほど誤差の少ないモデル sklearn.metrics.r2_score     ・第1引数:正解ラベル     ・第2引数:予測ラベル <手順①>ライブラリのインポート、データのロード

          MeanSquaredError【平均二乗誤差】

          ・MeanSquaredErrorは平均二乗誤差(MSE)という ・実際の値と予測値の絶対値の2乗を平均したもの。 ・MAEに比べて大きな誤差が存在する時に大きな値を示す。 sklearn.metrics.mean_squared_error   ・第1引数:正解ラベル   ・第2引数:予測ラベル <手順①>ライブラリのインポート、データのロード # ライブラリのインポートimport pandas as pdimport numpy as npfrom sklearn

          MeanSquaredError【平均二乗誤差】

          MeanAbsoluteError【平均絶対誤差】

          中身のロジックは単純に、誤差の絶対値の平均を示します。 sklearn.metrics.mean_absolute_error()   ・第1引数:正解ラベル    ・第2引数:予測ラベル  <手順①>ライブラリのインポート、インスタンスの作成 # ライブラリのインポートimport pandas as pdfrom sklearn.datasets import load_bostonfrom sklearn.neighbors import KNeighborsRe

          MeanAbsoluteError【平均絶対誤差】

          AccuracyScore

          教師あり学習で作成した分類モデルがどのくらいの精度になっているか確認するためにaccuracyを算出してみましょう。 <手順①>ライブラリのインポート In [1]: # ライブラリのインポート from sklearn.metrics import accuracy_score <手順②>正解ラベル、予測ラベルの指定 # 予測ラベル y_pred = [0, 2, 1, 3] # 正解ラベル y_true =