見出し画像

データサイエンティストの仮説思考②:データを説明する力(+未来予測するには「定常性」が大事!)

読書ノート(127日目)
前回に続いて
今回もこちらの本からです。

・日本政府は「AI戦略2019」にて、
 デジタル社会の基礎知識(「読み・書き・そろばん」的な素養)
 として、すべての国民が「数理・データサイエンス・AI」に関する
 知識を身につけることを目標に掲げている

・データドリブン思考とは、データをもとに物事を考えること

・ビジネスパーソンが身につけるべき
 6つのデータリテラシーとは
 (1)データを読む力
 (2)データを説明する力
 (3)データを扱う力
 (4)データを分類する力
 (5)データから法則を見つける力
 (6)データから予測する力

この読書ノートでは全5回に分けて
データを読む力
②データを説明する力
③データを分類する力
④データから法則を見つける力
⑤データから予測する力
を紹介できればと思います。

では、今日は②データを説明する力
についてです。

・データに合わせて適切なグラフ表現を選択する
 棒グラフ:データの量(値)を表現
 折れ線グラフ:データの推移(変化)を表現
 散布図:データの関係性(相関)を表現
 円グラフ:データの構成(内訳)を表現

・データサイエンティストは
 グラフを読み解く際に3つの事に注目する
 例)コンビニの1カ月間の日別売上を3店舗比較する際
 特異な値のデータはないか(特異点)
 →特に売上が大きい日
 データに繰り返し見られる傾向はないか(傾向性)
 →平日の売上が高く土日祝は低い
 他と比べた際に異なる箇所はないか(相違性)
 →他の店舗と比べて特定の日だけ売上が低い

「Apple to Appleの比較」かを確認
 データを比較する際は、同じ性質を持っているもの
 同士の比較になっているかを確認する

さて、今回はデータを説明する力
についてでしたが、
言われてみると「そうだよね」と
思うことが多かったです。

中でも、今までグラフを読む時に
特異点、傾向性、相違性の3つに
常に着目できていたかは怪しいので
本書で着目点を整理できて良かったです。


(ここからは本書の内容とは異なります)
時系列データの過去の傾向から
未来を予測しようとしたとき、
以下の4つに分けて考えるようです。

いろいろと探してみたところ
この記事が良くまとまっていたのと
Pythonのコード解説もあり
Pythonで分析を試みる僕にとって
凄く助かりました!

時系列データには大きく分けて
傾向変動」「季節変動」「循環変動」「不規則変動」の
4つの情報(要因)を持っています。

今回の場合は上から順に
元データ
①傾向変動(トレンド)
②季節変動
③不規則変動(ノイズ)

となっており、①と②と③を合成すると
元データになります。

さらに、時系列データを使って
未来予測をするためには、
時間によらず(ほぼ)一定のパターンだと
いえる「定常性」を追求するべし。

…ということで、今度はこちらの記事が
分かりやすかったので紹介です。

僕も来週に時間をつくって
Air Passengersのサンプルデータを
Pythonで分析してみようと思います。


ということで、今日は
データを説明する力と、
時系列データの4つの要素
未来予測には定常性が大事!
についてでした。

それでは皆さんも
よい週末をお過ごしください~!😉✨

この記事が参加している募集

この記事が気に入ったらサポートをしてみませんか?