【読書メモ】『ビジュアル データサイエンティスト 基本スキル84』(野村総合研究所 データサイエンスラボ 編集)
▶今回の書評本『ビジュアル データサイエンティスト 基本スキル84』(野村総合研究所 データサイエンスラボ 編集)
・『ビジュアル データサイエンティスト 基本スキル84』
・野村総合研究所 データサイエンスラボ 編集
・日経文庫
▶3行まとめ
データサイエンティストが必要な3つの能力はビジネス力、データサイエンス力、データエンジニアリング力である。
統計学において、母集団と標本、信頼区間、仮説検定、共分散などの基礎知識が必要である。
AIの説明可能性(XAI)に対するニーズが高まっており、数理最適化による意思決定や行動自動化にも注目されている。また、データサイエンティストの資格としてG検定、E資格、基本情報技術者、統計検定2級、データサイエンティスト検定などがある。
▶読書メモ
●データサイエンティストとは
データサイエンティストに求められる3つの能力
ビジネス力=課題背景を理解した上で、ビジネス課題を整理し、解決する力
データサイエンス力=情報処理、人工知能、統計学などの情報科学系の知恵を理解し、使う力
データエンジニアリング力=データサイエンスを意味のある形に使えるようにし、実装、運用できるようにする力
●データサイエンティストの基礎知識
統計学
元となるデータ(母集団)から、アンケート調査などにより、サンプル(標本)を抽出して、元データの特徴を正しく理解する方法平均値
中央値
分散
データ群のバラツキの度合い標準偏差
=√分散大数の(強)法則
標本数が大きくなるほど、標本平均は母平均に近づく
↓中心極限定理
標本数が十分に多い場合、標本平均の分布は正規分布になる(母集団の分布には関係ない)信頼区間
母集団の真の値(母平均など)が、標本データから計算された結果から、どのくらいの区間に入るのかを推計した範囲のこと。
(例)信頼区間□%~■%の範囲に収まる信頼係数
その範囲に入る割合(可能性)。
(例)信頼係数95%仮説検定
ある仮定のもと、標本データから得られた結果が、どれくらいの確率で起こることなのかを計算し、仮設の正しさを判定すること。
計算された結果が起こる確率が基準以下(一般的には5%以下)であれば、仮説μ0のもとで、標本平均のような結果になることはめったに起きないのだから、仮説は正しくないと判断する。検定統計量
共分散
各データの平均値との差をかけあわせたものの平均
Cov(X, Y) = (X - Xの平均) × (Y - Yの平均)相関係数
2つのデータの間にある関係の強さを指標化したもの。-1~+1の値。
共分散を各データの標準偏差の積で割ったもの。
r(X, Y) = XとYの共分散 / (Xの標準偏差 × Yの標準偏差)ベイズ統計
「ベイズの定理」に基づく統計学ベイズの定理
特定の条件のもとで、ある事象が起こる確率(条件つき確率)をもとにデータを分析・解釈する理論。
ベン図の重なりの部分の関係を数式で表したもの。
(例)メール100通のうち、
・迷惑メール20通のうち「無料」という表記があったのは6通
・「無料」表記があるメール10通
→「無料」表記があるメールのうち迷惑メールは6通=60%モンティ・ホール問題
ベイズの定理の代表的な例題の1つ。アメリカのテレビ番組でモンティ・ホール氏が司会をするゲームショーで出題された問題で、問題に対する解答が数学者の間で意見が分かれた。
(問題)
①A、B、Cの3つの扉のどこか1つにプレゼントが隠されている
②例えばBを選んだとする
③出題者は「Aはハズレだ」と教えてくれて「選ぶ扉を変えても良い」と言われた。
Bのままにすべきか、Cに変えるべきか?
(解答)
直感的には、空いていない扉が2枚でどちらかが当たりなので、当たりの確率は1/2に感じる。
しかし実際は、Bのまま変えない場合は1/3、変えた場合は2/3となる因果推論
入力データと出力データから、その因果関係(原因と結果の関係)を統計的に推定していく考え方で、○○以外の条件は同一にして、処置群と対象群を比較する。
従来は相関分析が中心であったが、近年、相関ではなく因果を推計する因果推論が注目されるようになってきた。AI・機械学習・ディープラーニング
AI(人工知能)
人工的に作られる知能
機械学習(マシンラーニング)
大量データの背景にあるルールを機械(コンピュータ)を用いて発見する方法
ニューラルネットワーク
脳の神経細胞(ニューロン)のネットワークの構造をもとにした考え方
ディープラーニング(深層学習)
ニューラルネットワークの中でも、構造をさらに多層的(「入力層」→「中間層(隠れ層)」を多層化→「出力層」)にすることで、より正しいルールを見つけようという考え方
応用範囲としては、画像認識、音声認識、自然言語処理、異常検知がある
教師あり学習
入力データと出力データ(答え)が揃っている。
回帰分析を機械的にすべてのデータの組み合わせで実施するなど。
教師なし学習
一連の入力データから背景にある隠れたパターンを見つける。
各データ間の近さや類似度などを計算して、データをグループに分けたり、データ間のつながりを推定したりする。
強化学習
教師あり・なし学習とは異なり、最初からデータがあるわけではなく、システム自身が試行錯誤しながら、精度を高めていくための学習方法
アルゴリズム
回帰分析
説明変数(x:原因側のデータ)を目的変数(y:結果側のデータ)の関係性を調べて、関係を数式で表す分析手法。
説明変数が1つの場合は「単回帰」、複数ある場合は「重回帰」。
「線形回帰」だとy=a・x+bと表せ、また「対数変換」することで、式はlog[e] y=a・log[e] x+bと表せる。
xとyの関係を求める際には一般的に「最小二乗法」を用いる。多重共線性(マルチコリニアリティ、マルチコ)
重回帰分析における説明変数の中に、相関係数が高い組み合わせの変数があること。
(例)アイスの売上予測の重回帰モデル
→来店客数、気温、降水量と降水時間(正の相関)、
価格と値引率(負の相関)
試行錯誤をしながら多重共線性をなくすことが重要。P値(P:Probability 確率)
回帰分析において計算された係数が、統計的に正しいといえるかどうかを検定するための指標。
有意水準を0.05(5%)とすると、P値が0.05より大きくなる場合は、仮設の前提になった係数の値は、統計的に正しいとは言えない。t値
t値とは、回帰分析においてt分布を使って仮説を検定する「t検定」をしたときに出てくる数値
t分布は、正規分布の母集団に関してデータの散らばり方(母分散)がわからない場合に用いられる
t値が大きいほど、その係数が有意である可能性が高くなる。
P値と併用して解釈することが多いロジスティック回帰
目的変数が2値(0と1)の場合に、説明変数との関係を式で表す分析方法。生存率、合格率など、最終的には0か1になるものを説明・予測するために用いる
線形回帰の場合は体重、売上などの量的な変数を予測するのに対し、ロジスティック解析は、生存や合格などの発生確率を予測する
各説明変数の係数は、線形回帰と同様、最小二乗法で計算される決定木(ディシジョンツリー)
目的変数の予測モデルで、影響を及ぼしている説明変数をツリー(樹形図)状にして整理するアルゴリズムLightGBM(Gradient Boosting Machine)
決定木の一種で、勾配ブースティングという方法で学習を行う教師あり・教師なし学習のアルゴリズム
k-means
各クラスタの重心と各データの距離を計算して、新しいクラスタを設定することを繰り返す主成分分析
多数の変数(要素)から新たな変数(成分)を作成することにより、元のデータの特徴をできるだけ保つ形で、変数を削減するアルゴリズムベイジアンネットワーク
データの因果関係を分析する手法。
因果関係の強さを「条件付き確率」の考え方から判断し、多数の事象間の因果関係をグラフィカルに整理する。
見た目は「連関図」に似ている。時系列分析
時間の経過順に並んだデータを基に、変動要因を長期的な変動、周期的な変動、不規則な変動などの要素に分解し、将来の値を予測するアルゴリズム
Prophet
日次データの構造を分解して、将来予測を行うアルゴリズム
Meta社が2017年に開発したもので、日次データ予測で最も普及自然言語処理
・形態素解析=文章を最小単位(形態素)に分割し品詞などを振り分け
→構文解析=形態素同士の関連性を解析し、文節間の係り受け構造の解析
→意味解析=辞書を利用して単語の意味を調べ、最適な構文を選出する
→文脈解析=前後の文章に対し、構文解析と意味解析を行い、文同士の関係性を解き、文脈を明らかにするGPT (Generative Pre-trained Transformer)
OpenAI(イーロンマスクらの投資家が設立した人工知能研究所)が発表した高性能な言語モデル
言語モデルとは、人間が話したり書いたりする言葉を単語の出現確率でモデル化したもの。大量のテキストデータを使って事前学習したものをベースに、テーマに合わせた専用の再学習(ファインチューニング)をすることで精度を高める
GPT-3は、Wikipediaなどから収集した膨大なテキストデータを用いて学習することで、再学習を必要としない言語モデルを作った。1750億個のパラメータを持つ自己回帰型言語モデル(ある単語の次に出てくる単語を予測するモデル)を学習することで、これまでにない巨大な言語モデルを作成した。文章の生成、文章の要約、質問への解答、翻訳などに活用できる。過学習
機械学習などにおいて、規則性を見つける作業をした際に、与えられたデータだけに適応した学習をしてしまい、未知のデータにおける将来予測がうまくいかない状態ホールドアウト検証
元データを学習用のデータと検証用のテストデータに分けて学習結果を評価する方法クロスバリデーション(交差検証)
分析の元となるデータを複数個に分割して、様々なデータの組み合わせで学習・検証する方法。分割による偏りから生じる過学習のリスクを軽減できる。AutoML(Automated Machine Learning:自動機械学習)
機械学習を用いた分析で行われる様々なタスクを自動化する技術
Vertex AI(グーグル)、Azure Machine Learning(マイクロソフト)、AutoGluon(アマゾンウェブサービス)、DataRobot、AutoKeras(テキサス A&M大学)などブラックボックス問題
AIや機械学習におけるデータ分析の結果、予測精度は高まったものの、出力される予測値の根拠や判断基準がわからな問題。
よく当たる占いのようなもの。
ディープラーニングのモデルは非常に多層化・複雑化しており、個々に内部構造を理解するのは不可能。XAI(Explainable AI:説明可能なAI)
ホワイトボックス型のAIノーコード、ローコード
分析モデルの構築
モデルの「解釈」のしやすさと「精度」の高さのバランスが大事数理最適化
機械学習で得られた予測値でシミュレーションを行い、意思決定・行動を自動化する。現実の問題を目的関数と呼ばれる数式に表現し、数々の制約条件を満たしながら、利益を最大化する
●データサイエンティストが持つべき資格
G検定(ジェネラリスト検定)
G検定とは - 一般社団法人日本ディープラーニング協会【公式】 (jdla.org)E資格(エンジニア資格)
E資格とは - 一般社団法人日本ディープラーニング協会【公式】 (jdla.org)統計検定2級
統計検定2級|統計検定:Japan Statistical Society Certificate (toukei-kentei.jp)データサイエンティスト検定(リテラシーレベル)
データサイエンティスト検定 リテラシーレベル | 一般社団法人 データサイエンティスト協会 (datascientist.or.jp)
▶感想
データサイエンティストに必要な基本知識・スキルを全体的に把握できる、俯瞰的にざっと読むにはとても書籍だと思います。
以上です。
この記事が参加している募集
この記事が気に入ったらサポートをしてみませんか?