【読書ノート】文系のためのデータサイエンスがわかる本
読者さんに質問です。
こんにちは、けいごです。
データを使って仕事や私生活効率化したり、QOLを上げたりと、データサイエンスに注目が集まっています。私もDX化によって、個人の仕事の効率化やQOLを上げたいと考えています。
本記事では、「データサイエンスって何?」「詳しくは知らないけどデータを活かしてQOLを上げたい!」という方に向けて書いていきます!
データサイエンスとは
本書では、ビジネスにおけるデータサイエンスの定義を以下のように示しています。
ドメインとは、「データを活用する領域」のことです。しかしデータサイエンスだけでは成果は出ませんが、データサイエンスがないと成果は生まれません。成果が出ているとき、何かしらのデータが効いています。
より具体的には、「計算機科学や統計学を用いて有益な情報を引き出し、それをドメインに活用するアプローチ」のことです。
データサイエンスは「AI」や「DX」、「Society5.0」など、ほとんどのテクノロジーにおいて重要なものです。「AI」と「DX」については、以前書いた記事を紹介します。ご興味あれが読んでみてください!
【解答】データサイエンスが得意なこと
データサイエンスが得意なことは、「既にあるものを拡大すること」です。既にあるものを効率化したり、拡大化したりするのに非常に向いています。何故なら、データサイエンスは「データがあることが前提だから」です。
今必要な人材
今必要なのは、「データサイエンティストの仲介が出来る人材」です。
ビジネスの世界でデータサイエンスを実践するには、データサイエンティストが必須です。しかしデータサイエンティストだけでは実践することは出来ません。
データサイエンティスの必須スキルは、「データサイエンス」「データエンジニアリング」「ビジネス力」です。しかし、これら全てを備えているデータサイエンティストはほぼ皆無でしょう。
定義でも示した通り、ビジネスの世界では「データとドメインを結びつけること」が必要です。ドメインの知識、つまりビジネスの知識を持った人にデータサイエンスの知識を教育し、「仲介役」を作る必要があります。
データを活かすには
本項目では、データを具体的にどのように活用するのかをまとめます。
データを構造化する
ビジネスにおける成功は、「利益を上げること」です。そのための売り上げUPやコストカットをして、初めて目的が達成されることになります。データを活かす上で知っておく必要がある要素は以下です。
本書では、これらを明確にすることで、データを有効に活用することが出来るとまとめています。
②の活用ストーリーとは「業務プロセスなど」です。その時に必要なのは「明確な業務プロセス」です。明確なプロセスが無ければ、現場サイドはどのようにデータを使えばいいか分からなくなってしまいます。例えば、既存顧客と取引継続のためのデータ分析では、よく離脱スコアを算出し、現場に渡したりします。(離脱スコアが高い顧客程離脱しやすい)しかし、現場ではどのように活用したらいいのかはわかりません。
業務プロセスを現場と話し合い、明確にしておくことで有効にデータを使うことが出来ます。
それによって③分析ストーリー(データ分析やモデル構築)に繋げていくという流れになります。
統計解析に使うモデル4つ
データサイエンスでは、「統計解析」を行います。統計解析は、データの特徴や規則性などを見いだそうとするものです。例えば、「多変量解析」という情報を分析者の仮説に基づき関連性を明らかにする統計手法などです。
統計解析で利用される数理モデルは多種多様です。様々になりますが、まずは「用途に応じて」基本的なものを抑えましょう。それは以下4つです。※統計解析の選び方を示した、Microsoftの「チートシート」というものがあるようです。
これら説明をする前に2つの変数を知っておく必要があります。それは以下です。
量を予測するモデル
量を予測するモデルは、「売り上げ金額」や「故障件数」などの数量や件数を予測するためのモデルです。基本となるのが、以下です。
例えば、ある店舗の日販(1日の売上金額)を「目的変数」とし、予測対象である日販に影響を及ぼす天候や販促などを「説明変数」にしたものです。
つまり「量を予測するモデル」は、一日にどの程度売れるかどうかを予測するために役立ちます。
質を予測するモデル
質を予測するモデルは、「受注or失注」や「良or不良」など、どのカテゴリに属するかを予測するためのモデルです。カテゴリの数は「良or不良」などの2種類だけである必要はなく、3、4種類でも問題ありません。ここで基本となるのが、以下のモデルです。
例えば、予測対象である「受注の有無」を「目的変数」とし、受注に影響を及ぼす営業活動や顧客行動などを「説明変数」とします。
つまり「質を予測するモデル」は、「顧客が購買する可能性」を導き出すときなどに役立ちます。
異常を検知するモデル
異常を検知するモデルは、「申込書の記入ミス」や「機械そのものの故障」などを検知するためのものです。発生した異常が悪いかどうかは状況によります。例えばキャンペーンなどの効果測定であれば以上は善になります。
「量を予測するモデル」や「質を予測するモデル」が「異常を検知するモデル」になり得ます。
例えば、「質を予測するためのモデル」であれば、目的変数として「異常or正常」としてモデルを構築することで、機械の異常を検知することが出来ます。つまり、「その他様々な要因」である「説明変数」が、一定の基準を超えると「異常」とみなすということです。
一方で、「量を予測するためのモデル」では、目的変数を「見積金額」としてモデルを構築することで、見積金額のミスを検知することが出来ます。つまり、モデルで予測した金額と提示された金額が異なるため、「異常」となるということです。
構造を理解するためのモデル
構造を理解するためのモデルは、得られたデータの構造がどのようになっているかを把握するためのモデルです。予測や検知ではなく、データそのものを理解するためや、思いがけない仮説を発見するために使います。ここで基本となるのが、以下のモデルです。
同じグループに属する個人や商品などは、似たようなデータの値を持ちます。このグループを「クラスター」と呼びます。その他にも、似たような傾向を持つデータ項目を集約する「主成分分析」や、データ項目間(変数)の構造を描く「グラフィカルモデリング」などもあります。
データサイエンスは小さく始める
データサイエンスの始め方としては、大きなテーマを1~2つやるのではなく、小さなテーマを10や100やりながら大きく化けそうなテーマを探していきます。すると、以下のことが見えてきます。
大きな成果を生むテーマは、「たまたま」生み出されます。コツコツとヒットを打っていたら、そのうちいくつかはホームランになります。
また、小さな成果でも、費用対効果が見合えば成功になります!
Keigo.log サイトマップ
この記事を気に入った読者様、是非フォローと拡散宜しくお願い致します!
ご一読有難う御座いました! もし「ここがわかりやすい」「ここがわかりにくい」などありましたら、ご遠慮なくコメント欄にご投稿ください!