ざっくりデータサイエンス

2024年8月30日 10:43

(投稿前の原文があまりにも堅苦しかったのでChatGPTにフレンドリーかつ頭悪そうに書き換えてもらったら思った以上にアレな感じになりました。面白いのでほぼそのままコピペします)
技術評論社さんの『データサイエンティスト養成講座 R活用編』でサクッとデータサイエンスをかじってみました！　でも、Rは一切使いません（笑）。データサイエンスってのが一体何なのか、ざっくり理解することが目標です！

忘れないようにメモしときますね。

データサイエンスってなに？

データっていうめっちゃたくさんの情報から、何か役に立つことを見つけ出すための学問とか技術のことを指します。まぁ、なんかカッコいいけど難しそうですよねー。

統計学のふたつのカッコいい方法

統計学って、なんかおしゃれに言ってるけど、要はデータを扱う方法がいくつかあるんだよーって話なんです。大きく分けて「記述統計学」と「推測統計学」ってのがあります。

記述統計学（データのイケてる見せ方）

データをカッコよく整理したり、見せたりする方法のことです。なんかスゴイって思わせるやつね。現実では以下の3つのテクニックがよく使われます。

真ん中を知る（平均とか中央値とか）
構成を知る（割合とかね）
データのバラバラ感を知る（分散・標準偏差ってやつ）

注意点：

要約してると、うっかり大事な情報を捨てちゃうことがあるから気をつけてね！
平均値が一緒でも、分散が違ったりするから、グラフとかで確認しようね！

推測統計学（ちょっとのデータで全体を予想する方法）

推測統計学ってのは、データのほんの一部から「全部こんな感じかな？」って予想しちゃう方法です。ギャンブルみたいなもんです。

検定（データのガチ比較）

「このデータ、対象データと比較して本当に意味がある違いが出てるの？偶然じゃないの？」ってのを統計的に確認する方法です。たいていの場合、偶然の確率が5％未満なら「お、これは違いがあるぞ！」ってことになります。

主な検定方法：

平均値: t検定（お、tってなんかカッコいいね）
比率: χ（カイ）二乗検定（カイって響きがいいね）
分散: F検定（うーん、F…何だろう？）

※色々な検定方法があって、正直、全部覚えるのは無理そうだから、適当に流し読みしちゃってOK！

仮説（勝手に想像してみる）

仮説ってのは「これが原因であれが起こったんじゃない？」って勝手に考えることです。

無効仮説: 効果ないっす、差がないっす、関係ないっすって仮定
対立仮説: いやいや、効果あるっしょ！って仮定

仮説検定の流れ：

無効仮説と対立仮説を設定する
データ集めてみる
検定統計量を計算してみる
p値を求める（何だこれ？って思ったけど、流しとこ）
結論を導く（やっと終わった）

※検定統計量とp値ってなんかよく分かんないけど、必要な情報量と偶然の確率をざっくり判断するって感じで先に進む！

※ちなみに、ChatGPTに日本全体の意見を聞くサンプル数を聞いたら、1,067人らしい。意外と少ないよね？　って思ったけど信じることにします。

注意点：

検定で原因と結果をガチで判断できるわけじゃないです。
サンプルが少なすぎると、結果がアヤシイことになるかもです。
仮説って数学的に絶対正しいわけじゃないんで気をつけてね。
思ったよりも使えない手法もあるかもよ。

データマイニング（データのお宝探し）

データマイニングってのは、大量のデータの中から「お宝」を見つけ出して、それを予測や意思決定に使おうって手法です。

クラスタリング（データを仲間分け）

クラスタリングは、データを似てるやつ同士でグループ分けする方法。どの視点で似てるか(形とか大きさとか)って考えるかで結果が変わるし、正解は一つじゃない。まぁ、なんか適当にグループ作るって感じ？

クラスタリングの種類：

階層的クラスタリング: 段々分けるやつ
非階層的クラスタリング: 直接バシッと分けるやつ

クラスタリングのざっくり分類：

ハードクラスタリング: 一つのデータが一つのクラスタだけに所属
ソフトクラスタリング: 一つのデータが複数のクラスタに入っちゃうのもアリ

※以下は備忘録的にクラスタリング手法の名前を記します。内容はスルーでOK！

凝集型クラスタリング（名前かっこいいね）
分割型クラスタリング（これもかっこいい）
k-meansクラスタリング
k-medoidsクラスタリング
ファジーc-meansクラスタリング

実例としては、顧客の買い物行動をクラスタリングして、マーケティングの効率を上げるとか、まぁそんな感じで使えるかもよー。

アソシエーション分析（Aが起きたらBも起きる！）

アソシエーション分析は「もしAが起こったら、Bも起こりやすいよね？」ってルールを見つける手法です。

主な要素：

アイテムセット: 同時に起きちゃう項目のセット
ルール: 「もしAならばB」ってやつね。Aが前件、Bが後件って呼ばれる。

指標：

サポート度: アイテムセットがどれくらいの頻度で出てくるか
信頼度: Aが起きたらBが起きる確率
リフト値: Bが単独で起こる確率に対して、Aが起きたらBがどれだけ発生しやすくなるか

実例：スーパーで「ビール買う人は、おつまみも買うよね」って関連を見つけて、商品配置に役立てるとか。

注意点：

アソシエーション分析は因果関係（原因と結果）じゃなくて、ただの関連性（同時に発生しやすいかどうか）だから、そこはお間違えなく。

決定木（データのジャッジメント）

決定木は、データをif文的に段々分けて最終的な結論を得る手法。

実例としては、ローン審査で、年収とか職歴とかを条件にして、承認するかどうかを決めるとか、そんな使い方。

機械学習（コンピュータが勝手に学んじゃう）

機械学習って、コンピュータがデータを自分で学習して、予測とか判断をしちゃう手法。

実例としては、スパムメール検出、顔認識、商品推薦とか、日常生活のあちこちで使われてるよね。

学習と検証

機械学習では、人が理解しやすいかよりも予測の精度とかが超大事なんです。どうせコンピュータにやらせるんだしね

分割学習法: 学習用データでモデルを作って、評価用データで精度を検証
クロスバリデーション: データをいくつかに分けて、もっと信頼性の高いモデルを作る方法

SVM（サポートベクターマシンって何？）

SVMってのは、データを分けるための手法で、データが少ないときにめっちゃ役立つんだ。
要するに、データをグループに分けるときに、そのグループ同士の境界線をどれだけ遠くに引けるかがポイントなんだよね。
境界線が離れてるほど、新しいデータが入ってきたときに「このグループだ！」ってちゃんと分けられる確率が上がるってわけ。
SVMは、その境界線をうまく調整して、できるだけ正確にデータを分ける方法なんだ。

カーネルトリック（え、なんか難しそう…）

平面じゃ分けられないデータを、もっと次元が高い空間で分ける手法。なんかすごそう。

ガウシアン（RBF）カーネル
多項式カーネル

※名前だけ知ってるってのを示すために書いておきます。

ランダムフォレスト（めっちゃいっぱいの決定木！）

ランダムフォレストは、複数の決定木を組み合わせて予測を行う手法。集団(アンサンブル)学習の一種です。

手順：

データからランダムにサンプルを取り出して、それぞれのサンプルセットに決定木をトレーニング
作成された決定木に、予測対象のデータを入れてみる
結果を集計して、最終的な予測結果を得る

ランダムフォレストは、データのバラツキに強くて、過学習を防ぐのに役立つ手法です。

おわりに

理解できた部分だけを書いてみたけど、分かってないとこはセルフツッコミで乗り切りました。間違ってたら教えてね！

なんとなく、データサイエンスって何をしてるのか、ちょっとだけ見えてきた気がするー。

この記事が気に入ったらサポートをしてみませんか？