G検定試験忘備録②（教師なし学習）

2023年4月16日 20:49

初めまして、みずぺーといいます。
このnoteを機に初めて私を知った方のために、箇条書きで自己紹介を記述します。

今日はG検定に向けた語彙を忘れぬうちにアウトプットしておく。

教師なし学習を今日はインプットします。

教師なし学習

教師なし学習は入力データからある構造や特徴量を掴むためのもの。

k-means法はデータをk個のグループに分けることを目的としている。

アプローチは

デンドログラム（樹形図）を作成する。

上二つはデータをクラスタに分類するもの。

主成分分析はデータの特徴量の関係性、すなわち相関を分析することでデータの構造を掴む手法になる。

つまり業務で用いられることは

機械学習の特徴量は次元が多くなりがちだが、次元削減を行うことで学習にかかる時間を減らしたり、データを可視化したりすることができる。

手元のデータを複数のブロックに分割し、そのうちの一つを評価用として使い残りを学習データとすることを評価用データを入れ替えてすべてに対して行う手法

それぞれ回帰で使用される評価手法で、root、絶対値、logがついていることによって様々な特徴がある

正例、負例の数にかかわらず正しく当てられた割合

正と予測したデータのうち実際に正であるものの割合
TP/(TP+FP)

実際に正であるもののうち、正であると予測されたものの割合
TP/(TP+FN)

適合率と再現率の中庸をとるような指標であり、両者の調和平均をとることで算出

レコメンデーションに用いられている。

対象ユーザーに似ているユーザーが買った商品を推薦するというもの。

しかしこれらは参考になるデータがない限りレコメンドすることはできずに、この問題をコールドスタート問題といいます。

一方で商品に何かしらの特徴量を付与し、特徴量が似ている商品を推薦するというコンテンツベースフィルタリングをもとに推薦を行う方法もある。

複数のクラスタに分類する方法。k-means法やウォード法とクラスタリングを行うモデル。

この記事が気に入ったらサポートをしてみませんか？