G検定試験忘備録②(教師なし学習)
初めまして、みずぺーといいます。
このnoteを機に初めて私を知った方のために、箇条書きで自己紹介を記述します。
年齢:28歳
出身:長崎
大学:中堅国立大学
専門:河川、河川計画、河道計画、河川環境
転職回数:1回(建設(2年9か月)→IT系年収100万up(現職3か月))
IT系の資格:R5.4基本情報技術者試験合格💮
今日はG検定に向けた語彙を忘れぬうちにアウトプットしておく。
教師なし学習を今日はインプットします。
教師なし学習
教師なし学習は入力データからある構造や特徴量を掴むためのもの。
階層なしクラスタリング(k-means法)
k-means法はデータをk個のグループに分けることを目的としている。
アプローチは
適当に各データをK個のクラスタに振り分ける
各クラスタの重心を求める
求まったk個の重心と各データの距離を求め、各データを最も距離が近い重心に対応するクラスタに振り分けなおす
重心の位置が(ほぼ)変化しなくなるまで2、3を繰り返す
階層ありクラスタリング(ウォード法)
デンドログラム(樹形図)を作成する。
主成分分析
上二つはデータをクラスタに分類するもの。
主成分分析はデータの特徴量の関係性、すなわち相関を分析することでデータの構造を掴む手法になる。
つまり業務で用いられることは
相関を持つ多数の特徴量から相関の少量の特徴量(主成分)へと次元削減を行う
機械学習の特徴量は次元が多くなりがちだが、次元削減を行うことで学習にかかる時間を減らしたり、データを可視化したりすることができる。
交差検証法
手元のデータを複数のブロックに分割し、そのうちの一つを評価用として使い残りを学習データとすることを評価用データを入れ替えてすべてに対して行う手法
RMSE,MSE,MAE,RMSLE
それぞれ回帰で使用される評価手法で、root、絶対値、logがついていることによって様々な特徴がある
正解率
正例、負例の数にかかわらず正しく当てられた割合
適合率
正と予測したデータのうち実際に正であるものの割合
TP/(TP+FP)
再現率
実際に正であるもののうち、正であると予測されたものの割合
TP/(TP+FN)
F値
適合率と再現率の中庸をとるような指標であり、両者の調和平均をとることで算出
協調フィルタリング
レコメンデーションに用いられている。
対象ユーザーに似ているユーザーが買った商品を推薦するというもの。
しかしこれらは参考になるデータがない限りレコメンドすることはできずに、この問題をコールドスタート問題といいます。
一方で商品に何かしらの特徴量を付与し、特徴量が似ている商品を推薦するというコンテンツベースフィルタリングをもとに推薦を行う方法もある。
トピックモデル
複数のクラスタに分類する方法。k-means法やウォード法とクラスタリングを行うモデル。
この記事が気に入ったらサポートをしてみませんか?