見出し画像

G検定試験忘備録②(教師なし学習)

初めまして、みずぺーといいます。
このnoteを機に初めて私を知った方のために、箇条書きで自己紹介を記述します。

  • 年齢:28歳

  • 出身:長崎

  • 大学:中堅国立大学

  • 専門:河川、河川計画、河道計画、河川環境

  • 転職回数:1回(建設(2年9か月)→IT系年収100万up(現職3か月))

  • IT系の資格:R5.4基本情報技術者試験合格💮

今日はG検定に向けた語彙を忘れぬうちにアウトプットしておく。

教師なし学習を今日はインプットします。

教師なし学習

教師なし学習は入力データからある構造や特徴量を掴むためのもの。

階層なしクラスタリング(k-means法)

k-means法はデータをk個のグループに分けることを目的としている。

アプローチは

  1. 適当に各データをK個のクラスタに振り分ける

  2. 各クラスタの重心を求める

  3. 求まったk個の重心と各データの距離を求め、各データを最も距離が近い重心に対応するクラスタに振り分けなおす

  4. 重心の位置が(ほぼ)変化しなくなるまで2、3を繰り返す

階層ありクラスタリング(ウォード法)

デンドログラム(樹形図)を作成する。

主成分分析

上二つはデータをクラスタに分類するもの。

主成分分析はデータの特徴量の関係性、すなわち相関を分析することでデータの構造を掴む手法になる。

つまり業務で用いられることは

  • 相関を持つ多数の特徴量から相関の少量の特徴量(主成分)へと次元削減を行う

機械学習の特徴量は次元が多くなりがちだが、次元削減を行うことで学習にかかる時間を減らしたり、データを可視化したりすることができる。

交差検証法

手元のデータを複数のブロックに分割し、そのうちの一つを評価用として使い残りを学習データとすることを評価用データを入れ替えてすべてに対して行う手法

RMSE,MSE,MAE,RMSLE

それぞれ回帰で使用される評価手法で、root、絶対値、logがついていることによって様々な特徴がある

正解率

正例、負例の数にかかわらず正しく当てられた割合

適合率

正と予測したデータのうち実際に正であるものの割合
TP/(TP+FP)

再現率

実際に正であるもののうち、正であると予測されたものの割合
TP/(TP+FN)

F値

適合率と再現率の中庸をとるような指標であり、両者の調和平均をとることで算出

協調フィルタリング

レコメンデーションに用いられている。

対象ユーザーに似ているユーザーが買った商品を推薦するというもの。

しかしこれらは参考になるデータがない限りレコメンドすることはできずに、この問題をコールドスタート問題といいます。

一方で商品に何かしらの特徴量を付与し、特徴量が似ている商品を推薦するというコンテンツベースフィルタリングをもとに推薦を行う方法もある。

トピックモデル

複数のクラスタに分類する方法。k-means法やウォード法とクラスタリングを行うモデル。


この記事が気に入ったらサポートをしてみませんか?