アルティメットカンペ_機械学習の種類

G検定対策の記事です。以下内容をA41枚にまとめてプリントアウトすると試験中の検索性が向上します。私が利用したものはこちらからダウンロードできます。

SVM(サポートベクトルマシン)

【学習形態】 教師あり学習
【用途】   分類問題
【概要】
 ・マージンの最大化がコンセプト
 ・2つの線形分離する2クラスを分類するアルゴリズムとして開発
 ・スラック変数でどの程度マージンを許容するか調整する
 ・カーネルトリックは、カーネル法の計算量を大幅に削減
 ・カーネル法は、境界を非線形にする

決定木

【学習形態】 教師あり学習
【用途】   分類問題、回帰問題
【概要】
 ・下記アルゴリズムで実現
   条件分岐の繰り返し、情報利得の最大化、不純度の現象の最大化
 ・ハイパーパラメータ
   深さ、各ノードのデータ数
 【メリット、デメリット】
 ○ データスケールを事前に揃える必要なし
 ○ 分析結果の説明が容易
 × 過学習しやすい

ランダムフォレスト

【学習形態】 教師あり学習
【用途】   分類問題、回帰問題
【概要】
 ・下記アルゴリズムで実現
   決定技、バギング
 ・特徴量をランダムサンプリングして、サンプルを重複ありサンプルしてデータセットに多様性をもたせる
【メリット、デメリット】
 ○ 決定木に比べ過学習を起こしにくい
 × 中身がブラックボックス

ロジスティック回帰

【学習形態】 教師あり学習
【用途】   分類問題
【概要】
 ・対数オッズを重回帰分析で予想する
 ・対数オッズをロジスティック関数で変換して、クラスIに属する確率出す
【メリット、デメリット】
 ○ 特徴量や重みから結果の貢献度がわかる
 × 外れ値に弱い

K近傍法

【学習形態】 教師あり学習
【用途】   分類問題
【概要】
 入力データに近い方からk個の学習データを取得し、多数の物をとって分類結果とする
【メリット、デメリット】
 ○ 柔軟にモデルを作れる
 × データが少ないと効果発揮できない

主成分分析

【学習形態】 教師なし学習
【用途】   次元削減
【概要】
 多次元のデータに対して正味に効果のあるより少ない成分を抽出する手法
【メリット、デメリット】
 ×変数間に相関のないデータには有効ではない

K -mean法

【学習形態】 教師なし学習
【用途】   次元削減
【概要】
 データ転の所属するクラスタを各データからクラスタ重心への距離が最も近いものから選択する
【メリット、デメリット】
 ○手法が理解しやすく大規模データにも適用可能

この記事が気に入ったらサポートをしてみませんか?