機械学習の体験

2023年9月2日 10:18

機械学習の流れ

Step 1：データセットの準備

データは機械学習の土台となります。このステップでは、データを収集し、それを前処理する作業を行います。どんな特徴量を学習させるのか、そのデータがどれだけの質・量があるのか、そしてそのデータをどのように整形するのかを考慮します。具体的には、データを収集し、それを訓練データとテストデータに分けます。さらに、不要なデータを取り除いたり、欠けているデータを補完するなどの前処理を行います。

Step 2：モデルを決める

モデルとは、データの特徴量からラベルを予測する「仕組み」のことです。機械学習のモデルには様々な種類が存在し、このステップでは、どのモデルが問題に最適かを選択します。線形回帰、決定木、ランダムフォレスト、ニューラルネットワークなど、問題の性質やデータの特性に応じて最適なモデルを選択します。

Step 3：目的関数を決める

目的関数（または損失関数）は、モデルがデータをどれだけうまく学習しているかを評価する指標です。例えば、分類の問題では正しく分類できているかどうか、回帰の問題では予測した値が実際の値にどれだけ近いか、ということを評価します。

Step 4：最適化手法を選択する

最適化手法は、目的関数を改善するためのアプローチです。これにより、モデルがデータから最適に学習できるよう、パラメータの更新方法を定めます。代表的な手法には、勾配降下法、確率的勾配降下法、アダムなどがあります。

Step 5：モデルを訓練する

モデルを訓練するとは、具体的には訓練データを使って、モデルにデータのパターンを学習させるプロセスのこと。繰り返し学習を行うことで、モデルは徐々にデータの特性を把握し、未知の評価データに対しても適切な予測や分類を行えるようになります。

特徴量とは？

特徴量とは、機械学習モデルがタスクを実行する際に、データを理解・解釈するための基盤となる情報や指標を指します。言い換えれば、特徴量はデータの「特性」や「属性」を表すものであり、モデルが予測や分類を行うための入力となる要素です。
例えば、ある物事や現象を数値やカテゴリで表現することを考えてみましょう。その数値やカテゴリがその物事や現象の「特徴」を表していると言えます。

なぜ特徴量は重要なのか？

特徴量は、モデルの学習の品質や予測の正確さに直接影響します。良い特徴量を選ぶことで、モデルの性能を大きく向上させることができます。逆に、不適切な特徴量を選ぶと、モデルの性能が低下することもあります。

特徴量の例

家の価格を予測するタスクを考えた場合：

家の面積:
- 家の大きさを平方メートルや平方フィートで表したもの。
- 一般的に、家が大きいほど価格も高くなる傾向があります。
寝室の数:
- 家にある寝室の合計数。
- 多くの寝室を持つ家は、家族数が多い人々や賃貸物件として魅力的であるため、価格が高くなる可能性があります。
立地:
- 家が都心に近いか、駅や商業施設からの距離など、立地の良さを示す情報。
- 良い立地にある家は、アクセスが良いため価格が上がることが多いです。
築年数:
- 家が建てられてからの年数。
- 新しい家は、設備や機能が最新であるため、価格が高くなることが多い。一方、古い家は価格が低くなる可能性があります。

これらの特徴量を組み合わせることで、家の価格をより正確に予測するモデルを構築することができます。特徴量の選択や作成は、機械学習のプロセスにおいて非常に重要なステップの一つです。

ラベルとは？

ラベルとは、機械学習における教師あり学習のタスクで、データポイントがどのカテゴリやクラスに属するか、またはどんな値を持っているかを示す情報を指します。簡単に言えば、ラベルは「答え」や「目的変数」とも呼ばれ、モデルに何を予測または分類して欲しいのかを指示する役割を持っています。

なぜラベルは重要なのか？

教師あり学習は、ラベル付きのデータを使ってモデルを訓練するアプローチです。モデルは、与えられたデータの特徴量から正しいラベルを予測する方法を学びます。この過程で、正しい答え（ラベル）を持つことが非常に重要です。なぜなら、モデルはこれらの答えを基に学習を進め、最終的に新しいデータに対して予測を行う能力を獲得するからです。

ラベルの例

画像分類:
- 画像が与えられ、その画像が犬、猫、車などどのカテゴリに属するかを予測するタスク。
- この場合、各画像に対する「犬」「猫」「車」などのラベルが必要です。
スパムメールの検出:
- メールがスパムか否かを判定するタスク。
- ここでのラベルは「スパム」または「非スパム」です。
家の価格の予測:
- 既存の家の情報から、その価格を予測するタスク。
- この場合のラベルは各家の実際の販売価格です。

ラベルは、モデルが「正しい」または「期待される」出力を学習するための基盤となる情報です。したがって、正確で信頼性の高いラベルを持つことは、機械学習モデルの性能を向上させる上で極めて重要です。

機械学習のデータについて

訓練データ（Training Data）とは？

訓練データは、機械学習モデルの「学習」や「訓練」に使用されるデータセットのことを指します。このデータセットを使用して、モデルはデータの特徴量からラベルを予測する方法を学びます。言い換えれば、訓練データはモデルに「教科書」の役割を果たし、モデルはこの教科書を元に知識を獲得します。

テストデータ（Test Data）とは？

テストデータは、訓練プロセスで使用されることなく、訓練済みのモデルの性能を評価するために使われるデータセットのことを指します。これを使って、モデルが未知のデータに対してどれほどの精度や信頼性で予測や分類を行うことができるのかを確認します。言い換えれば、テストデータはモデルにとっての「期末試験」のようなもので、学習した知識が実際に役立つのかを試される場面となります。

評価データ（Validation Data）とは？

評価データは、モデルの訓練中にその性能を途中評価するためのデータセットです。このデータを使って、モデルの設定やパラメータの調整を行います。評価データを用いることで、モデルが過学習しているかや、さまざまな設定の中で最も適切なものは何かを判断できます。テストデータとは異なり、評価データはモデルの最終的な性能評価には使われません。

なぜこの2つ（または3つ）のデータセットに分けるのか？

データセットを訓練データ、評価データ、そしてテストデータに分ける主な理由は、過学習（Overfitting）を防ぐためです。
過学習とは、モデルが訓練データに特化しすぎてしまい、新しい未知のデータに対してうまく機能しない状態を指します。訓練データだけで良い結果が得られるようにモデルが適応してしまうと、実際の現場や未知のデータに対する予測性能が低下するリスクが高まります。
この問題を防ぐために、訓練データでモデルを訓練し、独立した評価データでその性能や設定を調整し、最後にテストデータでその性能を評価します。このアプローチにより、モデルが実際の現場での性能を持続的に維持することが期待できます。

まとめ

訓練データ: モデルの学習に使用。モデルはこのデータを使って、予測や分類のルールを学ぶ。
評価データ: モデルの設定やパラメータの調整に使用。訓練中の性能評価に用いる。
テストデータ: モデルの評価に使用。訓練には使用せず、モデルの実際の性能を確認するために用いる。

Confusion Matrix（混同行列）とは？

混同行列は、分類モデルの性能を視覚的に表現するための表です。主に二値分類の結果を示すために使われますが、多クラス分類にも拡張することができます。混同行列は、実際のクラスと予測されたクラスの組み合わせに基づいて、以下の4つの要素で構成されます：

True Positive (TP): 正のクラスとして予測され、実際に正だった件数。
True Negative (TN): 負のクラスとして予測され、実際に負だった件数。
False Positive (FP): 正のクラスとして予測されたが、実際には負だった件数。
False Negative (FN): 負のクラスとして予測されたが、実際には正だった件数。

混同行列の利点

混同行列を使用することで、モデルがどのクラスをどれだけ正確に、また誤って予測しているかを明確に理解することができます。精度や再現率、特異度、F1スコアなどの評価指標を計算する基礎としても使用されます。

混同行列を用いた評価指標

まとめ

混同行列は、分類モデルの性能を詳細に分析するためのキーとなるツールです。それを通じて、モデルがどのような誤りを犯しているのか、またどのクラスの予測が得意であるか、といった点を明確に理解することができます。そして、それらの情報を基に、モデルの改善や調整を行うことができます。

体験に使うデータセット

Pythonのオープンソースの機械学習ライブラリであり、分類、回帰、クラスタリングなどの機械学習のタスクをサポートしているscikit-learnを使って、機械学習の体験をしてみましょう。
scikit-learnには、実験や学習のためのいくつかの基準データセットが含まれています。例えば、先述のアヤメのデータセットや、手書き数字のデータセット（digits）などがあります。これらは、初心者がアルゴリズムを試す際や、実験を簡単に始めるために提供されています。

アヤメのデータセット

アヤメのデータセット（Iris dataset）は、機械学習やデータ解析の分野で非常に有名な初学者向けのデータセットです。このデータセットは、アヤメの3つの異なる種類（setosa, versicolor, virginica）のそれぞれに対する4つの特徴量（がく片の長さ、がく片の幅、花びらの長さ、花びらの幅）を持っています。

詳しい内容:

サンプル数: 150 (各クラス50サンプルずつ)
クラス:
1. Iris-setosa
2. Iris-versicolor
3. Iris-virginica
特徴量:
1. がく片の長さ (sepal length)
2. がく片の幅 (sepal width)
3. 花びらの長さ (petal length)
4. 花びらの幅 (petal width)

なぜこのデータセットが使われるのか？

アヤメのデータセットはシンプルで分かりやすいため、機械学習の基本的な概念を学ぶ際によく使われます。特に、分類アルゴリズムの実習や、データ可視化の練習に適しています。また、3つのクラスが均等に分布しているため、バランスの取れたデータセットとしても利用されます。

実際の利用例:

データ可視化: 4つの特徴量を用いて、データの分布やクラス間の関係を視覚的に理解する。
分類: サンプルの特徴量を元に、アヤメの種類を予測するモデルを構築。
クラスタリング: 教師なし学習を用いて、データをクラスタに分ける。

体験に使うアルゴリズム

SVM (Support Vector Machine)

SVMは、データを二つのクラスに分類するためのアルゴリズムの一つです。具体的には、データ点を空間上にプロットし、これらの点を最も効果的に分ける境界線（または、高次元空間では「超平面」）を見つけることを目指します。

どのように動作するのか？

SVMの主要な考え方は、クラスを分ける境界を選ぶ際に、それぞれのクラスのデータ点との間の距離（マージン）が最大となるような境界を選択することです。このようにして選ばれたデータ点を「サポートベクトル」と呼び、これがSVMの名前の由来となっています。

高次元データとカーネルトリック

リアルワールドのデータセットでは、線形の境界だけでデータを完璧に分類するのは難しいことがよくあります。この問題に対処するため、SVMは「カーネルトリック」というテクニックを利用します。これにより、元の特徴空間から高次元の空間へとデータを変換し、その高次元空間内で線形の境界を見つけることができます。

例えば、多項式カーネルやRBF（Radial Basis Function、放射基底関数）カーネルなど、さまざまなカーネル関数が存在しており、それぞれの問題に合わせて最適なカーネルを選択することが求められます。

どんなときに使うのか？

SVMは、クラスの境界が複雑な問題や、特徴量の数が多いデータセットに対して特に強力です。ただし、データの規模が非常に大きい場合や、特徴量の数がサンプル数に比べて極端に多い場合は、計算コストの観点から適さない場合もあります。