AI技術の変遷2 画像当て会社の例で学ぶディープラーニングの基礎

ひろえ

2024年7月3日 16:45

前回のおさらいと今回の流れ

前回のブログでは、第二次世界大戦から2000年代初頭にかけての機械学習の進化についてお話しました。機械学習の誕生から始まり、データ分類や画像分類が可能になるまでの歴史を振り返りました。

今回は、ニューラルネットワークとディープラーニングの基礎についての話に焦点を当てます。画像当て会社の例を使って楽しく学びましょう。

ディープラーニングの再燃: 2006年～2012年

2012年: AlexNetの登場

1990年代以降、ニューラルネットワークは一時的に注目を浴びなくなりました。これはコンピュータの性能、アルゴリズムの限界、データ収集の困難さが原因です。

しかし、2006年にカナダのジェフリー・ヒントン氏が「ディープビリーフネットワーク」という革新的なニューラルネットワークの論文を発表し、この分野に再び注目が集まりました。ヒントン氏の研究は、ニューラルネットワークの多くの問題を解決するものでした。

2012年、ヒントン氏とそのチームが開発したニューラルネットワーク構造「AlexNet」が、画像認識コンテスト（ILSVRC-2012）で驚異的な成果を上げました。AlexNetは畳み込みニューラルネットワーク（CNN）を使用しており、従来の画像認識手法よりも大幅に精度を向上させました。この成功により、ディープラーニングの応用が急速に広がりました。

ニューラルネットワークとは？

ニューラルネットワークは、人間の脳の神経細胞「ニューロン」の仕組みを模倣し、コンピュータ上で再現したものです。たくさんのニューロンが互いにつながり、信号が一定の強さ（閾値）を超えると反応（活性化）します。この仕組みを利用して、データの解析やパターン認識を行います。

犬と猫の識別の例

ニューラルネットワークの仕組みを理解するために、画像に写っている動物が「犬」か「猫」かを区別する例を考えてみましょう。

入力層

まず、動物の画像をピクセルに分割し、入力層に渡します。入力層は、画像の各ピクセルの値を受け取る部分です。

出力層

次に、出力層があります。ここで、ニューラルネットワークは入力画像が「犬」か「猫」かを判断し、その結果を出力します。

隠れ層の役割

入力層と出力層の間には、複雑な判断を行うための「隠れ層」が存在します。隠れ層は複数のレイヤーで構成され、それぞれ異なる特徴を捉えます。

1層目の隠れ層: この層では、動物の形状や基本的な特徴を捉えます。例えば、線や点などです。
2層目の隠れ層: 次に、この層ではより細かい特徴を捉えます。例えば、耳の形や毛の長さなどです。

隠れ層の役割は、各レイヤーで段階的に情報を処理し、最終的にネットワーク全体が「これは犬だ」「これは猫だ」と正確に判断できるようにすることです。これにより、ニューラルネットワークは高い精度での識別を可能にします。

ニューラルネットワークのこのような構造と機能をさらに発展させたものが、ディープラーニングです。ディープラーニングは、多層の隠れ層を持つニューラルネットワークを用いて、より複雑で高精度な解析や生成を実現します。

画像当てゲーム会社の話で理解するニューラルネットワークの画像判定

ニューラルネットワークの仕組みは複雑ですが、イメージしやすい例え話で理解を深めてみましょう。ここでは、「画像当てゲーム会社」を使って説明します。

社員（入力層）

まず、会社の社員たちは大きな写真を256個の正方形に分割します。これらの正方形は、それぞれのピクセルを表しています。そして、社員256人にそれぞれ1枚ずつの画像を配ります。社員たちは、自分の担当する1枚の画像を課長に見せます。

課長（中間層）

次に、課長が登場します。課長は社員たちから受け取った画像を見て、ピクセルの特徴を判断し、何らかのルールを作ります。例えば、課長Aは「私は線を判定する！線はこれとこれだ！」といった具合に、画像の中で線を見つける役割を果たします。このルールは課長ごとに異なり、それぞれが異なる特徴を抽出します。

部長（中間層）

課長からの情報を基に、部長が次のステップを担当します。部長は課長から受け取った情報を元に、さらに高次の特徴を抽出します。例えば、部長Bは「この部分は耳だ！」とか「しっぽだ！」といった具合に、動物の具体的な部分を見分けます。

社長（出力層）

最後に、社長が最終判断を下します。社長は部長たちからの情報を総合して、画像が何を表しているかを決定します。例えば、社長は「この画像は犬40%、猫60%の確率で猫だ」といった具合に、最終的な判断を行います。

フィードバックの流れ

予測結果の確認

社長の最終判断は、「猫60%、犬40%」という予測でした。しかし、実際の画像は猫だったので、正解は猫100%です。この場合、猫100% - 猫60% = 40%分の間違いが発生していることになります。

社長からのフィードバック

社長は「ばかもーん」と言って、部長たちにフィードバックを行います。具体的には、「君が決めたルールは正解と比較してもっとこうするべきだった」といった具体的な指示を出します。

部長から課長へのフィードバック

部長は社長からの指示を受けて、次に課長にフィードバックを行います。「もっとこういうルールにしなさい。そうしたら私はいい判断ができる」といった具体的な改善案を伝えます。

課長から社員へのフィードバック

最後に、課長は社員たちにフィードバックを行います。「次はもっとこういうふうに判断しなさい」と具体的な指示を出し、社員たちがより良い判断ができるように導きます。

バックプロパゲーションの仕組み　まとめ

このようにして、各層（社員、課長、部長、社長）が徐々に自分のルールを修正していきます。これが「バックプロパゲーション」と呼ばれる仕組みです。この過程を繰り返すことで、次回の画像当てゲームではより正確に判断できるようになります。

バックプロパゲーションによって、ニューラルネットワークは誤差を減らし、学習を進めていくことができます。これにより、より高度で精度の高い予測が可能になるのです。

CNN（畳み込みニューラルネットワーク）の話

ニューラルネットワークの中でも、特に画像処理に優れたモデルが「畳み込みニューラルネットワーク（CNN: Convolutional Neural Network）」です。前回の「画像当てゲームの会社」の例を使って、CNNの仕組みを説明します。

社員（入力層 + 畳み込み層 + プーリング）

まず、会社の社員たちは、大きな写真を256個の正方形に分割します。そして、それぞれの正方形を担当します。ここで新たに、各社員は特徴を抽出するためのフィルターも受け取ります。全員が同じフィルターを使用します。

社員たちは、自分の担当する1枚の画像にフィルターを通し、いくつもの特徴を抽出します。この過程を「畳み込み（コンボリューション）」と呼びます。抽出された特徴の中から、最も重要な部分を選び出す作業が「プーリング」です。プーリングにより、重要な情報を残しつつ、データのサイズを縮小します。

課長（プーリング層）

次に、課長が登場します。課長も社員たちから受け取った特徴にフィルターをかけ、再度特徴を抽出します。さらに、重要な部分を残すためにプーリングを行います。この過程を繰り返し、課長は特徴を判断して自分のルールを決めます。例えば、「私は線を判定する！線はこれとこれだ！」というように、具体的な特徴を見つける役割を担います。

部長以降

部長以降も同様のプロセスを繰り返します。部長は課長からの特徴情報を受け取り、それを基にさらに高次の特徴を抽出します。このように、複数の層を通過することで、ニューラルネットワークは画像内の複雑なパターンや特徴を段階的に捉えていきます。

CNNの強み

CNNの強みは、このように層ごとにフィルターを適用し、重要な特徴を抽出しながら情報を圧縮していく点にあります。これにより、画像認識や分類の精度が飛躍的に向上します。例えば、畳み込み層とプーリング層を何層も重ねることで、ネットワークは画像内の微細な特徴から全体のパターンまでを把握できるようになります。

まとめ

今回はニューラルネットワークとディープラーニングの基礎についての話でした。

ニューラルネットワークの学習方法であるバックプロパゲーションのプロセスを、画像当て会社の例を通じてしましたが、いかがでしたでしょうか。また、CNNの強みは、層ごとに特徴を抽出しながら情報を圧縮することで、画像認識の精度を飛躍的に向上させる点にあります。

CNNのお陰で、画像検出の精度は大きく向上しました。では、画像生成はどうでしょうか。次回記載していきます。

この記事が気に入ったらサポートをしてみませんか？