畳み込みニューラルネットワークとは何か?

畳み込みニューラルネットワークは深層学習を行う上で注目されている技術です。そもそも畳み込みニューラルネットワークとは何なのか?なぜ注目されているのか?をこの記事ではまとめたいと思います。

通常のニューラルネットワークの課題

画像認識での発展に貢献した畳み込みニューラルネットワークなので、画像認識を例に説明したいと思います。

通常のニューラルネットワークの場合、ある画像を取り込んだ時に画像の端からカメラで拡大したように1つ1つの要素を見ていき特徴量を検出します。

毎回、画像を同じ角度、画角から同じ環境で撮影をすることができれば問題ないのですが、現実問題としていつも同じ角度となると難しくなります。

同じ角度から撮影しない場合、見切れてしまったり、角度や高さが異なりますが機械にそれを補正するすべがありません。

しかし人間の目は例え角度が違ったり、見切れてしまっても映っているものからものを推測することができます。理由は画像全体をみて特徴を取り出しているからです。この画像全体をみる時に使われるのが複雑型細胞と呼ばれます。

拡大した状態で1つ1つ見ていく時に使われるのが単純型細胞です。

畳み込みニューラルネットワークは単純型細胞に対応する「畳み込み層」と複雑型細胞に対応する「プーリング層」の2つから構成されます。

畳み込みニューラルネットワークがやっていること

先ほど畳み込みニューラルネットワークには畳み込み層とプーリング層があると書きました。

畳み込み層

畳み込みとは画像を局所的に見ながら特徴を抽出していくことです。

特徴には「画像の輪郭・明暗・色合い・高さ・幅・奥行き」などがあります。

これにより特徴を数値化してまとめた特徴マップが作られます。

プーリング層

プーリング層では畳み込み層で作られた特徴マップで画像データから特徴を抜き出してまとめあげたものをさらにまとめあげます。

畳み込み層で出力された画像の特徴マップから一部を取り出し、その中にある特徴量のうち、最大のものと平均値に注目します。

例えば

|2 3|
|4 5|

のような特徴量の画像があったとして、最大値は5、平均値は3.5になります。したがってこの部分は最大5で3.5前後の特徴量をもつという情報に変換することができます。

最大値と平均値に注目することで、学習をする上で画像の特徴を残しながら大事でない部分を削ぎ落としていくことができます。

したがって見切れてしまっていたり、角度が違うなどの問題も、関係のないことを無視して進むことができるので従来のニューラルネットワークよりも効率的に学習を進めることができます。

では畳み込みニューラルネットワークはどのようなところで活用されているのでしょうか?

まとめ

畳み込みニューラルネットワークは、一般に視覚データや不連続データの解析に優れると言われています。

具体的には画像認識、物体検出、領域推定のような主な画像を使った場面で活用されています。

今回は画像認識となった時にまず考えられる畳み込みニューラルネットワークとは何かまとめてみました。



この記事が気に入ったらサポートをしてみませんか?