見出し画像

分類AIの進化史⑦GoogLeNet

前回は、ILSVRC-2012の画像分類部門で優勝したAlexNetと、その翌年に行われたILSVRC-2013の画像分類部門で優勝したZFNetについて解説しました。

注:ILSVRCは、ImageNet Large Scale Visual Recognition Challengeの略。

今回は、ILSVRC-2014の画像分類部門で優勝したGoogLeNetを紹介します。

GoogLeNetの論文のタイトルは、Going Deeper with Convolutions(畳み込みでさらに深く)となっており、畳み込み層をそれまでのモデルよりもさらに増やした事が注目するべき点です。

GoogLeNet 図3

なお、この頃のディープラーニングは、層を増やせば増やすほど性能が良くなるという方向を目指しながらも、過学習や勾配消失などの問題をどう克服するのかが課題となっていました。

では、GoogleLeNetは何を持って層を増やし精度を上げることに成功したのでしょうか。


そもそもディープが良い理由とは

AlexNet、ZFNet、GoogLeNet、そしてその後の画像分類モデルの多くは、畳み込み層を利用して入力画像から特徴量を抽出します。また、畳み込み層の数を増やすことによって、より精度が上がるという現象があり、各研究者は層の数を増やすことに注力しました。ISLVRC-2015の画像分類部門で優勝したMicrosoftのResNetなどはその典型で、最大で152層まで増やすことが可能であることが論文で発表されました。

やがて層を増やすことだけでは限界があり、NAS(Neural Architecture Search)によるEfficientNetなど、その他の手法により注目が集まります。

また後に、トランスフォーマーが登場し、ヴィジョン・トランスフォーマーなどで画像系の処理が可能となったため、畳み込み以外の手法の研究も盛んになっています。

では、なぜディープ(層を増やす)ことで良い結果が得られたのでしょうか。特に、畳み込み層の数を増やすと、どういう効果があるのでしょうか。

ここから先は

3,547字 / 7画像

キカベン・読み放題

¥1,000 / 月
初月無料
このメンバーシップの詳細

この記事が気に入ったらサポートをしてみませんか?