マガジンのカバー画像

画像分類 AI

33
画像分類はディープラーニングでいち早く成功した分野になります。画像分類のAIを理解することは他の分野のAIを理解する土台となります。
運営しているクリエイター

記事一覧

分類AIの進化史㉒MobileViT

前回は、畳み込みもアテンションも使わないMLP-Mixerの解説をしました。今回は、畳み込みもアテンションも使う(組み合わせた)MobileViTを紹介します。 MobileViTの論文は、2021年にAppleが発表しました。 そのタイトルは「MobileViT: Light-weight, General-purpose, and Mobile-friendly Vision Transformer」で、日本語に訳すとしたら「MobileViT: 軽量、汎用、モバイル

分類AIの進化史㉑MLP-Mixer

前回は、CLIPを解説しました。今回は、2021年にGoogleが発表した畳み込みもアテンションも使わないMLP-Mixerを紹介します。 2012年、ImageNetコンペティションでAlexNetが登場して以来、「画像処理といえば畳み込みニューラルネットワーク(CNN)」というのが一般的な考え方でした。畳み込みは、画像から特徴を抽出する強力な方法として広く認識されています。CNNはその後も発展し続けています。 一方、言語処理の分野では、2017年に登場した「トランスフ

分類AIの進化史⑳CLIP

前回は、Swin Transformerを紹介しました。今回は、2021年にOpenAIが発表した論文Learning Transferable Visual Models From Natural Language Supervisionに登場するCLIPを解説します。 このタイトルを日本語に意訳すると「転移可能な画像分類モデルを自然言語で教師あり学習」といったところでしょうか。転移可能な画像分類モデルとは、特徴量の抽出に優れ転移学習などに応用できる画像分類モデルを意味し

分類AIの進化史⑲Swin Transformer

前回は、ビジョン・トランスフォーマー(ViT、VisionTransformer)を解説しました。今回は、2021年に、Microsoftが発表した新しいビジョン・トランスフォーマーであるSwin Transformerを紹介します。 論文のタイトルは、「Swin Transformer: Hierarchical Vision Transformer using Shifted Windows」です。 Swin Transformerは異なる大きさのパッチを用いて画像処

分類AIの進化史⑱VisionTransformer

前回は、EfficientNet(2019)を紹介しました。今回は、2020年に登場したビジョン・トランスフォーマー(Vision Transformer、ViT)を紹介します。ViTはGoogle Brainチームが開発したCNNを使用しない画像分類モデルです。 ViTの論文のタイトルは、「An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale」です。日本語訳するとしたら、「画像

ビジョン・トランスフォーマーとは

画像分類はコンピュータビジョンにおいて重要なタスクの1つです。従来の画像分類のアプローチとして、畳み込みニューラルネットワーク(CNN)があり、定番の手法として定着していました。 2020年、Google Brainチームは、CNNを使用しない画像分類モデルであるビジョン・トランスフォーマー(Vision Transformer、ViT)を開発しました。 ViTは、分類のために画像パッチのシーケンスに直接トランスフォーマーのエンコーダーを適用します。 最近(2023年2月

分類AIの進化史⑰EfficientNet

前回は、MITの Song HanらによるProxylessNASを紹介しました。その前には、GoogleのQuoc V. Leらによる強化学習を利用したNeural Architecture Search(NAS)を紹介しました。今回は、再びQuoc V. LeらによるNASを利用したモデルであるEfficientNet(2019)を紹介します。 下図は、EfficientNetの性能を表しています。横軸がパラメータの数、縦軸が正解率(%)です。 黒の点は、手作業で設計

分類AIの進化史⑯ProxylessNAS

前回は、GoogleのQuoc V. Leらによる強化学習を利用したNeural Architecture Search(NAS)を紹介しました。 NASによって発案されたモデルによる実験結果として、110層もあるResNetよりも良い成績を僅か39層で達成しました。しかし、パラメータ数はより多くなっている点が課題でした。 さらに、NASによるモデルの探索には莫大な数のGPUパワーが消費されました。というのも、NASのコントローラが新しいモデル構造を提案するたびに、はじめ

分類AIの進化史⑮強化学習でモデル構築

前回に解説したMobileNet V3では、Neural Architecture Search (NAS)の手法が使われていました。NASは、簡単に言えばニューラルネットワークの構造を自動的に最適化する手法のことです。 ImageNetのコンペに登場した多くのモデルは、研究者やエンジニアによって手作業で設計されています。以前のモデルからヒントを得て改良を加えるので、時系列に沿ってモデルの構造を辿っていくと、その発展が徐々に進んでいったのがよくわかります。 しかし、ニュー

分類AIの進化史⑭MobileNet V3

前回は、2018年に登場したMobileNet V2について解説しました。今回は、その次のバージョンであるMobileNet V3(2019)を紹介します。 これ以上の軽量化や高速化がどのようにして可能なのかと思われるかもしれません。Googleの研究開発者たちは、他のモデルからのアイデアを活用したり、ハードウェアに最適化することで、モデルの精度と効率化のバランスが取れたモデルを開発しました。 下図を見てください。実際にMobileNet V3(青)はMobileNet

分類AIの進化史⑬MobileNet V2

前回は、2017年のILSVRCに参加したGoogleのチームによるMobileNet(モバイルネット)の解説をしました。VGG16やGoogLeNetに引けを取らない精度を達成しつつ大幅な軽量化に成功しました。 今回は、MobileNetをさらに改良したMobileNet V2を紹介します。2018年に発表されたMobileNetの新モデルで、効率と性能をさらに向上させるための工夫がなされています。 MobileNet V2の特徴としては、反転残差ブロック(Invert

分類AIの進化史⑫MobileNet

前回は、2017年のILSVRCの画像分類部門で優勝したSENetの解説をしました。この年でImageNetのコンペティションは終ったのですが、他の参加モデルで言及に値するものがいくつかあります。その中から、今回は、2017年のILSVRCに参加したGoogleのチームによるMobileNet(モバイルネット)を紹介します。 これまでずっと、どちらかと言えば精度の高さが強調されてきました。そのため、ネットワークの層の数(深さ)や、畳み込み層のチャンネル数(幅)を増加させてき

分類AIの進化史⑪SENet

前回は、2016年のILSVRCの画像分類部門で2番手となったResNeXtを紹介しました。そして、畳み込みニューラルネットワークの深さ、幅、カーディナリティについて解説しました。 今回は、2017年のILSVRCの画像分類部門で優勝したSENetを紹介します。Oxford大学と中国科学院の共同研究によるモデルの特徴は、その名前の一部となっているSE(Squeeze-and-Excitation)ブロックです。 SEブロックはチャンネル間の相関に注目しました。ImageN

分類AIの進化史⑩ResNeXt

前回は、2015年のILSVRCの画像分類部門で優勝したMicrosoftによるResNetを紹介しました。今回は、2016年のILSVRCの画像分類部門で2番手となったResNeXtを紹介します。 カリフォルニア大学とFacebook AI Research(Meta)によるResNeXt開発チームには、物体検出モデルとして有名なFaster R-CNNを開発したRoss GirshickやKaiming Heが参加しています。 ResNeXtは、その名前からも分かるよ