【コンピュータビジョン編】2022年に読むべき「機械学習/ディープラーニングの最新論文」30選
はじめに
今回はコンピュータビジョン編として、生成モデル、画像認識や物体検出を中心に著名な国際会議に採択された最新論文を合計9本ご紹介いたします。著者実装が公開されているものは、その情報も併せてまとめました。論文は自動機械学習(AutoML)を専門としICMLなどのトップカンファレンスへの論文採択経験もある斉藤と、需要予測・異常検知など様々な分野で機械学習/ディープラーニングの産業応用に取り組んできた小縣が中心となってスキルアップAI講師陣にて厳選しました。ぜひ、今後の学びにご活用ください!
OpenGAN: Open-Set Recognition via Open Data Generation
ICCV2021ベストペーパー
学習データに含まれるクラス以外の新たなクラスに対しても適切に予測と学習を行うタスクであるオープンセット認識の精度を向上させたOpen-GANを提案
open-vs-closed (未知クラス vs. 既知クラス)の分類をピクセルではなく、OTS (off-the-shelf) 特徴量(既存の多クラス分類器による特徴量)を用いている
未知のクラスが含まれるオープンのデータセットの訓練を強化するために、敵対的に偽のオープンデータを合成
NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
ECCV2020採択論文
画像を入力として、三次元のモデルを生成するニューラルレンダリング手法を提案
位置+角度の五次元の入力に対して、体積密度と輝度を出力する全結合ニューラルネットワークを用いて、従来のボクセル表現を用いたCNNより高精度なレンダリングを実現
NeRF in the Wild: Neural Radiance Fields for Unconstrained Photo Collections
実装のURL:なし
異なる環境(天気、時間帯など)で撮影された入力画像であっても高い精度でニューラルネットワークベースのレンダリングを可能とする NeRF-W を提案
画像内の要素を対象物体とそれ以外に映り込んだ物体(人など)に分解することで、写り込みの多い画像からでもレンダリング可能としている
Swin Transformer: Hierarchical Vision Transformer Using Shifted Windows
ICCV2021ベストペーパー
新たなVision TransformerであるSwin-Transformerを提案
CNNやRNNを使用しないため、従来手法と比較して高速に処理可能かつ、物体認識やセマンティックセグメンテーションで従来手法より高性能
画像認識だけでなく、自然言語処理にも応用可能であることが示唆されている
MLP-Mixer: An all-MLP Architecture for Vision
実装のURL:https://github.com/google-research/vision_transformer
CNNやAttentionを用いずに多層パーセプトロン(MLP)をベースにした画像処理のモデル「MLP-Mixer」を提案
大規模なデータセットで学習したとき、画像分類のタスクにおいて、MLP-Mixerは既存手法と同等のスコアを達成
画像分類タスクに限らず、さまざまなタスクに応用可能
実装のURL:なし
MLPをベースにし、Attentionの代わりにゲート機構を採用したネットワーク構造「gMLP」を提案
gMLPが同等の性能を発揮したことから、Self-AttentionがVision Transformerにおいて性能向上にクリティカルな要素ではないことを示している
Exploring simple siamese representation learning
画像における教師なし表現学習手法であるSiamese Networkの改良手法「Simple Siamese Network」を提案
Siamese Networkが自明解を出力してしまう”collapsing”を、反復最適化中のパラメータの更新を停止するstop-gradientを用いて解決
一方で、stop-gradientがSiamese Networkに効果的である理由は不明で、本稿ではEMアルゴリズムを用いた仮説を立てている
A Simple Framework for Contrastive Learning of Visual Representations
対照学習において、従来手法よりシンプルかつ特徴的な構造やメモリーバンクを必要としないSimCLRを提案
どのような要素が対照学習に良いかを示している
画像分類タスクにおいて、SimCLRは教師あり学習のベースラインと同等かそれ以上の性能を達成
Transformation Driven Visual Reasoning
Visual Reasoningにおける新たなデータセットTRANCEを提案
既存のデータセットであるCLEVRでは、初期状態から推論を行うState Drivenで行われていたが、本論文では、初期状態と最終状態から、その過程を推論するTransformation Drivenで行うことを提案
現在のVisual Reasoningの手法では、初期状態と最終状態を結ぶシングルステップの過程の推論は高い精度で達成しているが、マルチステップの推論では人間の知能には遠く及ばないことが実験で示されている
次回予告
次回は「自然言語処理編」に関する最新論文を紹介します!ご期待ください!
スキルアップAIでは、画像認識や物体認識、それらを理解するために必要な深層学習の基礎を学ぶ「現場で使えるディープラーニング基礎講座」を開講しています。また、様々なGANを学ぶ「GAN(敵対的生成ネットワーク)講座」も開講中です。ぜひご検討ください。
また、スキルアップAI技術ブログでは
・2020年時点で最も注目される生成モデル
・人の認知が組み込まれたGAN -HumanGAN-
などGANに関連する最新論文の解説も行っております。
また、弊社がリリースする論文検索アプリ「ScholarPlanets」もぜひご活用ください。実際にアプリを用いてGANの研究を調査したブログも公開しています。
・研究論文の引用関係を可視化するツールを用いて、GANの研究を調査してみた
こちらも併せてご覧ください。
☆☆☆
スキルアップAIのメールマガジンでは会社のお知らせや講座に関するお得な情報を配信しています。
配信を希望される方はこちら
また、SNSでも様々なコンテンツをお届けしています。興味を持った方は是非チェックしてください♪
Twitterはこちら
Facebookはこちら
LinkedInはこちら
スキルアップAI公式YouTube AIビジネスチャンネルはこちら
この記事が気に入ったらサポートをしてみませんか?