Vision and Language系の研究を始めてから、ICCV採録までの道のり

産総研で研究員をしている Qiu と申します.今年のICCV 2021の
論文Describing and Localizing Multiple Changes with Transformersが採択されるまでの道のりを紹介いたします.

Vision and Language系の研究を始めたきっかけ|2018年5月

修士課程の2年間は主に3D Vision分野の研究を中心にテーマ設定を進めていました.その経験もあってか,博士課程進学後の一か月ほど経った時期 (2018年5月) に cvpaper.challenge の 3D Vision グループに参加させていただきました.研究テーマを設定する際,アドバイザをしてくださっていた秋月秀一先生片岡裕雄さんから,Visual Question Answering (VQA) に対して 3D Vision と結合する提案(つまり幾何的な情報を把握した上で質問応答をするという案)をいただきました.それまで Vision and Language の研究を全く知らなかったのですが,この時点から特にVQAについて調べ始めました.

RGBD VQA|2018年5月~2019年2月

VQA の初期研究自体は,2015年に提案されました.2018年時点で Vision and Language と 3D Vision の組み合わせの研究がほとんどないことを私の調査では明らかにしました.また,当時点群や Voxel などを含め,3D表現を CNN を扱うのがまだ十分に定着していなかった状況でした.私は単一のCNN モデルですべて実装を完結させたかったので,RGBD を入力とし,Depth 画像による空間特徴を得て,VQA を実行することから研究を開始しました.シミュレーション環境で単純な図形と対応する文章を自動で生成可能なVQA用のデータセット CLEVRに対しては多少性能向上できましたが,実画像により構築されたベンチマークである VQA v1, v2では思ったほど性能を向上できませんでした.当時私の試み (RGBD VQA) は最終的にCVPR 2019 Visual Question Answering Workshopに採択されましたが,proceedingsとして公開されるには至りませんでした.しかし,CVPR本会議に併設されたVQAワークショップに参加する機会を得ることができました.それまでにCVPRに現地参加した経験はありましたが,初めてVision and Language 分野のコミュニティの一員として参加でき(私はそのような心情で臨みました),ワークショップのオーラル発表聴講や,ポスター会場を回り,このサブトピックにおいて志を同じくする研究者たちと熱いディスカッションを交わせたことが,Vision and Language 研究に対する情熱を持つに至ったきっかけでした.

Multi-view VQA|2019年3月~2019年10月

修士課程在学時,RGBD-SLAM を行った経験から,3D や空間的な情報は複数視点から得られることを学びました.指導教員の佐藤雄隆先生からも多視点から特徴を抽出すれば,VQAの性能向上に繋がるのではないかというアドバイスをいただきました.それまでの実験結果から RGBD の適用のみでは VQA における性能向上,特に実画像に対しては性能向上に至らないと思い,VQAに複数視点からの観測を導入する研究を開始しました.前年に VQA のデータセットを扱う経験を積んできたおかげで,割と早い段階で シミュレーション環境下でデータセットを構築する CLEVRをベースとした複数視点VQAデータセットを自らの手で構築することに成功しました.複数視点画像を SLAM などにより得られる一方,End-to-End なネットワークを構築したかったため,複数視点からシーンの 3D 情報を得るための特徴抽出のサーベイを開始しました.そこで,2018年,学術雑誌 Science に掲載された Generative Query Network (GQN)が VQA との親和性が高いと判断し,視点変化に対し高い理解度を示す GQN を VQAに導入する仕組みを導入しました.結果的には,CGにより多視点画像を生成し入力することで質問(Question)に対し高い精度で回答(Answering)する (Multiview VQA) のモデルを構築できました.GQN は1視点からシーンの特徴表現を得られるという性質があり,シーンごとに異なる視点選択も行いやすい利点があります.さらに続編となる論文で視点選択の仕組みを導入し,学習により複数視点から効率的に必要な視点を選択しつつ質問回答可能な (Multiview VQA + Viewpoint Selection) を実装しました.

Change Captioningを始めたきっかけ |2019年11月

Multi-view Change Captioning|2019年11月~2020年3月

2019年10月末に韓国・ソウルで開催された ICCV 2019に参加していた時のことです.その時の Best Paper Candidate である Robust Change Captioning の発表を現地で聴講しました.Robust Change Captioning では,変化前後の同じシーンの2枚の画像から,含まれている変化を自然言語で記述するというタスク(Change Captioning)を扱っています.Robust Change Captioningの実験でも,その当時,私の研究でも扱っていたデータセットCLEVRを使用していたことから,私の研究もChange Captioningに応用可能と判断しました.ちなみに,頑健という意味の「Robust」は視点変更などに対しての「Robust」を主張されていました.Multiview VQA の研究で GQN を使用することにより,視点の変動に対してのRobust性が確かめられたため,Change CaptioningタスクにもMultiview VQAで行っていた検証をすることを決意しました.その際の試みを発展させた結果, IROS 2020 with RA-L Option (Multiview Change Captioning) の採択に至りました.

Change Captioningを部屋規模に拡張|2020年4月~2020年10月

Multiview VQA と Multiview Change Captioning の研究では,単純な幾何物体が固定色(solid color)の背景における設定で実験し続けてきました.単純なシーンに止まらず,より複雑なシーンに対しても対応できるようにするため,その次に Change Captioningを部屋規模まで拡張 (Indoor Scene Change Captioning) してみました.ここまでには,画像ベースでの手法構築がメインでしたが,この時点でまた修士課程時に扱っていた3D点群も再びサーベイ対象となりました.

ICCV2021投稿|2020年11月~2021年3月

Multiview Change Captioning の検討を行っていた際に,既存手法である DUDA や前提案した手法も実際変化前後のシーンの物体を同時に「前景」と「背景」(背景:変化前後の画像を対応付ける参照物)の両方として扱ってきました.実環境,例えば室内環境では人間の活動により物体の位置変動が激しい場合が想定できるため,変化理解を行う手法では,物体を「背景」として扱うべきではないと考えていました.また,既存の研究では1シーンで1変化しか発生しないという設定となり,実環境では物体変動を多く含むため,1変化しか対応できないという設定は現実的ではありませんでした.以上の考察から,2020年11月ごろから,複数の物体変化が含まれるデータセット構築と当時期待感が強かったTransformerベースの手法に関する構想を始めました.

また,ここまでの研究で産総研に所属する指導教員の佐藤雄隆先生,片岡裕雄さん,鈴木亮太さんにアドバイスをいただきながら,実験や論文執筆を進めてきました.cvpaper.challenge の Vision and Languageグループでの後進育成のため,早稲田大学の山本晋太郎さんもこちらの研究に参加してくださり,実験や論文執筆に至るまで手厚いサポートをいただきました.また,PRMU の研究メンターシッププログラムにも参加させていただき,牛久祥孝先生からも論文の執筆やICCVのRebuttalに関して貴重なコメントを頂きながら,見事採択に至りました.

おわりに

この記事では Vision and Language の研究の開始当初から,ICCV 2021本会議にの論文が採択されるまでのストーリーをお話させていただきました.振り返ってみると,改めて研究コミュニティの重要性を感じました.私は産総研の連携大学院にいたため,cvpaper.challenge が身近な存在だったおかげで,研究を進めるにあたり様々な経験と知識を蓄積することができました.あたらめて私の研究に関わっていただいた皆様に感謝を申し上げます.

最後に,今後も cvpaper.challenge の Vision and Language グループで研究を行っていくので,一緒に研究していただける研究メンバーを募集しております.興味のある方がいましたらこちらのリンクの連絡先からお声がけいただけましたら幸いです.

この記事が気に入ったらサポートをしてみませんか?