CV分野メジャー国際会議受賞 / トップジャーナル採択までの道のり

筆者:片岡 裕雄

どうすればコンピュータビジョン(CV)分野のメジャー会議で受賞できるのか?話はとても単純で「メジャー会議で賞を狙うこと」です。

本記事では私が体験した、CV分野メジャー国際会議の一角を担う Asian Conference on Computer Vision (ACCV) での受賞経験とさらにその成果がトップジャーナル International Journal of Computer Vision (IJCV) に採択されるまでの話をします。

はじめに

こんにちは!国立研究開発法人 産業技術総合研究所 人工知能研究センター所属の片岡裕雄と申します。今回はcvpaper.challenge 〜研究成果を世に送り出すまでのストーリー〜 Advent Calendar 2021の真ん中12日目として投稿させて頂きます。

このアドベントカレンダーの趣旨にも関連します「cvpaper.challengeをなぜ始めたか?」については、最終日にお話させて頂けたらと思います。初日投稿のcvpaper.challenge 創設のアナザーストーリーに呼応させる形で記事を執筆するので、ぜひ最終日をお待ちください。

さて本題の記事として、2021年12月現在私が主体的に進めております、Pre-training without Natural Images - 実画像を用いない(深層学習の)事前学習について、その始まりから現在に至るまでのストーリーを書き記していきます。同プロジェクトは下記に示すように

◆ 何度も失敗を経験し、ロストテクノロジーになりながらも劇的に復活
◆ リジェクトを何度も経験しながらメジャー会議ACCVにて受賞、さらにトップジャーナルIJCVにも採択
◆ ImageNetがCVにおける深層学習の基盤となり拡がったように、より安心安全な事前学習モデルとして拡散しそう

という経緯や側面があるので、私自身研究を進めていてこれからが非常に楽しみです。実験結果が出てくるたびにワクワクしますし、世界の一大トレンドになるよう推し進めていく所存です。

この記事の導入として、まずは同プロジェクト開始前の博士課程までの自分について振り返りつつ、プロジェクトのストーリーに触れていきます。それでは本編をどうぞ。

博士課程までの自分 | Strong Rejectとの戦い

博士課程までの自分は「拒絶(Reject)」との戦いでもありました。当然ながら、難関国際会議や研究費申請は10〜30%の採択率なんて珍しくないので、必然的に研究者はRejectとの戦いなのですが、多くの論文で「強い拒絶(Strong Reject)」をもらっていました。下記は共有できる範囲でのReject集です。おまけに修士課程時に受けた企業研究所の就職活動状況も共有。

【Strong Reject集】

スクリーンショット 2021-12-11 22.29.03

※ 某所で使用した最終スライドなので(おわりに)とありますが、本稿はまだ終わりません!

【研究者失格の烙印!?】
私は修士課程時に行きたいと思った企業研究所(6社7研究所)に全落ちだったので「研究する資格なし」という烙印を押された気分でした。その後、博士課程進学して現在では国立の研究所で楽しく研究ができているので何が起こるか分からないですが、自ら周囲の環境を変える努力は必要なのだと思います [Twitterからの引用]

博士課程時に出した論文はStrong Rejectの山(さらに修士課程の際に応募した希望の研究所は悉く不採用)でした。ともすると悲観的になり研究者を諦めてしまうということもあり得たのではないでしょうか。特に論文に関して言えば、サーベイ、テーマ設定、研究のやり方進め方、論文執筆の面全てで自己流だったことが原因です。自分の甘さを痛感しつつも、どう改善してよいか、をRejectのコメント中から探りに探りました。転機になったのはTUM(独国・ミュンヘン工科大学)での研究留学でした。

画像2

画像3

2013, 2014年に滞在、研究していたTUM Department of Informatics(一枚目)とチームリーダー Dr. Slobodan Ilic、当時Ph.D. Student/現在Ulm University Junior ProfessorのVasileios Belagiannis(と実は後のCVPR Best Paper Award 受賞者、現在University of Oxford (Visual Geometry Group; VGG) Departmental Lecturer, Christian Rupprechtが微かに映ってる!)(二枚目)。写真は筆者のFacebookより引用。

特筆すべきは、まず全員がトップ国際会議を狙っていることです。これは私が滞在していたTUMの博士課程修了条件がメジャー会議2報、メジャージャーナル1報であったことが大きいです。印象的だったのは夏休み明けのミーティング、チームリーダーの開始ひとこと目が「で、CVPRにはどんな研究を出すの?」でした。夏休み前後の空気感はどことなく緊張感があるし、昼食中も最近の研究動向の議論、メーリングリストには最新論文の情報が飛び交っています。論文投稿の締め切りが近づいた頃になると、チームリーダーはメンバーの論文に目を通すのみならず、イントロを悉く上書きして意図を汲みつつもより洗練された論調にしていきます。ライティングに自信のあるPh.D.は直前まで実験結果を蓄積して完成された技術にしておき、一週間で一気に原稿を書き切りAcceptを掻っ攫っていく... この実践を兼ねた研究者としての訓練が彼らをトップリサーチャーに押し上げ、なおも成長を繰り返すサイクルを生み出していく。私がTUMでの滞在を終えたあとの数年でも、友人たちは所属を変えつつもBIG3(トップ国際会議 CVPR, ICCV, ECCV)のオーラルに採択、CVPR Best Paper Awardと業績を上げ、トップ企業のResearch Leadや大学研究室のPrincipal Investigatorとなりキャリアを積み重ねています。一時(いっとき)だったとしても、そんな環境に身を置き机を並べて同時期に研究活動を体験でき、その後の成長曲線を確認できたことがより洗練された研究開発を目指すための、大きな転機になりました。さらには、汎ゆる研究機関のチームビルドや体制構築を探るきっかけになっています。

TUMには2013年と2014年の2回、それぞれ数ヶ月ずつ滞在したわけですが、2013年滞在の研究論文が分野のメジャー国際会議のひとつであるACCV 2014に採択されました。今まで同じような水準の国際会議での論文の査読結果は(Strong)Reject続きだったにも関わらず、なぜいきなり採択されるに至ったのでしょうか?その主要な答えは下記をご覧になればお分かりいただけると思います。

画像4

つまりは論文のライティング、自分の研究を語る力が決定的に欠如していたわけです。画像は修正して頂いた ACCV 2014 論文の1ページ目。青字が私の執筆部分、赤が Slobodan の執筆した部分。私の執筆した論文の意図を汲み取りつつもより洗練された文章に書き換えてくれています。この体験から、論文のプレゼンテーションの効果についてより深く考えるようになり、その論文が研究分野や社会に与える貢献度に関するストーリー展開を意識するようになりました。

今考えると、この独国での体験が現在に繋がるひとつの系譜だったようです。cvpaper.challengeを始めるひとつの大きなきっかけになりました。
この結果採択されるに至った論文も、偶然か必然かACCVだったわけです。

簡単な研究紹介 | 分野のスタンダードを使わない

2021年12月現在、深層学習が登場、第三次AIブームとなって久しいです。歴史的出来事であったILSVRC(ImageNet Large-Scale Visual Recognition Challenge)の2012年大会から2022年で10年の歳月が経とうとしています。ILSVRCで用いられていたImageNetデータセットは、もはやCV分野のアイコンとなり、その学習済みのパラメータはPyTorch/TensorFlowなどあらゆる深層学習フレームワークにおいて 'たったの' 一行で引き出して使えるくらいスタンダードになりました。程度の問題はあれど、研究者や技術者ではない方でも週末の間にとりあえず深層学習のサンプルを動かし多少改変する、というところまでできてしまうのではないでしょうか。

しかし一方で、この10年の間にImageNetを筆頭とした大規模画像データセットにも弱点が見つかってしまいました。AI倫理問題です。関連の話題は各所で問題となっていて、大規模画像データセット関連でも画像削除公開停止、画像認識APIにおいても差別的な出力をしてしまうなど一般レベルでのニュースになっていました。現状、大規模画像データセットは多様な物体を凡ゆるシーンにて撮影した実画像に対し、人間がペアとなる教師ラベルを付与することで構成されてきました。さらに、同データセットにて事前に学習することで基礎的な視覚能力を獲得できることが既成事実となっていました。最も信頼されてきた手法は人間がラベル付けを行った、いわゆる教師あり学習でしたが、この方法論では先に述べたAI倫理のみならず、ラベル付コスト・プライバシー侵害など多様な問題が起こることがわかっています。これらの問題のハードルはあまりにも大きい。いっそ実画像を使わずに学習を成功させた方が良いとも思えました。

では、実画像を用いずに深層学習モデルに基礎的な視覚能力を獲得させることは可能なのか?コマンド一行で引き出し、全てとも捉えられる画像認識タスクを成功に導いてきたデファクトスタンダードを使わずに画像認識の研究ができるのだろうか?我々はこの問題に取りくんで参りました。ある時、そのImageNetを眺めているとある法則があることに気付きました。

画像5

そうなんです!ある種の自然法則のようなものを使っているのではないか、というわけです。その中でも、多くの画像が自然法則の代表的なパターン生成規則であるフラクタル幾何を含んでいるのではないか、ということでフラクタル幾何を直接的に画像に投影して、画像パターンとパラメータ区間から教師を同時生成して大規模画像データセットを構築すれば、実画像を用いずとも実画像による大規模画像データセットを置き換えることができるのではないか、と考えました。この、数式から画像パターンと教師ラベルを同時生成する方法論を「数式ドリブン教師あり学習(Formula-Driven Supervised Learning)」と銘打ち、きたるべきAIの実践タームにおいても、倫理的に問題なく大規模画像データセットによる視覚能力獲得をサポートすべく研究を進めます。その代表例であるFractal DataBase(FractalDB)は下記のようなデータセット構成となっています。

ご覧いただいている画像一枚一枚は異なる画像カテゴリを示しています。これは実画像によるデータセットでは動物の種類や人間の工具の種類に対応します。FractalDBの場合、フラクタルカテゴリ{1, 2, ... , 1,000}のように無機質に番号を割り振っているのみです。このような画像パターンや画像カテゴリを深層学習に事前学習させ、次に各々の実画像データセットのタスクを解かせると驚くほどうまく性能の底上げができます。

詳細な内容はプロジェクトページ論文にも示しましたが、少しでも難しく感じてしまう場合には、日本語でも読めるように
コンピュータビジョン最前線という書籍を執筆・出版させて頂きました。遠慮なくお求めください!(つまりは、要するに、まあ唐突な宣伝です笑)

...といいつつ牛久さん、井上さんや私の記事は無料で読めるのでご興味あればこちらからご覧ください。

プロジェクト推進のコツや学び

プロジェクト開始から国際会議で受賞するまでの流れは下記に示す通りです。ここまでで実に5.5年間も研究しています。

スクリーンショット 2021-12-11 22.30.53

(実は、似たような問題設定である自己教師あり学習がコンピュータビジョン分野で流行り始めた頃には、この問題設定を発想し研究に取り掛かっていました。自己教師あり学習の発展ぶりを横目に見つつ、地道に改善活動を続けていました。)

この項目からでは現在に至るまでのプロジェクト推進に関するコツや学びについて記載していきます。トピックだけ書き出しておくと下記の通りです。
◆ アイディアは徹底して尖らせよう
◆ 良いと信じたテーマは続けよう
◆ 研究は改善あるのみ
◆ 人を巻き込め
◆ 最高のリソースを使う
◆ 投稿戦略の切り替え
◆ (論文含め)プレゼンはクリアに
◆ 「狙え」さもなくばAwardは獲れない

アイディアは徹底して尖らせよう

研究者は、常に研究のアイデアを考えているものです。しかし、そのアイデアは全てが画期的であるとは限らず、そのアイディアから設定した研究テーマがイマイチだと、やはり生まれてくる技術も良いとは言えないことが多いです。もちろん、優れた技術の初期アイデアは必ずしも優れたものであるとは限りません。だからこそ、実践を伴い(例:プロトタイプを作成して実験する)、その結果や考察から研究テーマを常に更新していかなければなりません。失敗例の積み重ねであっても、考え続けることで良いひらめきに変わることもあります。

私はよく、研究連携している共著者をはじめとして、打ち合わせの中でメンバーとブレイン・ストーミングを行っています。ブレイン・ストーミングはアイデアを磨くための重要なツールであることは間違いありませんが、私は実践を伴うこと、自分の中でアイディアを噛み砕くこと、共著者とのインタラクティブな議論、のバランスが非常に重要だと考えています。論文を読んだり書いたりしているとき(自己研鑽)、国内外の参加しているとき、打ち合わせで議論しているとき(双方向の議論)には、アイデアを改善することができます。しかし初期アイデアに固執し、自分で改善しようという気持ちがないと、上記のような改善はできません。そのためには、柔軟な視点と実戦の繰り返しを要します。

今回の場合にはどうだったか、というと「数式ドリブン教師あり学習」というコンセプトは研究開始当時は設定されておらず「自然物にはフラクタルが含まれる(なので、画像にフラクタル幾何による図形を投影しよう)」という仮説程度しかありませんでした。下記は色々試した中の一部ですが、さまざまな試行錯誤を繰り返したことを覚えています。

◆ 「自然物と人工物は見分けられるのか?」→そもそも自然物とか人工物ってなんだ?という壁に行きあたる。
◆ 「自然画像と数式画像の分布を近づけるという拘束を与えるとうまくいくのでは?」→GAN的な発想だったが、あまりうまくいかず。無理に数式で生成したパターンを自然画像に近づけても学習を成功させるには心許なかった。
◆ 「手作業でフラクタル図形のパラメータを探索」→参考文献を読み漁ってパラメータをかき集めてきた。大変すぎるのでランダムでパラメータ生成して関数を通して画像に投影する方式に変えた。

良いと信じたテーマは続けよう

今となっては一定の成果が出ているので、最初からそれはそれは素晴らしいアイディアだったのだろうと思われがちですが、そんなことはないです。周囲からは「ImageNet事前学習があるのに、なぜ今更そんなことをやり始めるのか?」「面白いけど、精度が高くなる見込みのない学習をなぜ研究するのか?」「それって結局GANだよね?(これは説明の仕方がよくなかったと思います)」といったコメントがつきました。

さらに追い討ちをかけたのが、最初の主著である学生さんが海外に行ってしまうものの、直前まで忙しすぎて引き継ぎに失敗、コードもなくなりロストテクノロジーになってしまったことがありました。先の「プロジェクト これまでの流れ」でいうと2017/03あたりのことでした。

成果もなく、先に紹介したコメントばかりだったので辞めしまっても不思議ではなかったのですが、CVPR 2015 完全読破やその後も多数の論文を読み進めていたりこと、自己教師あり学習の期待感を横目に眺めていたこと、(公平性などAI倫理の問題は今ほどは指摘されていなかったものの)当時でも著名な大規模画像データセットは学術・教育目的のみに限定されていたことがあり、自分の中で絶対に使えるようになる・するという確信や信念のようなものがありました。

結局は、コーディングが得意だった東京電機大学の岡安くんがテーマを引き継いで再現させるや否や、さらに良いものを作ってプロジェクトを進めてくれていました。この貢献が大きく、岡安くんはACCVの論文でも2nd Authorとなっています。

研究は改善あるのみ

最初のアイディアを叩き上げ、より良い研究の問題設定にしていく作業です。同時に、性能を高めていくことで実際に使えるものに改善していく行為も含みます。本研究においても、研究コミュニティ内での定期的な打ち合わせ、国内学会での発表、国際会議への投稿などを通して研究の改善を繰り返しておりました。

◆ 2017/03〜2017/07:この時期は改善というよりも前年に行った内容を復元する作業に終始しました。
◆ 2017/07〜2018/07:手作業で進めていたフラクタルカテゴリをランダム生成しても精度が出るように改善しました。
◆ 2018/11〜2019/11:CVPR 2019, ICCV 2019, CVPR 2020への投稿。なお、これら全てにおいてひとつもAccept寄りの判定はなくReject。Strong Rejectが混ざることもありました。

2018年7月までにはアイディアのベースができていたものの、3度にも及ぶトップ国際会議への投稿では一度もAccept判定がつかず落とされていました。主な原因は「面白いけど、、、精度が低いよね」という指摘により評点が低くなっていることでした。CV分野での判定では良くも悪くも精度面での完成度を求める傾向にあり、CVPR 2019 / ICCV 2019の査読が返ってきてからというもの、実験面での工夫やデータセット構成について考え、研究の面白さをより際立たせる方向や根本となる精度の向上取り組みました。

人を巻き込め

大きな転機となったのは、科研費を獲得できたことでした。2019年4月、ちょうどICCV 2019への投稿直後くらいに、1研究機関3大学研究室による連携グループを組んで申請していた科研費基盤(A)に採択されました。連携型の研究費に採択されると研究室の学生さんが研究テーマに割り当てられるため、より強い研究グループを構成することができ、技術に関して広く検討することができます。

研究連携を行う中で、研究領域を広げていきました。画像識別のみならず、動画認識、複数視点画像認識などです。大学院生は自分の研究を実行する力と、柔軟な発想を持っていて、プロジェクトをどんどん進めてくれる頼もしさがありました。

このアドベントカレンダーにおいても、12/4の山田亮佑くん12/10の中嶋航大くんの記事はその成果も含んでいます。

最高のリソースを使う

スーパーコンピュータを使うことで、研究が飛躍的に加速しました。私たちは当時TOP500で5位、Green500で8にランクインしたABCI(AI Bridging Cloud Infrastructure)を2019年から利用しました。登録は比較的簡単で、利用価格も比較安価に抑えられているとのことでした。

スーパーコンピュータを使うことにより、どの程度実験が速くなったのか?使用前はTitanX GPUを4枚使用していましたが、ABCIは1ノードあたりNVIDIA V100 GPUが4枚保有で、ノードの最大値は1088です。普段はフルで使うことはできませんが、Nノード使うことができれば実験を並列に行えます。ある実験では3ヶ月程度必要と計算されていた実験が週末含めた3日間に短縮されました(N = 30程度でした)。「研究は改善あるのみ」でも紹介した、データセット構成を変えて精度向上に繋げるために、とても役立ちました。

投稿戦略の切り替え

CVPR 2020 Rejectの査読結果を見て、投稿戦略の変更を決断しました。ImageNet事前学習の精度を超えることができない事前学習ではCVPR/ICCVには採択されないのではないか、と共著者と話していました。ちょうどその直後くらいにメジャー会議のひとつであるACCVがあったこと、打ち合わせで「CVPR/ICCVばかりを目指して世に出すタイミングを遅らせるよりは、まずは論文化することを目指すべき」とのコメントを頂いておりました。プロジェクトの最初の論文は、できる限り多くの目に触れる国際会議に通したいという思いは強かったものの、年々劇的に進んでいく分野の動向を見ながらいつまでも世に出せないまま改善を続けるのも良くないとの判断でした。

ACCVに投稿する決め手となったのが、

Award-winning papers will be invited to submit to a special issue of the International Journal of Computer Vision (IJCV).

の一文でした。つまり、ACCV受賞論文はトップジャーナルであるIJCVに招待、受賞論文ということが明らかにされた状態で査読が開始されるというボーナストラックでした。これを見てから賞を獲ることを狙いReject論文を改善していきました。しかし、メジャー国際会議での賞です。ACCVにおいて、日本から産業賞や学生賞は獲得できていることは知っていたのですが、Best Paper / Honorable Mentionを獲得できた日本からの研究は、最近の記録ではほぼありませんでした。私は学生でもなければ、この研究はCV技術を用いた応用研究という類のものでもなかったため、必然的にこのトップ2に入らなければならないという覚悟のもとで投稿準備を進めました。

(論文含め)プレゼンはクリアに

論文のプレゼンをクリアにするためには、原稿チェックによるコメントと修正の繰り返しを地道に繰り返すのみです。ACCV投稿に限らず、その前までの投稿でも1ヶ月ほど前にVer.1を完成させ(記録上は)Ver.20前後くらいまで改善してから投稿するということは心がけていました。まずはセルフチェック、次に共著者間チェック、研究コミュニティで取り入れている内部査読、業者による英文校正、共著者や内部査読者による最終チェックを経て投稿、という流れが通例でした。

この流れの中では

◆ 誤字脱字や文法的なエラーがないかどうかチェック
◆ 研究のストーリーの中で主張していることや、それらが実験で正しく実証されているかどうかチェック
◆ 手法に誤りがないかどうかチェック
◆ 追加実験が行えないかどうかチェック

など凡ゆる視点から見て、限られた紙面内でいかにその技術を説明できるかを確認していきます。高々2カラム8ページ前後の論文(ACCVは1カラム14ページ)で分野への貢献を問われるのですから、主張は無駄なくクリアに、なおかつ表現を選び、時には図表を作り込んで論文を構成しなければ百戦錬磨の査読者やその上のエリアチェアを納得させることはできません。トップ国際会議の査読では「ちょっとここが甘いかな」と自分で思う部分があると、大体は指摘されます。査読者3人、エリアチェアの目は誤魔化せないことがほとんどです。なので、もしその甘い部分が技術の限界(Limitation)なのだとしたら、論文中に明記することをオススメします。隠そうとして査読で指摘されるよりも、正直に論文中に書いた方が良いです。これは例えば、CVPR 2022のAuthor Guidelinesでも"Discussion of Limitations"として明示的に記載されるようになりました。

「狙え」さもなくばAwardは獲れない

これまでにご紹介してきたコツや学びを実践することで、格段に良い評点を得ることができました。査読者の付けることができる最高のStrong Acceptが2件、Weak Acceptが1件です。Rebuttalを通してこの評点は全てStrong Acceptが付きました(満点です)。

◆ I've reviewed > 30 submissions so far for 2020, across different CV & ML conferences, and this is the best one. (2020年これまでに30本以上のCV/ML分野の国際会議の論文を査読してきましたが、この論文が一番です。)
◆ This is the best paper I have reviewed this year in 25+ submissions including CVPR and ECCV.(CVPR/ECCV含め、今年25本以上の論文を査読してきましたが、その中のベストペーパーです。)
◆ I congratulate the authors for a very good work, and I recommend the paper as an award candidate.(とても良い研究であることに対して著者たちを祝福したいです。受賞候補論文として推薦しました。)

査読コメントはこんな感じのものが並びました。念のため、ひとつめとふたつめのコメントが似ていますが、これらは別々の査読者が書いたコメントです。このようにして、我々の論文は受賞候補論文としてノミネートされました。

最後の一押し。我々はプロジェクトページのリンクをACCV側に提出し、そこに論文はもちろん、オーラル・ポスター発表、コード、データセット、学習済みモデル、動画像など、可能な限りのコンテンツを作成して公開していきました。これがどの程度効いたかは定かではありませんでしたが、国際会議開催の直前に開かれる賞候補委員会の前までには準備を完了するように意識していました。

トップジャーナルIJCVへの投稿

途中で述べた通り、IJCVの推薦は会議終了数ヶ月後の2月に届きました。12月に国際会議で発表したあとも実験結果をまとめていたので、3月末締め切りと言われていても、焦ることなく確実に投稿準備を進めていきました。国際会議発表論文からジャーナルに投稿する際には目安として、3割程度内容を増やすというルールがあるのですが、我々は紙面に収めるストーリーを構成するために出せなかった実験結果も結構あったので、ストーリーを阻害しない程度に増えた紙面でまとめる工夫をした程度です。実はこれでも出せていない結果がありますが、それらの結果自体は新しい研究テーマを設定するための参考にしています。

1回目の査読結果はMinor Revision。通常は少し文章を改善するだけで採択できるというレベルの判定ですが、そこはトップジャーナル。文章改善のための膨大なコメントと、多少ではあるものの追加実験の提案がありました。後から知ったのですが、一部(全員?)ACCVの際の査読者が混ざっていて、我々の論文を本気で直そうと、その熱い思いをコメントから感じ取ることができました。Slackに投稿できる1スレッドあたりの限界(つまり4,000文字)を超えるくらいのコメント量でした。順当にコメントを修正しつつ、追加の実験結果を過去のアーカイブから引っ張り出してきて返答文を書くとともに論文を修正していきました。この時、2021年8月。

2021年の投稿もひと段落し、cvpaper.challengeの新体制を検討していた11月末にメールが届きました。

We are pleased to inform you that your manuscript, "Pre-training without Natural Images", has been accepted for publication in International Journal of Computer Vision.

おわりに | プロジェクト今後の展望も含め

いかがだったでしょうか!?ここまで読んで頂いた皆様は気付かれたかと思いますが、何も特別なことはしてません。研究プロジェクト推進や論文執筆に関する当たり前の工程を、愚直ではあるもののできる限りの工夫を凝らして完成度を高めていくことが重要であると感じます。5.5年の年月を要してしまったのは私の力不足によるものですが、博士号取得後の若手研究者と言えるうちにアイディアの発想から始め、ここに至るまで成功も失敗も込みで体験することができたことは、研究者としての財産になりました。

"Pre-training without Natural Images"をはじめとする数式ドリブン教師あり学習のプロジェクトは、まだまだこれから面白くなると感じています。数式教師により学習したVision Transformer(ViT)が良好な視覚能力を獲得することが明らかになりAI分野のトップ国際会議のAAAI 2022に採択 [Project]、複数視点画像認識問題を扱った技術はロボティクス分野のトップ国際会議IROS 2021 [Project]に採択されています。その他、動画認識向けの数式ドリブン教師あり学習もWACV 2022 [Project]に採択されています。元々はデファクトスタンダードのImageNetデータセットによる事前学習を置き換えよう、というモチベーションでスタートしているので、それ相応のポテンシャルがあります。もちろん、今後できることできないこと(つまりはLimitation)を明らかにする必要はありますが、実験を行う度にワクワクするような結果が出てきます。より広いタスクにて使用できるよう拡張を行うこと、深層学習がより良い視覚能力を獲得し、より安全安心な状態で学習済みモデルを提供できるよう尽力して参ります。

最後に、身を持って経験した今なら言えます。(Strong)Rejectを何度もらっても大丈夫です。もしそれで辛い思いをしているとしても、研究者を諦めることなんてありません。但し、自身を成長させ、研究プロジェクト・論文を修正する努力、環境を改善させるための試行錯誤を辞めないでください。

その途中で、もし私に頼って頂けるなら、また数式ドリブン教師あり学習にご興味があるのであれば、ぜひ研究メンバーとして cvpaper.challenge の門を叩いてみてください。サーベイメンバーも常時募集しております。ご応募・ご質問はこちらから、お気軽にお寄せください。

参考資料

* プロジェクトページ
* 研究グループ
* cvpaper.challenge メンバー募集

この記事が気に入ったらサポートをしてみませんか?