見出し画像

独立研究者1年目としてのcvpaper.challenge

本記事は研究コミュニティ cvpaper.challenge 〜CV分野の今を映し,トレンドを創り出す〜 Advent Calendar 2023の13日目の記事になります。

産総研の八木です。昨年に引き続いての参加となります。産総研人工知能研究センターコンピュータビジョンチームの研究員を務めております。6年間慣れ親しんだ出身研究室を離れ、今年の4月から独立研究者一年生としての8ヶ月を過ごしてきました。本記事では、cvpaper.challengeとの関係性の変化も交えながら、今年行った取り組みや今後について色々書いてみようと思います。


内から見たcvpaper.challenge

私の所属する産総研人工知能研究センターコンピュータビジョンチーム(CVRT)は都心から1時間強ほど離れたつくばセンターに位置しています。常勤職員は私を含め8人ながら学生RAおよびインターンが20-30名ほど在籍しており、各RA・インターンはそれぞれ常勤職員の指導を受けながらチームで多種多様なトピックを進めてくれています。メンバーの多くはcvpaper.challengeにおいても研究・運営双方で活躍してくれており、cvpaper.challengeの運営の中核はつくばで行われていると言ってよいと思います。

チームの雰囲気については2日目の福沢さんの記事などが詳しいですが、RA/インターンの多くが出勤する水曜日にはランチやミーティングを通じて活発に研究の議論が行われます。

私とcvpaper.challengeとの関わりは、2019年、博士1年の頃にアドバイザとして参加した頃に遡ります。当時の私の主な活動はオンラインでのグループMTGへの参加・内部査読、時々トークといった程度で、勉強会などのイベントでの雰囲気は見えても、その日常については謎に包まれていました(※1)。

その活動を中から見るようになって感じたこととして、(i) 日常の会話の中にも良い研究をしよう、トップレベルを目指そうという気概の共有 (ii) 適材適所の役割分担に基づくコミュニティ運営 の2点があります。

トップレベルを目指す気概の共有

cvpaper.challengeはトップ会議 / ジャーナルへの投稿と網羅的サーベイの実施を2大目標に掲げて活動していますが、研究を始めた人が初めからこうした活動のためのマインドを持っているわけではありません。私が研究を始めた頃(2015年)と比べても近年の研究は量・質共に大きく向上し、独力でモチベーションを維持することが難しくなってきているように思います。

そうした中で、週次で行われる定例のミーティングや、ランチ・コーヒーブレイクなどの雑談の中で日常的にトップレベルの、世界に通用する研究を前提とした話題が自然と上がり、新しく入ったメンバーがそうした場の雰囲気を吸収することが実績につながっていると感じています。

もちろん、真面目一辺倒というわけではなく息抜きも遊びもします。ただ、こうした上を向くマインドが日頃の学業・仕事に含まれていることが重要なのだと思います。

適材適所の役割分担に基づくコミュニティの運営

このACもそうですが、cvpaper.challengeでは網羅的サーベイ、研究合宿、ハッカソンなどの企画を行い、その運営や実施に関わる役割についてはメンバーの希望や得意な所を見ながら分担して行っています。こうした企画における一般的な課題として、足並みが揃わずに離脱してしまう・特定の人に役割が集中してしまう等の問題がありますが、(i) 企画内容に関するドキュメントの作成 (ii) Slackのダイレクトメッセージなどによる個別フォローによってこれらの課題をクリアし、活発なコミュニティを維持できていると感じます。

どのような役割を担えるか?

詳しくは2022年の記事「データを作るということ」に譲りますが、私は主にデータ構築を通じて新たな課題を生みだす研究を行ってきました。これまでは学生あるいはポスドクとして純然たるプレイヤーとしてお膳立てをされた状態で活動を行ってきたわけですが、CVRTにジョインするにあたって、プレイヤーを継続しつつも、RA・インターンや他のメンバーと交わりながら、自分がどのような役割を果たす立場になるか、が今年のテーマの1つではありました。

結果としては、今年は主にチームのRA2人とそれぞれ小チームを組み、映像中の物体の状態や家具組立などの人の作業行動に関して現象の理解・データの収集からそのモデリングまでを丁寧に進めています。まだチームが小さいこともありますが、今のところ極力頻繁に打ち合わせる機会を持ち、提案・観察→フィードバックの回数を多くするやり方が(完ぺきからは未だ遠いものの)できていると思います。また、他メンバーのテーマについても中身の話を聞く機会・助けを求められることがあれば極力具体的な現象に注目してのアドバイスを心掛けるようにしています。メンバーの個性も異なる中で、単なる上司部下の関係に落ち込まず、どのようにすれば自分なりに役に立てるか、はCVRTにジョインしてから良く考えるようにしています。

MIRU若手プログラムの運営

もう1つ立場が変わったものとして、国内最大規模のシンポジウムであるMIRU(画像の認識・理解シンポジウム)2023において初めて運営側に参加し、若手プログラム委員長として若手プログラムの運営を行ったことがあります。

MIRUは修士2年次(2018年)から毎年継続して参加している、いわば私にとってのホーム学会です。2018・19年に参加した若手プログラム(異分野サーベイ・朝カフェ)などは振り返ると今一緒に活動している多くの方と初めて会う機会だったこともあり、NAISTの品川先生との共同運営で若手プログラムを提供する側に回りました。

MIRUに限らず学会の準備は前年の開催が終わった直後から始まるもので、私達の年も22年の秋から9名体制で準備を行いました。2023年のテーマは「データをMIRU」というもので、私自身の体感も踏まえ、学生や若手の研究者の方に「データ」の収集・加工・公開までの様々な側面についてグループサーベイを行ってもらいました。

春頃に募集を行ったところあっという間に60名超の希望者が集まり早々に募集を締め切らなくてはならなかったのはうれしい誤算でしたが、結果として高専から社会人まで様々な方が本会議前に一堂に会し、各自思い思いの交流ができたのではないかと思います。当日の発表資料は公開されているので、ぜひご覧いただければと思います。

サーベイの大部分はオンラインで行いつつ、当日は60人超が集まって開催できました。

私自身はこうしたグループ企画は参加者が作るものだと考え、運営に際しては場所・機会の提供や交通整理に徹するようにしてきました。ただ、60名が一度に集まるとなると場所や時間の用意1つにしても中々手間のかかるもので、過去の開催に基づく築盛や、委員一同の献身があってようやくこうしたイベントが成り立つものだと痛感したものです。このプログラムの成否が明らかになるのは数年後ですが、こうした参加→運営の輪が続いてくれればよいなと思います。

書籍執筆

手前味噌ですが、明日(12/14)発売される『コンピュータビジョン最前線 Winter 2023』にて「イマドキノ一人称ビジョン」と題して一人称ビジョン分野の最新動向のサーベイを1章分書く機会をいただきました。これも産総研に着任してほどなく頂いたお話で、夏にかけて少なくない時間を割いたものの1つです。

私の専門である一人称ビジョンは身体に装着したウェアラブルカメラから撮影した「装着者の視点から見た世界」を理解する技術の総称です。こうして得られた一人称視点映像は装着者の行動や興味およびその周辺環境に関する豊富な情報を含み、新たなタスクや挑戦が生まれるわけですが、コンピュータビジョン分野の中でも歴史が浅く(15年程度)、日本語での最新動向をまとめた文献は私の知る限りありませんでした。

研究者が分野の発展のために果たせる役割は論文を書くことだけではありません。新しい論文が毎日数百本と出現し、それを咀嚼する間もなく次のものが来る現代において、一歩先を歩く人が後進に向けて道を敷くこともまた1つの貢献と言えるでしょう。特に、母国語で読める情報が増えることは機械翻訳ある中でも重要で、この執筆を通じて1人でも多くの方がこの分野に参入してくれることを願っています。

こちらについてもCV最前線というシリーズが慎重に企画され実績を積んできたからこそ実現したもので、より多くの人たちにこうしたアウトプットのサイクルを積んでいただきたいとも思います。

2年目に向けて

ここまでつらつらとこの1年弱の体験や歩みを振り返ってきましたが、来年以降も次のようなトピックについて活動をますます進めていきたいと考えています。

MIRU2024メンターシッププログラムを通じた論文投稿支援

今年の若手プログラム委員長に引き続き、来年のMIRU2024でもメンターシップ副委員長という肩書でMIRU2024メンターシッププログラムの運営に携わります。このプログラムでは、MIRUなどで発表した粗削りのテーマを深化させ、cvpaper.challenge内部の人に限らない、より多くの人にトップカンファレンスへの投稿・採択を経験してもらうことを目標とした投稿支援プログラムになっています。

既に今夏から数件の投稿支援が走っているほか、春締切の国際会議に向けて

  • 本制度を広く知ってもらうためのオンラインイベント

  • CMTなどを利用したスポット内部査読

などの企画の実施を検討しています。自身の活動を進めながらも、引き続きこうした組織を超えたコミュニティへの貢献を目指していきます。

動画像理解の国内総合拠点の構築

つくばのCVRTには現在動画像理解を強みに持つ常勤の研究員が4名(片岡、原、Qiu、八木)おり、来年度以降さらにチームを拡大し、生成AI・基盤モデルなどの最新トピックを含む、動画像解析に関わる様々な先進的なテーマを一挙に扱える総合拠点へと成長させていきたいと考えています。cvpaper.challengeへのサーベイ/研究メンバとしての参加はもちろん、産総研RA制度などを活用して一緒に研究してくださる方もどしどし募集していく予定です(※2)。

国外の研究者との連携

こちらも宣伝にはなりますが、2022にリリースされた世界最大規模の一人称視点映像データセットであるEgo4Dに続けて、今月(2023年12月)サッカーや音楽、自転車修理といったより高度な技能を要求する活動にフォーカスしたマルチモーダルデータセットであるEgo-Exo4Dを公開しました。

私自身の貢献はほんの小さなものですが、こうした国内外の組織を跨いでのコラボレーションの重要性は言うまでもなく増してきており、本プロジェクト以外にも国際ワークショップ(詳しくは6日目の片岡さんの記事をどうぞ)や共同研究プロジェクトを実施していきたいと考えています。

少々気が早いですが来年も以上のように頑張っていきますので、今後のcvpaper.challengeおよびCVRTの活動をよろしくお願いいたします。引き続き本カレンダーをお楽しみください。

※1 このように書いてしまいましたが、各メンバーの体験や雰囲気については各年のアドベントカレンダー(202120222023)やcvpaper.challenge Conference (CCC) から詳しく知ることができます!ぜひ読んでみてください。

※2 分野問わず人工知能研究センターの常勤職員も募集しています!25年度採用は来年4月頃から始まりますので、興味のある方は八木か片岡に相談いただければと思います。


この記事が気に入ったらサポートをしてみませんか?