「最強の」研究チームについて考える

こんにちは、cvpaper.challengeのPI 片岡です!

今回のトピックについては非常に迷ったのですが、CVPR 2022に採択された論文 Replacing Labeled Real-image Datasets with Auto-generated Contours(自動生成輪郭で教師ラベル付き実画像データセットを置き換える)などを世に出している数式ドリブン教師あり学習(Formula-Driven Supervised Learning; FDSL)(*1)、その背景にある東工大横田理央研究室井上中順研究室との連携について書かせて頂こうと思います。まず私の経験上、この連携は三者三様の強みが絶妙にバランスしているスゴイ連携であると感じています。まずは参画研究者について簡単にご紹介です。

*1: FDSLに関する説明については講演資料である数式から自動学習するAIをご覧ください。一般向けにはサイエンスライターにご執筆頂いた産総研マガジンがオススメです。

参画研究者紹介

片岡裕雄は現在まで6年以上もこのFDSL研究と向き合ってきて「大体こうすれば事前学習が成功する・失敗する」という感覚をなんとなく持っています。実はResNetがCVPR 2016で発表された頃、フラクタル幾何により画像・教師のペアを生成、自然物を見分けるところからこのテーマはスタートしています。その紆余曲折は昨年のAdvent Calendarに詳細に書かれているのでそちらをご覧ください。FDSL研究においては、この経験を武器にして、深層学習により画像認識はなぜ上手くいくのか、ひいては自然画像とは何か、という問いに向き合っています。FDSLの研究連携については、研究テーマ考案、研究方針の軌道修正、実験項目のたたき台を作ることが多いです。論文執筆時にはイントロ部分や実験の考察などを書くことが多いです。

横田理央先生は人格的にも研究者としても優れていて、研究連携を通して様々なことを学んでおります。私もいつも毎週の打ち合わせのたびに勉強させて頂いています。研究的面では大規模分散学習を武器に、スーパーコンピューター(いわゆるスパコン)を効果的に利用して、膨大な計算量の処理を現実的な時間で実行することができます。FDSL研究では、理論上は無限に画像カテゴリや画像インスタンスを生成することができるという性質上、データセットが大規模になる傾向にあります。連携以前までは月単位で気長に処理が終わるのを待っていたのですが、横田研究室の大規模分散学習によれば数日で終わらせることができます。例えば2100万画像を含むFractalDB-21kをVision Transformerで学習する場合、我々では1ヶ月以上掛かってしまうのですが、大規模分散学習で処理すると2~3日で終わります。このように、実験の回転速度の劇的な向上こそが、連携が始まってからFDSL研究が劇的に進捗した大きな要因です。その他、横田先生は打ち合わせの度に的確なコメントで研究方針を修正してくれること、論文執筆時にはテクニカルライティングを正して頂けることが大きいです。

井上中順先生について、その指導教員の篠田先生が「凡ゆる面で超越している!」と語るくらいにはスーパーな研究者です。ご自身の研究室のみでなく、現在では産総研客員研究員として研究プロジェクトや産総研RAとの連携にも関わってもらっています。大学教員・研究室運営・学会活動などのお仕事を担当しながらも、大学院生の研究相談に対してもすぐにお返事頂けます。研究的にはマルチモーダルをご担当されていて、画像認識はもちろんですが、動画認識や音声認識などにも知見があります。井上先生とは2018年頃から一緒にFDSL研究をしていて、論文が何度もリジェクトされている中でも、諦めず議論をし続けて頂きました。この連携については、実験項目をさらに叩き上げてより良い方向に導いてくれたり、手法に関する詳細なコメントもいただけます。論文執筆時には研究を的確にビジュアルで説明してくれる図の作成や手法の章について修正もしくはゼロから作成して頂いています。

さらに、この連携に欠かせないのはプロジェクトに参加してくれる学部生・大学院生メンバーです。このAdvent Calendar 2022にも筑波大/産総研RA 山田亮佑くん福岡大/産総研RA 中村凌くん東京電機大/産総研RA 速水亮くん、京都大/産総研RA 篠田理沙さん(12/13担当)、東工大/産総研RA 高島空良さん(12/17担当)、大阪大 大西達也くん(12/18担当)など、まだまだ個性を持った強い研究者が登場しそうな予感です。この記事の前にも、山田くん・中村くんの記事では運営側の視点を、速水くんの記事では論文単位のプロジェクトを如何に高速に回して技術を鍛え上げていくか、について言及されています。恐らく国内のコンピュータビジョン分野において、学生含めてここまでの連携体制を敷いている組織は少ないのではないかと思います。この連携体制の中から、今後もスター候補生が何人も登場しそうで楽しみです!現在では、研究プロジェクトを牽引できるリーダークラスの人材を輩出していくことも課題と捉え、大学院生メンバーには意識して論文単位のプロジェクトをマネージメントしてもらうようにしてもらっています。

連携するに至った経緯とは?

片岡側で2021/03月にViTをFractalDBで学習できることを主張したarXiv論文をリリースしたところで「データセットの大規模化とそのVision Transformerによる事前学習ができれば画像識別精度が向上しそう」と思っていたものの、時間に任せ1ヶ月くらい掛けてVision Transformerの事前学習をし続けていたことにそろそろ痺れを切らしていたところでした。時を同じくして、横田研究室でも「計算リソースは有り余っているものの、学習できる大規模データセットが見つからない」という状態でした。ここに至るまでにはGoogle独自に画像を収集しラベルを付与していた3億画像データセットであるJFT-300Mが何とか入手できないか、など含めて奔走されていたようです。

ある時、すでに研究連携を続けていた井上さんから「片岡さん今時間あります?東工大連携講座内の打ち合わせで横田先生と話しています!」という旨の連絡がSlackのDMで送られてきて、たまたま空いていた私は数分後には連携講座のZoomに入って横田先生とお話しさせて頂くことができました。この時に次回打ち合わせを設定しましょう、という話になりそれから現在も続く大型の連携になりました。横田先生、井上さんとの連携において、このスピード感がたまらなく爽快です。実は横田先生とは、2016年頃から参加していたプロジェクトでご一緒させて頂く機会が一度だけあったのですが、研究するグループが違ったことと、まだ私は研究者としては新人、横田先生は一流の海外研究機関を経て教員として東工大に異動された頃だったので、全然研究者としてのレベルも違っていた頃でした(この差は今でもあまり埋まっていないかもしれませんね...)。この時、2021/05月末でした。

2021/06月になると、まずは東工大との連携打ち合わせに参加し、数ヶ月間研究テーマに関する検討を続けてきました。ちょうどその頃ICCV 2021のRebuttalをしており、ViTでFractalDBを学習した反応を眺めていたところ、下図のような可視化結果となり「実はフラクタルが重要なのではなく、輪郭が複雑であれば良いのでは?」という仮説を持つようになりました。結果から言うと、この仮説がCVPR 2022論文のメインテーマとなり、あのImageNet事前学習の性能を数式から学習したAIで凌駕するに至りました。

FractalDBでVision Transformerを学習した挙動を可視化

結果的に研究テーマが固まったのは2021/08月になってからでした。CVPRの締め切りから考えると残り3ヶ月程度。連携を始めたばかりのチームということを考えると、結構無謀なことをしたと思いますが私の中では、いや恐らく横田先生・井上さんの中でもFDSL研究と大規模分散学習の相性は最高であり、ここにおいてはタイトル通り「最強の」研究チームであると感じていたので、CVPRのタイムラインに追いつき追い越せるという確信がありました。ここから本格的にCVPR 2022に投稿するためのチーム構築を行い始めます。片岡は基本的に仮説を立て検証を繰り返すことはもちろんですが、研究プロジェクト全体を把握しプロジェクトをマネージメントしていました(山田くんの記事でいうオーシャン役です)。メンバーから鑑みて、データセットを構築する人(速水くん; RCDB、山田くん; ExFractalDB)、実験サポート役(中嶋くん)、大規模分散学習する人(高島さん、Zhangさん、Edgarさん)、アドバイザ(井上さん、横田先生)という役を割り当てて、プロジェクトの進行とともに常に役割分担を微調整していました。

研究連携を開始する経緯としてはこんな感じだったと思います。結果から言うと一回目の投稿でCVPR 2022に採択され、さらにその際に出てきた仮説をさらに検証し推し進める形でCVPR 2023には3件の論文を投稿、現在もその規模を拡大しつつあります。

良い研究連携とは?打ち合わせをどう設定するか?

本記事では、横田先生・井上さん・片岡による、FDSL研究の連携についてお話して参りました。ここから先は、そこからの学びを書いていこうと思います。また、引きを用意するためにこの記事のタイトルは「最強の」と付けさせて頂きましたが、研究における連携においてこれで完璧という状態はないと思います。強いて言うなれば、チーム全体がお互いをリスペクトし特性を理解して、密なコミュニケーションをとりつつ改善を続けている状態が良いチームであり、健全な姿であると思います。現在の連携においては、研究テーマごとにも研究連携全体としても再帰的に見られているため、拡大を続けているのも納得であると言えます。

研究が良い状態で進行するためのノウハウやツールという意味では世に乱立していますが、我々は特にコミュニケーションを取ると言う意味で工夫をしています。打ち合わせだけでも、(i) 研究員(横田先生・井上さん・片岡)が一度に参加する定例ミーティング(毎週を想定)、(ii) より広い枠で学部生・大学院生メンバーがつながるcvpaper.challengeの研究グループ定例ミーティング(毎週を想定)、(iii) 論文単位のプロジェクトで主要メンバーが集う個別ミーティング(適宜調整だが締め切り前は週1以上を想定)の3種類を意識的に用意しています。

(i) では特に研究員メンバー同士のコミュニケーションやその研究室学生・リサーチアシスタントが参加するミーティングです。予算が出ている研究プロジェクトとも密接に絡んでおりいわば業績において「外せない」研究テーマを叩き上げるという役割を担います。定期的に研究テーマを見直したり、将来展望を確認し合う場にもなります。横田先生・井上さん・片岡が確実に参加できる、というところも重要ポイントです。

(ii) では研究コミュニティに属する研究メンバー、主に学部生・大学院生がメインになり開催するミーティングです。研究コミュニティ内が大人数(20人程度)で参加しても、4人1組くらいで研究テーマや進捗を叩き合うので、ミーティング中によくある「何も発言せず遊んでいる人」を最小限にできます。このミーティングにより、研究テーマのアイディアを出し合うこと、実験の方向性を間違わないようにすること、学生同士の研究テーマを紹介し合うことで結束を深めることなど、大人数の研究グループのつながりを強固にするために重要な役割を担っています。しかしながら、経験上昨今のハイレベルな世界の研究達と並べられる中で競り合っていくだけのインパクトある研究を出し続けるには至りません。そこで登場するのが(iii)です。

(iii) では「これぞ!」という研究テーマを更なる高みに引き上げるために行います。そのため、主要メンバーを集めて会合を行います。ここでは、主著や共同主著はもちろん、研究員クラスのメンバーが可能な限り集結して議論を交わします。(i)では主要メンバーは集まるものの、時間が取りきれない(週に1時間という制約がある)、(ii)ではメンバーが揃いきれず研究テーマの改善案を常に出せるとは限らないということもあり、そのいいとこ取りをするというのがこの打ち合わせの役割です。打ち合わせで重要視されるのが「実験結果を共有して、次に何をするか?」「研究は正しい方向に進んでいるか?」「そもそも研究テーマは見直す必要はないのか?」「研究テーマを拡張できないか?」などが議論されます。月並みかもしれませんが、重要なメンバーが一度に集まって同期しながらコメントを交わし合うところがポイントです。昨今ではオンラインの時代であり、Slack等でいろんな方向からコメントをもらえるのは良いのですが、コメントする人同士でも議論をすることで、より良いアイディアが生まれるというわけです。

実はオンラインの時代になった2020年初めくらいから現在まで3年弱もの期間改善を繰り返してきており、拘りのポイントと言うのはまだまだあるのですが、すでに研究コミュニティ運営としては中村くんの記事に、研究グループとしては山田くんの記事に、主著・共同主著の高速なサイクルを回すという意味では速水くんの記事に書かれているのでそちらに譲ります。今やみんな重要なメンバーとして研究コミュニティや研究グループ、論文単位の研究プロジェクトに貢献してくれる心強いメンバーです。

今後、研究コミュニティ全体としてはどうすべきか?

本記事で触れたのは、特に私が所属し共同でリーダーを担当させて頂いている研究グループ単位(FDDB Group)の話です。実は cvpaper.challenge では研究グループ毎の裁量はグループリーダーに任されており、いわばひとつの研究グループがひとつの研究室のような単位で運営されています。当然、研究コミュニティ内では月一でリーダー会議を開催してお互いに情報共有をする場を設けていますが、リーダーが違えば参加する研究メンバーも異なる、扱う研究トピックやメンバーの特性に合わせて個別に考えていく必要があります。ある研究グループで試して良いものは他の研究グループでも試してみる、ダメなら局所最適化してみる、というトライ&エラーが重要と考えます。そうやって研究コミュニティは少しずつ前進してきましたし、これからもそれは変わらないです。

今回の記事は勢いに任せて書かせて頂いたこと、あまり何度も校正するところには至らなかったので、研究コミュニティの説明も十分になされていなかったと反省しております。研究コミュニティの概要・2022年現在の研究の進め方・コラボレーションについては講演資料「CV分野の今を映し、トレンドを創出する研究コミュニティ」 にもまとめさせて頂いているので、もしよかったらご覧ください。さらに、ご興味持って頂けたら、研究メンバー募集のページからお気軽にご連絡ください。

Q&A

本記事をチェックして頂いた際に、下記のご質問を頂きました。直接的には回答されていない面もあると思うので、この場で回答させて頂きます。

  • 研究メンバー同士がどう絡んで相互作用を起こしていくのか?

    • メンバー同士の性格や能力、実績を把握しつつ、ある程度狙ってチームを構築しないと相互作用というのは起きないです。全体把握する人は最低限必要ですし、補佐役がいると加速します。そこに必要な人材を追加していく感じです。全て一人でできる万能人材なら単著を想定したプロジェクトを回せるのですが、その場合でも得意なことを最大限活かせるメンバーに任せた方が良いことも多いですし、サポートしてくれるメンバーが適切に配置されていると、より良い連携になるはずです。言ってしまえば、最初の時点で「これなら放っておいても研究成果が出ないはずがない」というくらいのチーム構成にしていくのが重要と思います。グループとして研究費を申請する時には大体同じようなことをしていると思います。

  • デメリットはあるか?また、デメリットがある場合はどう対処する?(結果は出るかもしれないが,その部分の能力が育たない?)

    • 仰る通り、分担以外を任せっきりにしてしまうと、担当以外の能力は育たないというわけです。途中で触れていますが「チーム全体がお互いをリスペクトし特性を理解して、密なコミュニケーションをとりつつ改善を続けている状態」であることが望ましいです。意識の面やベストエフォートになってしまいますが、この状態になっているかどうか定期的にチェックする必要があります。

    • 他にあるとすれば、チーム構築には経験が伴うというところでしょうか。何度も研究プロジェクトのメンバーをアレンジして失敗して、その度に振り返って次に活かしていけば少しずつ慣れてくることと思います。

  • 人数はどのくらいの規模感が良い?

    • 本記事でいう研究コミュニティ(cvpaper.challenge; 100名超規模)・研究グループ(FDDB Group; 数十名規模)としてはある程度人数が多くてもスケールするような体制は取っています。従って、このご質問の場合、特に論文単位のプロジェクトチームという意味で回答させて頂きます。実験をメインで進める実働は2名前後がバランスが良く、アドバイザも2名前後、さらにそのメンバーを補う・加速させるための人材がいることが望ましいです。よくある学生1人、教員1人という体制は卒業論文という縛りがある状態では必ず完結させるという意識が働きますが、研究コミュニティにおいてはその縛りがないため、どちらかが忙しいと自然消滅する可能性が非常に高いです。一方で、連携する人数が多すぎるか役割分担がはっきりしていない場合には、当事者意識が薄れるためこの場合にも自然消滅する可能性が高いです。マネージメントする人材が相当イケている場合には大人数のプロジェクトを成功に導けると言うのもありますが、相当な経験や才能が必要です。従って、現在の研究コミュニティにおいて上手く回っている研究テーマは大体において4〜10名と言ったところでしょうか。ですが、研究コミュニティという特性を活かしパワーを集約させEgo4DGPT-3のようなAI分野におけるBig Scienceにも挑戦したいな、と思っております。

参考資料

この記事が気に入ったらサポートをしてみませんか?