チャンスを掴み取るために

2022年12月9日 14:36

はじめに

こんにちは！研究コミュニティ cvpaper.challenge ～CV分野の今を映し、トレンドを創り出す～Advent Calendar 2022 12月9日を担当いたします、東京電機大学中村研究室所属修士1年の速水亮です。cvpaper.challengeには2021年から参加しており、今年でそろそろ2年目となります。
普段は自分たちの研究以外の活動としてはcvpaper.challengeが主催する網羅的サーベイの裏方(system administrator)を担当しているので、自分がピックアップされると思うと少し緊張します。

今回私は、自身の研究から生まれたRadial Contour DataBase (RCDB)についてその出発点とどのようにして論文投稿までに至ったか、そして私が考えるRCDBの行く先までご紹介しようと思います。

そもそもRadial Contor DataBaseとは？

Formula-Driven Supervised Learning (FDSL)の文脈において、ViTは画像の輪郭に注目する傾向がある結果が示されました。そこで、ViTの事前学習には輪郭を特徴に持つ画像が学習効果向上に寄与する仮説に至りました。この仮説に対して複雑な輪郭表現を特徴に持つ、数式生成に基づく事前学習用データセットとしてRCDBを作成しました。RCDBに含まれる画像は多角形を同心円状に、再帰的に描画することでギザギザした輪郭形状を持つドーナツのような図形となります。画像は形状を決定する6つのパラメータの組み合わせによって定義し、1つのクラス内で少しずつ形を変えながら100万枚から5,000万枚の画像を生成、クラスごとに連番のフォルダへ保存することでデータセットを構築します。
さらに詳しい内容についてはこちらの論文で説明しております。

実際に生成される画像はこちらです。（ちょっと閲覧注意…？）

自分はこんな画像たちと365日×2、一緒にいました。
（深夜に作業をすると夢に何度か出てきました。）

まずは手を動かす

学部4年生、研究室と研究班の配属が決まり、私はそのまま生まれたての小鳥が付いていくが如く山田先輩を追いかけてcvpaper.challengeの研究チームに参加しました。cvpaper.challengeでの研究が始まってからはとにかく手を動かして何かしらを見せることの繰り返しでした。当時私は数学から創るジェネラティブアート - Processingで学ぶかたちのデザインに掲載されている図形をひたすらに作っては週にFDDB Hacksで報告し、なんだかよく分からない図形と日中ほとんどにらめっこしていました。

FDDB Hacksでは「パラメータが多い図形を見つけてきたいね」とコメントをいただいてましたが、なかなか見つからず。そんな中で行きついた答えが「じゃあパラメータ作っちゃえばいいじゃん」。

RCDBの初期案たち(アルキメデス螺旋)。周期によって同じ形状が何度も生成されてしまう。

思わぬ成果

とりあえず画像データセットとしての体裁が整うくらいの形状バリエーションは確保できましたが、本当に事前学習効果があるとは思えませんでした。しかし、FDDB Hacksでは「とにかく手を動かそう！」とコメントをいただき、実際にPre-train、Fine-tuneしてみました。目に見える結果を出す、結果をいち早く共有することで次の議論に繋げる、そして議論から次のアイデアと実験を始める、このサイクルをたくさん回すためにとにかく手を動かしていました。（このサイクルを早いスパンで何度もたくさん回す重要性は自身の研究活動の中でとても身に沁みました）
結果はscratchより数%の識別精度向上。本当は学習効果が得られなかったことから画像に必要な特徴を特定するつもりが、ここにきてFDSLの一つとして挙がることになりました。

研究出発から2ヶ月足らずの当時は自分も識別精度が下がると予想していたので、本当に思わぬ成果でした。

急加速、投稿まっしぐら

長期夏季休暇も相まって、RCDBに関する実験は片岡さんと山田先輩の熱いサポートもあって研究は急加速し始めました。パラメータ探索実験を始め、手も頭もフル回転で日々を過ごしました。気が付いたら研究の輪が広がり、東工大メンバーとも研究を進めていくことになりました。9月になる頃には国内学会で発表するどころか、CVPR 2022へ投稿する論文にも組み込むことになりました。正直、当時はCVPR 2022への投稿の難しさ、求められるクオリティがいまいち分かっておらず、すごいことになってきたなーと何となく思うくらいでした。

異変に気付いたのは投稿1ヶ月前の10月くらいでした。一言で表すなら「置いてけぼり」。論文投稿へ突き進んでいたチームは如何に伝わりやすく表現するか、かっこよく見せるにはどのような構成にするか、曖昧な表現をどう言い換えるか、etc…
気が付いたら自分は十分に議論に参加できず、ただひたすら比較実験用のデータセットを構築していました。この時自分はもっと知識があれば、もっと自分に能力があればと思う日々を過ごしていました。（英語ができなかったのも大きな要因の一つでした。）

2021年11月12日に初めて「CVPR 2022投稿合宿」のために産総研に訪問、そのまま論文を最終チェック&投稿をしました。その時はMicrosoft CMTが締め切り寸前にサーバーダウンする大事件にも巻き込まれましたが、無事に提出できました。そして結果はaccept。まさか自分のデータセットがここまで来るとは思っていませんでした。

RCDBの現在と行く先

研究の詳細については記載できませんが、実際に現在は東工大の高島さんと連携して研究を進めています。余談とはなりますが、高島さんとの連携は隙あらば相談を持ち掛け、日によっては1日5時間以上zoomを繋ぎながらミーテング&作業する、まさに二人三脚でお互いを鼓舞しながら活動していました。高島さんとは前章で記載した相談→実験→報告→相談のサイクルを早いスパンで何度もたくさん回すために、二人で毎日小さくこのサイクルを回していました。高島さんはAdvent Calendar 2022 12月17日をご担当されているので、数億枚の画像を計算しちゃう、大規模計算エキスパートの活動や裏話に興味がある方はぜひこちらも合わせてチェックしてみてください！話を戻しますと、現在RCDBはVision Transformerの判断根拠に影響する要素を解析する手段として今後も利用していく予定です。RCDBはもともとアルキメデス螺旋に沿って多角形を描画した画像にノイズや他要素を付け加えて生成した画像であるため、パラメータを増やす、または減らすことで図形がもつ特徴を自由自在に変えられます。そこで、「本当に画像データセットに必要とされる要素とは何か」について調査するにはうってつけのデータセットとなりました。また、画像分類タスクに限らず、物体検出やセマンティックセグメンテーションにも適用可能であると考えており、さらに広く、深く利用することが可能であると期待しています。（実際に提案し始めた当初はなんにでも適用可能となる、無限の可能性を秘めたデータセットであると考えていました。）

チャンスを掴み取るために

自分はAdvent Calendarを書く過程でRCDB提案とCVPR2022投稿への道のりを振り返りながら如何に恵まれた環境にいるか改めて自覚しました。特に「チャンス」との遭遇率は非常に高く、またそのチャンスもだいたいは掴み取れてきていると思います。しかし、そういったチャンスは掴み取るにはそこそこの勇気と覚悟が必要でこれまでの自分であればここまで来れなかったと思います。しかし、先輩方のアドバイスから結構えいやっと飛び込んであとはがむしゃらに頑張る…といったスタンスで学部4年は研究を進めていました。当たり前の事のようですが、自分にとってはとても大きな気づきで失敗こそあれど後悔することはありませんでした。これは今後cvpaper.challengeの研究チームに参加する、または参加しようか迷っている方に向けたメッセージのようになってしまいますが、えいやっと飛び込んでみるとその先でたくさんのチャンスに出会えるかと思います。
もし、こちらの記事を読んでcvpaper.challengeの研究チームに「えいやっ」と参加してみたい！と思っていただけたら幸いです。研究チームメンバーは一緒に研究を頑張る方をいつでも募集しております。気になる方はこちらのページに詳細を記載しておりますので、ぜひチェックしてみてください！

おわりに

長々と長文にお付き合いいただき、ありがとうございました。自分はまだまだ研究者としてタマゴですが、ここでの経験と知識と人間関係は2年足らずとは思えないほど大量で、密度の高い時間を過ごしてきたと思います。まだまだ修士課程は半分、ここからさらに大躍進できるよう努めてまいります！

この記事が気に入ったらサポートをしてみませんか？