First Authorに俺はなるっ!! IROS’23

こんにちはあるいはこんばんは,西山です.
研究コミュニティ cvpaper.challenge 〜CV分野の今を映し,トレンドを創り出す〜 Advent Calendar 2023 18日目を担当します.

私は,現在 software engineer として活動していますが,こちらは,修士課程在学時にcvpaper.challenge内での研究テーマであった交通事故認識に関する論文をIROSに投稿した際の体験記になります.

前半は,IROS'23採択体験記,後半が緩めのポエムになります.
cvpaper.challengeコミュニティに興味がある方は後半だけでも読んで頂けると幸いです.


はじめに

我々の論文は,IROS'22に初投稿し一度不採択になり,2度目のIROS'23に採択されました.そこで,今回の記事では,V-TIDB[Project Page]がIROS'23に採択されるまでの道のりを綴ろうと思います.

記事を書くにあたって,一度目の論文執筆と全体の実験を担当して頂いた齋藤さんにも当時の体験談を手伝って頂きました.
齋藤さんには今回,IROS'22投稿と,IROS'23投稿の実験部分を執筆して頂きました.

また,本記事は,私が代表して執筆していますが,齋藤さん,中村さん,大谷さん,原さん,片岡さんとの共同研究, cvpaper.challengeのメンバーと過ごす中で得られた知見を含んでいることをはじめに断っておきます.

V-TIDB概要

我々が提案した,V-TIDBは,9000枚の交通動画に対して,交通事故ラベルと10種類の環境情報をマルチラベルとして付与したデータベースです.
従来の交通事故データセットには,Car Crash Dataset (CCD)[1],The Dataset of Object Detection in Aerial Images Detec- tion of Traffic Anomaly (DoTA)[2], The Driver Attention Prediction in Driving Accidents (DADA-2000) dataset (DADA)[3][4], The Near-miss Incident DataBase (NIDB)[5]などが存在しますが,交通事故が起きた際の状況を説明するラベルの種類が少量であるという課題がありました.
そこで我々は,交通事故を詳細に表す環境情報を教師ラベルとして付与することで交通事故や交通事故の程度の認識向上を図りました.V-TIDBを用いれば,環境情報を詳細に考慮した交通事故認識モデルの学習が可能になります.f1-scoreを用いた比較実験の結果,交通事故認識精度と交通事故程度認識精度が向上しました.

IROS'22投稿 (齋藤 著)

交通事故のデータベースに関わったきっかけは,研究室に配属された年(cvpaper.challenge参加前)に同じ研究室のwkmy先輩から交通事故動画のアノテーションを依頼されたことで,そこで初めてこの研究を知りました.
交通事故動画のアノテーションはひたすら事故シーンを見るもので精神衛生上良くない時間も過ごしました.しかし,1つの動画に複数のラベルを付与する経験は私が経験した研究の中では唯一のものでしたので,とても貴重な体験ができたと思います.
cvpaper.challengeに参加したのはwkmy先輩の卒業直前であり,実際にこの研究に関わったのは更に後の話になります.この研究は原さんからお声がけがあり,wkmy先輩のやり残しを成仏させたいと思い,少しでも力になるために参加しました.

私は国際学会どころか学会への投稿が初めてであったため,何から手を付ければよいのかわからない状態で始まりました.西山さんと共著ということもあり、私が執筆で西山さんが実装に分かれて作業を進め,私の執筆は論文構成の前半部分を担当し,後半は西山さんが担当しました.
論文を執筆していて,このデータセットがどうして良いのかを考えることと自分の考えを読み手に伝わるようにでアウトプットすることがすごく難しいと思いました.
他の交通事故動画のデータセットと比較すると動画数とラベルが多いのはわかるのですが,多いから良いという根拠が上手く見いだせなかったためです.
アウトプットに関しては文章もそうですが,図に関してもデータセットの特徴を1枚にまとめてしっかりと伝えるにはどうすれば良いかわからなかったです.英語に関しても英語力が圧倒的に不足していたため単語選びや文法の修正が上手くいかず,本当に意図が通じているのか怪しい文章だったと思います.内容以外の話をすると1回目の論文執筆は研究に関わる皆さんがこの研究以外のタスクを抱えていたため,投稿締め切りまで十分な時間をかけられていなかったと思います.
研究自体の内容について考えるのが最も重要であると思いますが,メンバーの限りある時間を有効に使う工夫をもっと考えて提案できていれば良かったなと反省しています.

IROS'23投稿

一度目のレビューも踏まえると,不採択の要因には,我々の論文の一番の新規性である交通事故動画に付与したラベル・動画本数の多さによる交通事故認識精度に関する比較・強調が甘かった点が挙げられます.また,前述の点に加えて,英語も含め論文の完成度がトップカンファレンスの水準に達していなかった点も挙げられます.
そこで,二度目の論文投稿に向けて以上の点を大きく改善しました.ここでは,改善点について具体的に述べていきます.

  1. 比較部分
    新規性を押し出すための比較部分は,総じて比較対象となる論文のサーベイ不足が原因だと考えました.そこで,2022年から2023年までに投稿された当該分野の論文はもちろん,それ以前までに投稿されていた論文の精読を行いました.
    サーベイをしながら,比較対象にする論文の再実験と追実験を行いました.
    精読と追実験を行っている間に,当該分野での研究課題やアプローチ方法について深い理解が得られました.
    また,評価指標設計についても当該分野でよく用いられている評価指標と異なるため,変更しました.こちらについては,大谷さんからアドバイス頂き実装に加えました.
    以上の改善を行い,計算機上で理論的には,関連研究と比較できる(ようやく勝負できる)水準に達しました.

  2. 新規性の強調
    新規性の強調は,もう少し広い範囲での当該分野の論文の見せ方を参考にしました.我々の新規性が前面に出るように,比較表に用いる関連研究のデータセットの数を精査した上で増やしました.また我々のデータセットが関連研究と比較して劣っている点についても言及しました.

  3. 論文構成
    論文の構成に関してですが,論文の書き方に関する本や記事を読みながら,当該分野の研究を精読していたので,執筆時には,ある程度前回の論文の短所と構成が見えてきていました.一番の欠陥は,Discussion と Related Work でした.Discussion 自体が機能していなかったので,Discussion を埋めて原さんや中村さんにフィードバックやアドバイスを頂きつつ進めました.私自身は,関連研究や,本(代表的には,なぜあなたは論文が書けないのか?),記事などインプットした状態で,Experimentsから得られるポジティブな影響とネガティブな影響から何が示唆されるか,どのような結論が導き出せるかの点に注意しながら執筆しました.そこから内部査読でフィードバックを頂き,修正を続けました.

  4. 英語力
    英語力は私に関しては,言うまでも無く絶望的でした.
    謙遜の類では無く本当にお粗末な出来で,一週間で一定時間中学英語からやり直しました.(今この記事を書きながら,IROS'22の投稿時に私が執筆した Data Statistic, Experiments 部分の初稿を見ているのですが,見るのが恥ずかしくなるような文章の数々が見られます.)
    やり直す努力はしましたが,IROS'22のレビューが帰ってきてIROS'23の投稿締切まで一年もありませんので,都合良く急激に,英語力が上がるわけもなく,Grammarlyに頼ったことを正直に告白しておきます.機械的に従う作業にならなかったことがせめてもの救いです.

実装について

実装については,全ての工程をイシュードリブンで開発しました.
理由は週一回程度開かれる定例ミーティングで上がった課題をイシューに残しておいて次の週までに消化するというスタイルがフィットしていたからです.
また,cvpaper.challengeの公式リポジトリにあるAscenderを用いて開発を進めたことで,Docker上で作業ができて非常にスムーズに進めることができました.
開発するにあたって,コードレビューの文化を取り入れようとしましたが,二点の課題があることに気づきました.

  1. 単純に実装する人手が足りない
    みなさん他の研究も抱えており,レビューする時間や習慣を取り入れることが大きな負担になる.

  2. スピードが落ちる
    提案手法の結果の確認が優先になり,締切も迫ってくるという状況で,なかなかレビューまで手が回らない.

上記のような課題は抱えていましたが,テストやレビューは,バグを減らすことで手戻りを減らすことが期待できるので,負担を極力低減した上でできる仕組みの設計を日々考えています.

実験 (齋藤 著)

実験では,V-TIDBの学習を様々な条件で回して結果を比較し好条件を見つけることを目的としてやっていました.
提案するデータセットにおいて複数ラベルという特徴がどうして良いのかを証明するには様々なラベルの組み合わせ方を試行していくしかないと思いました.
研究室で利用できる比較的性能が良い計算機のおかげで学習自体はスムーズに行うことができたと思います.

投稿の時

突然ですが,私は沖縄のホテルに居ました.というのも修士課程での私の研究課題は,機械学習による異常音検知であり,研究会での発表があったためです.心臓を捧げていたので,学会が終わったらすぐにホテルに戻り,中村さんと,Google Meet で実験結果について議論し,論文の修正・加筆をして,原さんにコメントを頂いていました.
沖縄には,3日滞在したのですが,私の頭が回らなくなるまで,付き合って頂きました.最終的には,飛行機の搭乗時刻と論文の投稿締め切り時刻が同じになってしまい,当日の朝修正を加えた後,中村さんに続きで修正をして頂き,最終提出をして頂きました.あの3日の追い込みで確実に世界線変動率は1を超えたと思います.

採択通知は突然に

朝起きると外に出るのが私の習慣だったのですが,Slackを見るとメンションがきており,CVPR’23参加中の中村さんと片岡さんから採択おめでとう!のメッセージが夜中に来ていました(修士時代のメールアドレスが消滅していたので).
WBCで大谷選手がトラウト選手から三振を奪った瞬間くらい大きな声がでました.私にとっては,今回のIROS採択はそれくらい嬉しかったです.
「やっと採択されました!嬉しいです!」と感情100%のメッセージを返した事を覚えています.

採択後

論文採択がきまり,メールでポスターとビデオプレゼンを投稿することになりました.私は今年の4月に就職しており,時間的には厳しい状態でしたが,原さんにご協力頂きなんとかDeadlineに間に合わせることができました.
日本語で研究成果のポスターやスライドを書くことですら,とても大変な作業であり時間を要しますが,英語だと特にフレーズや単語の長さに気を使う必要があり,大変でした.
最後の原さんとの1 on 1を終え,投稿が終わった後に「お疲れ様です」と言って頂けてようやく肩の荷が降りました.
「国際カンファレンスへの投稿」のサイクルを経験できて非常に良かったです.

cvpaper.challengeでの活動

ここで,私のcvpaper.challengeについてのポエムも書こうと思います.
私が加入したのは2020年頃です.私が当時所属していた研究室では,機械学習を専門としておらず,古典的な画像処理を用いた社会実装がメインでした.機械学習が実応用され始め,私が当時研究していた,手話認識タスクにも組み込みたいと思い,独学していた時期です.そんなころにX(旧Twitter)だったと思いますが,cvpaper.challengeというコミュニティの存在を知りました.ホームページを見つけ片岡さんという方に連絡すればサーベイメンバーになれるとの事だったので,その日の内に連絡して,後日面談して頂くことになりました.大きな挑戦でしたが,面談で研究したい事を伝え,指導教員の許可を得て,研究メンバーとして活動を始めました.
その後,cvpaper.challenge の研究メンバーになり,Video Recognition に興味があり,ちょうどCVPRのコンペが開かれる時期だったので,手を挙げて参加しました.もちろん知識は足りないので,インプットとアウトプットは同時に行うしかありませんでした.原さんという方がすっと3D-ResNetの基礎実装を共有して頂きました(しばらくして,中村さんに言われて,READMEを見て驚きました).
CVPRコンペのタスクに合わせてコードを書き換えた時が,初めて自分の意思でバックプロパゲーションした時だったと鮮明に覚えています.
この時期に中村さんに出会い本物の素人質問をしまくっていた事を覚えています.
その後は定期的に行われる研究ミーティングに参加して,まずはメンバーの方の研究に質問ができるように都度調べ,自分の進捗も共有できるように研究を進めました.的外れな質問も多かったと思いますが,一年くらいすると機械学習完全に理解した!の領域に達しました.
そして,中村さんに声をかけて頂き,私,齋藤さん,中村さん,大谷さん,原さん,片岡さんと現在の研究を始めました.
私が産総研のある筑波から遠方で居住・通学をしていたこともあり,本研究の実験やディスカッション,執筆は,最初から最後まで全てフルリモートで行われました.(皆さんに,初めてお会いしたのは今年のMIRU2023の会場でした.)
知識や,物理的な距離,計算資源の不足が理由で不安に思うこともあると思います.しかし,はじめから全ての人が高い水準の知識を得ているわけではありません.物理的な距離がある方もいらっしゃいます.計算資源も協力してくれる方をコミュニティに参加してから探すことができますし,インターンを目指してみるのも良いと思います.メタサーベイに参加してみるだけでも知識水準は格段に上がると思います.
加えて,執筆時,実装時の困りごとは,相談できる強い方がいますし,投稿後のプレゼンやポスターも多くのアドバイスを頂きました.

私が,修士課程でのテーマとcvpaper.challenge内でのテーマが異なることや,フルリモートでの参加にあたって意識していた点について述べます.

  1. 作業時間管理の徹底 (時間編)
    Googleカレンダーを使って研究室・cvpaper.challenge・アルバイトを完全に作業時間で分けていました.そのために週の初め(日曜日)に,週末までに出すべき進捗をGoogleカレンダー上のタスクに書き出し,逆算していました.(忘れないためにも)

  2. 計算時間の有効活用 (時間編)
    幸いにも機械学習タスクは時間がかかり待ち時間が生まれます.待ち時間に他の作業を進めることで,前述した3プロジェクトのGPUが止まらないようにしました.

  3. 実装・実験の管理 (時間編)
    実装はGithubで管理しましょう.実験はどのcommitでどんな結果がわかりどのような考察が得られたか分かればツールはなんでも良いと思います.論文執筆時や次の実験を行うときにいつの実験結果を元にしているか探す時間ほど無駄な時間はありません.

  4. Slackはなるべく早く返す (時間編・リモート編)
    連絡が来るということは,私の意思決定が必要な場合が多いです.連絡を遅くすると,タスク渋滞が起こり幸せなことは何一つないです.なぜなら結局手を動かす総量は変わらないので,後々全てのタスクが同時に襲いかかってくるからです.また,渋滞は連鎖します.連絡してきた方の行動は私の意思決定に依存しているからです.意思決定がその場でできない時はスタンプで既読したことを伝えるのも有効です.

  5. 非同期のコミュニケーションを増やす (リモート編)
    最初は難しかったですが,文字ベースのコミュニケーションを増やすように心がけました.全員の時間を合わせる必要がないので,4で述べたような渋滞が起こりにくくなります.

  6. ミーティングの前に15分程度で資料を整理する (リモート編)
    全員の時間を合わせた週に行われるミーティングは貴重です.ただし制限時間があるので,資料の用意や話すことを決めておくと良いです.(欲を言うと相談事は先に書いておいてフィードバックをもらう時間にした方が良いです)ミーティングでは文章にできないほど自分が理解していないことや抽象的なことについて話し合うのが効果的です.

  7. 分からないことは分からないと言う (知識編)
    分からないことが前提になって仮説が積み上げられていくと,その先のチャットやミーティング時間が無駄になるので,分からないと言っていました.全員が分かっていそうな中,「分からない」と言うことは,勇気が必要ですが,渋滞が起きないためにも聞きいていました.もちろんググったり,本で体系的に学習した方が良い時もありました.全員のテクニカルタームの認識を合わせることも重要ですので,どのような意味で使ってますか?と聞くことは良いことだと思います.

  8. 心のケア
    休む時は休みましょう(これが一番難しいです).これは1で書いたようにタスクをまとめるとハードルが低くなりました.今週のタスクは終わっているのだからもう休んで良いと思うことが少しはできたからです.加えて,友人でも家族でも構いませんが,辛い時は辛いと言うことの出来る相手がいたことは良かったです.

おわりに

最後まで読んで頂きありがとうございました.
本記事を通して,さまざまな理由が原因で躊躇している方の力に少しでもなれば,幸いです.
最後に,Talent is made, not born. を引用して締めようと思います.
挑戦したい方は,こちらも覗いてみてください.

Reference

  1. Bao, W., Yu, Q., Kong, Y.: Uncertainty-based traffic accident antici- pation with spatio-temporal relational learning. In: Proceedings of the 28th ACM International Conference on Multimedia. p. 2682–2690. MM ’20, Association for Computing Machinery, New York, NY, USA (2020)

  2. Yao, Y., Wang, X., Xu, M., Pu, Z., Wang, Y., Atkins, E., Crandall, D.J.: Dota: unsupervised detection of traffic anomaly in driving videos. IEEE transactions on pattern analysis and machine intelligence 45(1), 444–459 (2022)

  3. Zhang, J., Yang, K., Stiefelhagen, R.: Issafe: Improving semantic seg- mentation in accidents by fusing event-based data. In: 2021 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS). pp. 1132–1139. IEEE (2021)

  4. Pradana, H., Dao, M.S., Zettsu, K.: Augmenting ego-vehicle for traffic near-miss and accident classification dataset using manipulating conditional style translation. arXiv preprint arXiv:2301.02726 (2023)

  5. Suzuki, T., Kataoka, H., Aoki, Y., Satoh, Y.: Anticipating traffic acci- dents with adaptive loss and large-scale incident db. In: Proceedings of the IEEE conference on computer vision and pattern recognition. pp. 3521–3529 (2018)

この記事が気に入ったらサポートをしてみませんか?