読み手も楽しい論文を作るには？

2022年12月8日 15:15

自己紹介

はじめまして, 筑波大学　画像情報研究室　博士1年の上田樹と申します. SLAMまわりのロボットビジョンと深層学習の中間領域あたりの研究を好物にしています.

今回はアドベントカレンダーの記事として, MIRU/cvpaper.challengeのメンターシッププログラムで取り組んだ研究が世に出るまでのストーリの詳解として, ECCV2022で発表したNeural Density Distance Field(NeDDF)という研究がどのように生まれたかについて書いていきたいと思います. この研究は私にとって初めて国際会議として採択された論文なのですが, 採択までには実に2回の研究テーマ変更, 6回のリジェクトがありました. 採択のために変えた点は色々ありますが，自分ならどんな論文を読みたいか, という視点を持ってテーマ設定から俯瞰することの重要性に集約されるのかなと思います.

この記事では, 私の不採択の記録をあえて晒しまして, 似た状況に陥って苦しんでいる学生にこんな視点もある, というところを伝えていければと思います.

国際会議への初投稿〜無数のリジェクト

私は学部の頃には, 研究室で教授から与えられたテーマとして, 「少し未来の人物の動きを予測して映像化する」という研究をしていました. 人物運動予測と映像再構成の組み合わせでシステム全体を組んで卒論を執筆し, その後運動予測の部分で新しいアイデアを加えることで短時間3次元運動予測のベンチマークでSOTAが取れそうだということで, M1の夏に初めての国際会議として３DVに挑戦しました. 結果はリジェクトでしたが, 「内容は興味深いが文章が明瞭ではない」というレビューばかりで, 当時は安直に「英文のネイティブチェックを入れれば通るのでは？」と考えていました.

これが地獄の始まりでした.

3DV2020 : (初稿) Weak Reject×3 → (最終)Reject
CVPR2021 : (初稿) Weak Reject×2, Border → (最終)Reject
ICCV2021 : (初稿) Weak Reject, Border, Weak Accept → (最終)Reject
WACV2021 : Weak Reject×2, Border, Weak Accept → Reject

それから４回投稿したものの, 全てボーダー付近で不採択となっています．

初の不採択以降, 背景の情報不足を補おうと国際会議を追うようになったのですが, このhuman trajectory predictionという領域, 学会の度に1〜2本は投稿されSOTAが更新されるとんでもないレッドオーシャンであることにようやく気づきました．ちなみに2021年頃の論文はこちらの方がリストを公開してくださっています，紹介された71本のほとんどは2019-2020年のものになっています．ベンチマークの固まった研究である為, 投稿には性能での優位性が必要になります. Rejectされる度に別の研究にSOTAを更新されてしまい, 投稿の度に手法の改善が必要でした. 手法を練り直し, 実装をやり直し, SOTAを取れるように細かなパラメータの追い込みをかけ, 手法が変わったため論文も大きく書き直して, というのを3ヶ月毎に繰り返す生活でした. 自分自身, 少しの性能を上げるための手法ばかり試して論文を書くことに嫌気が差し, 査読待ちの期間に自分で別テーマを設定もしましたがどれも上手く行かず, なんとか投稿まで漕ぎ着けたSLAM関連の論文も3DV2021にて不採択でした.

今振り返ると膨大な労力をかけ続けているのに成果につながらないことに相当な焦燥感が有ったと思います.

レビューにおける「文章が読みにくい」の意味

当時, 投稿の度に論理を整理し, またネイティブ校正に出してチェックを貰っているにも関わらず, 毎回「手法は面白いけれど読みにくい」というレビューが続いていました. 採択されたNeDDFの論文ではこれがレビュワー3名から「よく書けている」という評価に変わったのですが, これは残念ながら私の英語力がとても伸びたという話ではないです. 採択後の視点から見ると, この「読みにくい」というのは細かい文章の話ではなく, 問題設定に共感できるか, ストーリーが追いかけられるか, といった査読者を惹き付ける要素, また論理展開の整合性や実験構成の妥当性といった査読者の評価項目にあった文章構造になっているかが指摘されていたものではないかと思います. これに気づけなかった原因として, 論理の修正となると貢献に含まれてしまうことから, ネイティブ校正では文法的な要素しか指摘されない点があります. 文法的には流暢だが何をいっているかはよく分からない, という状態ですね.

人物運動予測のテーマでは, 既に提案されたベンチマークを用いて性能改善方法を提案する形態の研究なため, 問題設定自体にユニークさはありません. そのため手法の面白さや精度で勝負することになるのですが, 成熟した分野では具体的にどこを問題視したのか, という意識を査読者と共有することが非常に難しくなります. 例えば時系列データに前処理として離散コサイン変換（DCT)をもちいた従来手法は歩行などの周期動作に特化しており椅子に座るような遷移動作が苦手であるといった指摘を起点に書いたことがありますが, 既に精度の出ているこのベンチマークでは目視できるような誤差がなく可視化した説明が困難でした. このような論文を「DCTはそれ以前の手法と比べ汎化性能が高い」という認識の査読者が読んだ際には，問題意識に共感できないまま読み進めることになり, 「読みづらい」という評価になったものと思います. また手法部分も, 投稿の度に性能を上げるために修正したことで複雑化してしまい, 貢献が分かりにくくなっていました. 査読者にとっては「複雑な割に優れていない」という認識だったのではないでしょうか.

このような読み手を意識した論文を書こうという意識は, 論文を書く段階から考え始めても整合性が取れず無理のある文章になりやすいです. テーマ選びの段階から何を問題として, どんな仮説を建てて何を解決したのか, が明確に答えられる, 査読者と共感できることを意識した問題設定が重要だと思います.

cvpaper.challengeでのテーマ設定

当時のテーマ設定に限界を感じていたところで, テーマ設定から相談できるcvpaper.challengeのメンターシッププログラム(XCCV)の募集を見つけ応募しました. 研究コミュニティに入ってまず強く感じたのが, ”良いテーマ設定”や”良い論文執筆”といったものをメタに捉えて, 再現性をもたせるようなノウハウが追求されている点です. 研究室では今思えば闇雲な研究の取り組み方をしていた私には衝撃だったのを覚えています. テーマ設定としては, NeRFに惚れ込んでいた私は自分なりにまだ研究されていなさそうな”動的シーンでのNeRF”をテーマとして持ち込みました. XCCVではそれをもとにメタサーベイでテーマを練る形をとっていました.

まずはその関連研究をとにかく読んで網羅します. 私はNeRFベースなため最近の論文が主で50本程度読みましたが, テーマ次第ではもう少し多くなると思います. 次に該当分野を分析してスライド化します. 問題設定ごとに論文を切り分けて, 各論文がどんなアプローチを取ったのかをまとめていくことで，各論文の立ち位置を整理する作業になります. （メタサーベイの例はcvpaper.challengeのスライドシェアに上がっていますので興味有ればご覧ください）次に論文をいろいろな評価軸を決めて分類し, 今何ができていないのか, を分析します. これはテーマによってやり方は変わってくると思いますが, 私はたくさんマトリクスを組んで比較する, というやり方を取っていました. NeRFだと評価軸には例えばカメラ姿勢が未知かどうか, 被写体が動的かどうか, 視点の数や配置, 処理時間といった評価軸が存在します. カメラ姿勢の未知・既知とシーンの動的・静的でマトリクスをとって論文を分類するとカメラ未知かつ動的シーンという問題設定だけ当時は存在しない, といった研究されていない領域を見つけます. そしてそこが研究されていない理由は何なのか, 何が難しいのかを詰めていくことで, 問題設定を明確化していきます. NeDDFの場合だと, ”NeRFの密度場には有効な勾配がないため位置合わせタスクを解くのが困難”というところを課題にしました. これは当時の「動的シーン復元が小変形かつカメラ既知に限定される」「カメラ姿勢の最適化には質の良い初期値が必要」といった既存研究の限界の要因と繋がっています. そして解決アプローチとして, 「密度場の性質や表現力を保存した距離場が定義できる」という仮説を建てました. これはNeRF以前の陰的3次元表現でカメラ姿勢の最適化が可能であったものを連続緩和して持ち込もう, という発想です.

このように, メタサーベイからテーマを決めておくと, 論文の導入部分や関連研究がかなり読みやすいものになります. 問題設定が査読者と共感できていればストーリーも理解してもらいやすいため, 読みやすい文章だ, と評価されやすくなります.

ここまで評価視点でテーマ決めのことを書かせていただきましたが, なにより大きい要素として, こうして決めたテーマは研究していてとても楽しいというのが最大のメリットだと思っています. 解決すると何ができるようになるかが見えているのはモチベーションになります. 問題設定や既存研究が出来ること・出来ないことがはっきりしているのはアイデアを出しやすくなります. 解決アプローチが明確に示せていれば他の研究メンバーとの議論も深まりやすくなります. トレンド分析やメソッド化されているので忌避感を持たれる声を時々聞くのですが, 当たり前ですが採択されやすいテーマと研究過程の面白さは相反していなくて, 愉快な問いを学生が自前で設定する近道だと思っています．

この記事が気に入ったらサポートをしてみませんか？