NeRF論文全部読む！

2022年12月24日 23:56

【研究コミュニティ cvpaper.challenge ～CV分野の今を映し,トレンドを創り出す～ Advent Calendar 2022 24日目】

NeuralFields班GLの上田と申します。筑波大学　画像情報研究室　博士1年でSLAMまわりのロボットビジョンと深層学習の中間領域あたりの研究を好物にしています。
今回は、グループ運営についての内容で依頼されていましたが、グループ運営部分に関しては僕自身手探りのところが多いため他の方の記事にお任せしまして、グループで議論を起こす・有用な情報を渡すために行っているサーベイ方法について書いていこうと思います。

はじめに

NeuralFieldsに限った話ではないですが、近年研究の発展の速さが凄まじく、国際会議の予稿では追いつかなくなりつつあります。そのため、研究テーマ決めやアイデア出しではarXivに上がる論文まで追いかけておくことが要求されるようになりました。研究者は一日一回感謝のarxiv cs newを遂行するのです。arXivに上がる論文はもちろん査読されておらず、また研究領域もCS(Computer Science)レベルまでしか切り分けられていません。玉石混合な論文が日々投稿されている中から重要なものを取り出すのはあまり現実的ではないように思います。しかしながら世の中にはそれができてしまっている人達がいます。例えばtwitterを見ると、AKさんや岡野原さんは連日arXivから良い論文を見つけて要約を投稿してくださっています。彼らがとんでもなく優秀、というのはありますが、NeuralFields班を動かす上で、せめてNeuralFields分野内だけなら同じことができないか、そしてその方法を再現可能なノウハウにできないか、というのが僕の班運営の中で一つ大きな目標になっています。現状、論文サーベイの手順化として、Notionのテンプレートを用いたノート化の形を取っていて、副産物としてそのページをNeuralFields班メンバーに共有しています。この記事では、まだ未熟ではありますが、”arXivを追えるような手早い文献調査”のノウハウ化を紹介できればと思います。

論文を速読する意味

凡人の我々にとって、全ての論文を数式全て読み込むような精読をするのは不可能です。査読を受けることを想定して書かれた論文は、この論文は”どんな立ち位置”で”何の情報が載っているか”の情報が素早く抜き出せる形になっています。逆にこれが整っていない論文は未熟である可能性が高いため、読み飛ばしてもいい、という一つの基準になります。（これは時に自身への鋭いブーメランになります）

CS分野だと、大抵の論文は以下の構成です。
1 Introduction
2 Related works
　(related task 1 … / another approach 1 …)
3 Method
4 Evaluation
　(implementation details / dataset / metrics)
5 Discussion and Limitation
(6 Conclusion)

論文の書き手としては３・４章あたりを読んでほしい訳ですが、読んでもらうために１章に”こんな情報を書いていますよ”と短く宣言します。逆に読み手としてみれば、１章を読むだけで（著者を信用するなら）その論文に何が書かれているのかを把握し、それ以上詳しく読む必要があるか、またチームの誰の内容に関わりがあって薦められるかの判断が可能になります。

論文の立ち位置の把握

僕は論文を読む時には、その論文の立ち位置を読む→（関連があれば）論文を速読する→（重要であれば）論文を精読する、というように２段階枝切りをしています。立ち位置を読む、のゴールは“◯◯をした論文がある”という粒度で分かればOKです。以下、CVPR2022採択Direct Voxel Grid Optimization（以降DVGO）を例に説明します。

論文の主文を読む

読む箇所はAbstractです。特に冒頭文に何をした論文なのかが書かれていることが多いです。例えばDVGOのAbstractの1文目を引用するとこんな感じです。

We present a super-fast convergence approach to reconstructing the per-scene radiance field from a set of images that capture the scene with known poses.

https://arxiv.org/abs/2111.11215

訳すと”既知のポーズでシーンを撮影した画像群から、シーンごとのRadiance Fieldを再構成する超高速収束アプローチを提示する”です。良く書かれた論文はこのように、”これがどんな論文かを短く人に紹介するならこれ”という文を用意してくれていることが多いです。文献リストを作る際には、この主文をセットで記録するようになると後で読み直す際のよい手がかりになります。

論文の流れを捉える

読む箇所はRelated Works(主に２章）です。数千年の知の蓄積のある現代、研究は急に飛び出したようなものはほぼありません。他の論文との関連を拾っておくと、論文内容を読む際や、以降の他論文のサーベイが格段にやりやすくなります。理想的には、ベースラインや別のアプローチ手法を把握していて、その差分だけを読むような読み方ができると良いです。
論文の関係性の捉え方は宗派がいろいろあると思いますが、僕は（特にNeRF分野だと）以下の３つに分けられることが多いと感じています。

◯Parent: 論文はこの手法を発展させたものと捉えられるようなベースラインです。DVGOだとNeRFなど、２章”Neural radiance fields.”節に書かれたものがこれにあたります。

◯Component: 問題解決のために取り入れられた要素です。DVGOだとNeRFの学習時間が長いという問題のうち、収束性と純伝搬の時間の改善のためにHybrid volumetric representationsを取り入れています。２章”Hybrid volumetric representations.”節に該当論文が挙げられています。

◯Another Approach：同じ・または似た問題を解決しようとした論文です。これらは実験欄で比較対象にされ、また２章では課題点や差別化点が併せて書かれていることが多いです。DVGOだと例えばdepth-supervised NeRFが該当し、DVGOではこれと異なり学習にデプスマップが不要である、と書かれています。

論文のタスクを捉える

読む箇所はEvaluation(主に４章)で、データセットと評価指標を抜き出します。例えばDVGOだとデータセットはSynthetic NeRF, Synthetic NSVF, BlendedMVS, Tanks&Templates, DeepVoxelsの５つが使われています。この構成からは、合成・実写を問わず性能が出ることを示したいであろうことが予想できます。逆に、LLFFや360系のデータセットが含まれておらず全てOut-to-inのデータセットであることから、背景推定には対応できないであろうことが予想できます。また、評価指標では、PSNR/SSIM/LPIPSといった生成画像の品質、”generalizable pre-training”（事前知識の必要性）、”per-scene optimization”（１シーンの学習にかかる時間）が使われています。ここからは、この論文は事前知識なしで、生成画像の品質と学習時間の短縮の両立を試みているであろうことが読み取れます。

このフォーマットであれば、関連研究やベンチマークが網羅できるようになれば、新しく読む際にはここまでを5〜10分程度でこなせるようになります。そしてここで抜き出した情報は、後で論文を検索する時に非常に使いやすい目印になります。僕の場合、Notionでリンク/タグにしています。

論文の速読をする

読みたい論文であれば、そこからさらに情報を取り出していきます。速読する際のテンプレートとしては、落合陽一先生のテンプレートを使って、以下６項目をまとめていきます。

Contribution: どんなもの？
Originality: 先行研究と比べて何がすごい？
Feature: 技術や手法のキモはどこ？
Evaluation: どうやって有効だと確認した？
Discussion: 議論はある？
Related works: 次に読むべき論文は？

重要なのは、このフェーズでは論文全てを読もうとするのではなく、この項目が書いてある箇所を探すように読むことです。明らかに重要な論文で精読するつもりであったとしても、これらの項目を先に把握していた方が圧倒的に読みやすいです。Contribution / Evaluation / Related worksは論文の立ち位置の把握で作ったものを流し込めばOKです。Originality/FeatureはIntroductionの章から拾える場合が多いです。Discussionは1章ではアピールされにくいため、Discussion/Limitation/Conclusionの章から拾える場合が多いです。

DVGOの場合、これらを埋めるとこんな感じのノートができます。

まとめ

以上、手早くサーベイするノウハウ紹介でした。
NeRF関連の論文はこのやり方で現在113本まとめています。しかしながらサーベイに時間をとれない時期もあり、NeRF関連でも漏れが結構出てきてしまっています。僕自身完遂できてはいないのですが、短時間ででもできる文献調査方法を確立して、とにかく習慣的にサーベイするのが大切かなと思っています。この記事を読んだ皆様も、大量の文献読みの文化が広まると著者冥利に尽きます。よいサーベイライフを！