NVS-MonoDepth: Improving Monocular Depth Prediction
with Novel View Synthesis 介紹

How哥
5 min readFeb 16, 2022

--

Monocular Depth Estimation state of the art on NYUv2

尚未投稿

Introduction

室內深度估計結果
  • 使用 Novel View Synthesis 網路當成額外的輸入資料,來輔助單圖片深度估計的結果,並且提出兩個新的 Loss 幫助訓練
  • 在室內和室外的實驗都得到漂亮的結果,證明 Novel View Synthesis 網路是有效幫助到單目估計深度的

Related Work

Novel view synthesis

傳統的 Novel view synthesis 生成多視角的圖片,用單張圖片或是多張重建一個 3D 場景,像是這樣。比較有名的 NeRF-based models,需要多張影像當 Input,雖然結果準確,但做起來比較複雜。在單目估計深度任務中,我們不用完美準確的 view synthesis,而是需要簡單的 view synthesis 幫助我們估計深度。

Methodology

作者認為新生成的視角可以提供模型幾何資訊,讓他能提高在空間中的判斷

Pipline

Pipline 由三個部分組成

  • DepNet,a monocular depth prediction network, 由簡單的 U-Net 組成,希望能快速找到圖片中的深度,附錄會有詳細結構介紹
  • View Transformation,由 DepNet 預測出來的深度圖,相機內的參數,相機的移動軌跡,這三樣東西還原成 3D 點雲座標,然後在重新投影到 2D 座標上
  • SynNet,an image synthesis network,上面 3D 投影到 2D 座標的圖會有一些被遮擋或是孔洞的部份,就要丟到這個 SynNet 來補足這張圖片,如下圖

經過上面三個步驟的圖片再次丟入DepNet 來產生最終預測結果

左下角 View Transformation 是經由深度圖,相機內的參數,相機的移動軌跡還原到 3D 座標上再投影到 2D 的結果,把這結果丟到 SynNet 後,會產生中間下面這張圖片,最後把這張圖片丟入深度網路,顯示最終深度預測結果

Experiments

關於 SynNet 模型的訓練,是另外使用 Replica Dataset,幫助 SynNet 有能力重建出新視角

這篇論文在在 KITTI Dataset 中的每個指標都表現平凡,除了 REL(Relative Error) 表現特別好,而這個指標是深度估計最可信的指標,代表作者們提出的多視角輸入是有用的

KITTI Dataset

在室內的 NYUv2 資料集中,REL 也是由史以來最低,所以目前這篇論文是 NYUv2 深度估計的 State of the art

NYUv2
Ablation Study

Conclusion

作者們利用特殊的訓練流程,讓深度估計更準確,SynNet model 有點像是提供給深度預測模型更多的視角,這種人產生視差的方式,對距離估計很有幫助,且運用 Dataset 提供的相機參數以及移動方式加入訓練,真的是物盡其用

--

--

How哥

台灣科技大學資工所研究生,把有趣的電腦視覺論文整理上來,希望能幫助到有需要的人,聯絡信箱 b10515007@gmail.com