普通手機“隨手”拍的雕像,一下就變成了精細的三維重建圖。
水杯來回動的動態場景下,細節清晰可見:
靜態場景效果也同樣nice,狗狗突出的肋骨都被還原了出來:這是一種可對未知物體的6D姿態追蹤和三維重建的方法。用于從單目RGBD視頻序列中跟蹤未知物體的6自由度運動,同時進行物體的隱式神經三維重建,方法接近于實時(10Hz)。這種方法適用于任意剛性物體,即使視覺紋理大部分確實,僅需在第一幀中分割出物體,不需要任何額外的信息,并且不對智能體與物體的交互模式做任何假設。可處理大幅度姿態變化、有遮擋視頻
該方法的關鍵是一個神經物體場,它與姿態圖優化過程同時進行,以便將信息穩健地累積到一致的3D表示中,捕捉幾何和外觀。方法自動維護了一組動態的姿態內存幀,以便這些線程之間進行通信。它能處理具有大幅度姿態變化、部分和完全遮擋、無紋理表面和高光反射等具有挑戰性的視頻。作者展示了HO3D、YCBInEOAT和BEHAVE數據集上的結果,證明了我們的方法顯著優于現有方法。野外測試
該方法不僅適用于更具挑戰性的動態場景,還適用于此前經常被考慮的靜態場景(移動相機)。因此實現了比專門設計用于靜態場景的那些方法更好或相當的結果(即文章開頭展示動圖)。與SOTA對比
左圖:6自由度姿態跟蹤可視化,其中輪廓(青色)以估計的姿態渲染。值得注意的是,如第二列所示,我們的預測姿態有時甚至會糾正GT的錯誤。右圖:每種方法輸出的最終3D重建的正面和背面視圖。由于手部遮擋,視頻中的某些部分永遠不可見。雖然從相同的視角渲染網格,但是DROID-SLAM和BundleTrack的顯著漂移導致網格錯誤旋轉。問題設置
給定一段單目RGBD輸入視頻以及僅在第一幀中目標物體的分割掩碼,該方法能持續追蹤物體的6-DoF姿態并重建物體的3D模型。處理的物體是剛性的,但不依賴其特定豐富的紋理 - 方法適用于無紋理的物體。此外,不需要物體的實例級CAD模型,也不需要物體類別的先驗知識(例如事先對同一物體類別進行預訓練)。首先,在連續的分割圖像之間匹配特征,以獲得粗略的姿態估計(第3.1節)。
其中一些帶姿態的幀被存儲在內存池中,以便稍后使用和精化(第3.2節)。
從內存池的子集動態創建位姿圖(第3.3節);在線優化與當前姿態一起聯合細化圖中的所有姿態。
然后,這些更新的姿態被存儲回內存池中。
最后,內存池中的所有帶姿態的幀用于學習神經物體場(在單獨的線程中),該場建模了物體的幾何和視覺紋理(第3.4節),同時調整其先前估計的姿態,使姿態跟蹤更加魯棒。
項目地址:https://bundlesdf.github.io/IEEE Spectrum
《科技縱覽》
官方微信公眾平臺