英偉達饞哭建模師！投喂隨意視訊，直出3D模型，華人一作登CVPR 2023

2023-06-02 14:50:34.0

英偉達一出手，3D建模師都饞哭了。

現在，製作一個紋理超細緻的大衛3D模型，需要幾步？

剛剛靠著AI，市值一度飈破萬億美元的英偉達給出最新答案：

給AI投喂一段普通視訊，它就能自動搞定。

不僅雕塑的每一個褶皺都能拿捏住，更為複雜的建築場景3D重建，同樣靠一個視訊就能解決：

連深度都能直接估算出來。

這個新AI名叫Neuralangelo，來自英偉達研究院和約翰霍普金斯大學。

論文剛一發表就吸引了全場網友的目光，讓人直呼：這是直接創造新世界的節奏。

甚至再一次拉動了顯示卡銷量（doge）：

目前，相關論文已經入選CVPR 2023。更多技術細節，我們一起接著往下看~

無需深度資料，直出3D結構

這篇論文采用的架構名叫Neuralangelo，一個聽起來有點像著名雕塑家米開朗基羅（Michelangelo）的名字。

具體來說，Neuralangelo核心採用了兩個技術。

一個是基於SDF的神經渲染重建。

其中，SDF即符號距離函式（Signed Distance Function），它的本質就是將3D模型劃出一個表面，然後用數值表示每個點距離模型的實際距離，負數指點在表面內側，正數指點在表面外側：

△圖源chriscummingshrg

基於SDF的神經渲染技術，則是採用神經網路（如MLP）對SDF進行編碼，來對物體表面進行一個近似還原。

另一個則是多解析度雜湊編碼，用於降低計算量。

多解析度雜湊編碼是一種特殊的編碼方式，能用很小的網路降低計算量，同時確保生成的質量不降低。

其中，多解析度雜湊表的value，對應由隨機梯度下降優化得到特徵向量。

操作流程上，則分為兩步。

首先，基於神經渲染重建方法，計算出視訊中3D結構的「粗糙表面」。

值得注意的是，這裏採用了數值梯度而不是解析梯度，這樣基於SDF生成演算法做出來的3D模型表面更加平滑，不會出現凹凸不平的狀態：

論文還額外對比了一下解析梯度和數值梯度的狀態，從圖中來看，數值梯度整體上能取得更平滑的建築效果：

隨後，就是逐漸減小數值梯度的步長（step size）、採用解析度更高的雜湊表，一步一步提升模型的精細度，還原建築的細節：

最後再對生成的效果進行優化，就得到了還原出來的影象。

包含MLP和雜湊編碼在內，整個網路採用端到端的方式進行訓練。

研究人員採用了DTU和Tanks and Temples兩個資料集對Neuralangelo進行測試。

DTU資料集包含128個場景，這篇論文具體採用了其中的15個場景，每個場景包含49~64張由機器人拍攝的RGB影象。

隨後，還採用了Tanks and Temples中6個場景的263~1107張RGB相機拍攝影象，真實資料則由LiDAR感測器獲得。

Tanks and Temples包含中級和高階兩類資料集。

其中，中級資料集包含雕塑、大型車輛和住宅規模的建築；高階資料集則包含從內部成像的大型室內場景、以及具有複雜幾何佈局和相機軌跡的大型室外場景：

具體到生成細節上，Neuralangelo相比NeuS和NeuralWarp等「前SOTA」模型，在DTU資料集上展現出了非常準確的3D細節生成：

而在Tanks and Temples資料集上，Neuralangelo也同樣展現出了不錯的還原效果：

在F1-Score評估和影象質量PSNR評估中，Neuralangelo基本上全部取得了最好的效果：

這篇研究的作者來自英偉達和約翰霍普金斯大學（Johns Hopkins University）。

論文一作李趙碩（Zhaoshuo Li），本科畢業於不列顛哥倫比亞大學，目前是約翰霍普金斯大學的博士生，師從Mathias Unberath和Russell Taylor。

Russell Taylor是醫療機器人領域泰斗，曾主持研發全球首臺骨科手術機器人ROBDOC。

而李趙碩本人，本科專業也是機器人工程，如今算是小小跨界，研究重點在影象重建3D結構上。

Neuralangelo是李趙碩在英偉達實習期間的工作。此前，他還曾在Meta的Reality Labs實習（就是小扎All in 元宇宙的核心部門）。

文章來源：量子位