普渡大學創造 DeepHand，用深度學習開發 AR 新技術

2017-01-03 14:45:00.0

雷鋒網報道，美國印第安納州的普渡大學西拉法葉分校的研究工作者，利用深度學習算法爲虛擬增強現實技術提供了新型系統——「深度手控」（DeepHand）。

未來的人機交互系統，概念上應能夠滿足人類和虛擬環境間的交流互動。屆時，對計算機的要求也變得更高，計算機將需要獲取並計算人類手部複雜的運動狀態及龐雜關節角度，從而理解人類雙手無窮無盡的姿勢所要表達的含義。

在虛擬增強現實技術中，用戶需要佩戴頭盔，才能夠感知虛擬環境爲用戶所帶來的視聽盛宴。然而，增強現實技術能爲用戶呈現虛實並存的世界，並且滿足用戶對虛擬場景及真實世界雙重互動。而虛擬現實技術爲用戶提供一個純粹的人工環境，用戶可以完全的沉浸在虛擬現實世界。

圖片展示了深度手控系統的使用過程。「深度手控」（DeepHand）是由普渡大學C設計實驗室的研究者所開發。該系統能夠應用深度學習算法理解人類手部靈活的關節和大量複雜的扭動。這將會讓我們向未來人機交互系統邁出一大步，更加深刻的滿足人類和虛擬環境間的交流互動。

「如果將虛擬現實和增強現實二者結合，這種新系統必須能夠看見並且理解用戶的雙手到底在做什麼」，「Donald W. Feddersen機械工程系」兼C設計實驗室主管，Karthik Ramani說道。「如果你的雙手不能和虛擬現實相互溝通，那麼你就沒辦法做任何事情。這就是爲什麼說雙手在虛擬增強現實技術中是非常重要的。」

「深度手控」（Deephand）是一種新的系統，它應用卷積神經網絡算法來模仿人類大腦，同時能夠運用「深度學習」算法去理解雙手狀態的多變性和扭轉的複雜度。「我們可以精確定位出手部和指頭的位置，並能實時估計雙手和指頭的運動狀態。」Ramani 說道。

一篇關於「深度手控」的研究論文在今年6月26日至7月1日於美國拉斯維加斯舉辦的CVPR 2016上展出。（附上會議傳送門：http://cvpr2016.thecvf.com/）

「深度手控」應用深度感知照相機捕捉使用者的手掌，並且使用特定算法來理解手勢。「這種系統被稱作‘三維空間用戶界面‘，因爲用戶與電腦是在空間中進行交流，而不是傳統的觸屏控制和鍵盤操作。」，Ramani說道。「系統可以根據用戶所需來識別搭建在虛擬平臺上的物體，例如用戶可以開虛擬汽車，或者做一個虛擬的陶藝。這樣的一雙會思考的虛擬雙手，顯然是一個至關重要的平臺。」

這篇學術文章的作者是博士生Ayan Sinha和Chiho Choi 以及Ramani。關於這篇文章更多細節已在C設計實驗室主頁展出。普渡大學的C設計實驗室，是由美國國家自然基金所支持，並且和Facebook及Oculus齊名。同時聯合贊助CVPR研討會。（普渡大學C程序設計實驗室網址傳送門在此。）

根據一個擁有250萬個手勢和結構的大數據庫，研究工作者不斷地「訓練」深度手控系統。爲了更快的提取有效信息，手指連接處被設置爲特定的「特徵向量」。

「我們識別一些手部的關鍵角度。然後我們觀察這些角度是如何變化的。這些結構其實就是一些量化的數值。」Sinha說道。

「這個想法類似於Netflix上的推薦算法，根據先驗知識，比如用戶之前購買過的電影庫，然後針對這類特定客戶的偏好，選擇性地向他們推薦電影。」Ramani說。「深度手控」傾向於選擇‘空間最近鄰’算法，這種算法能夠最佳的被攝像頭捕捉到手部具體位置。儘管訓練這個系統要求強大的計算能力，但是一旦這個系統被訓練好了，就可以在標準運算強度的計算機上運行。」

雷鋒網(公衆號：雷鋒網)瞭解到，這項研究已經被國家自然基金和普渡大學機械工程系所支持。

深度手控是一種關於重建人類手勢使用深度學習算法的新理論。深度感知鏡頭使得電腦可以處理不同的人類手勢。使用這些新的深度學習算法，電腦識別並重建手型的過程就像我們自身大腦做的那樣。這有着潛力去變化我們和電腦交互的方式同時改變我們身邊的事情。

深度學習模型能夠觀察手的不同部位，比如手掌或者指頭，並且可以計算出他們組合在一起是怎麼工作的，這和大腦的工作非常類似。考慮到自遮擋和自相似的手掌，甚至一些部分對於傳感器根本不可見，但是算法依舊可以重建這些部位通過深度學習算法。

雷鋒網在此附上CVPR 2016該文章的論文摘要譯文：

《DeepHand：一種基於補完深度特徵矩陣的魯棒手勢估計方法》
摘要：

本文提出一種使用商用傳感器的深度數據恢復3D手勢信息的DeepHand算法。通過有區別的訓練卷積神經網絡，得到低維的具有深度映射性的手勢特徵。這一手勢特徵向量包含了手部運動中整體的和局部的典型關節角度信息。算法通過高效地的識別空間上最近的指節構建出的手勢特徵，將特徵庫與合成的深度映射信息結合，並融合前幾幀中的相鄰指節信息來實現識別功能。

矩陣補完是通過時間-空間行爲特徵與已標記的手勢參數值共同估計未知的手勢參數。算法中手勢特徵數據庫覆蓋了多種視角下的特徵數據，分層估計手勢參數從而保證了在遮擋情形下的魯棒性。文中展示了在標準配置的計算機上統一使用幀率爲32的視頻流將DeepHand與最新的方法進行對比的結果。

via Purdue University

文章來源：雷鋒網

喜歡這篇文章嗎？快分享吧！