業界 | 英特爾中國研究院認知計算實驗室主任陳玉榮博士：如何擁抱視覺識別技術的低廉化

2017-06-05 21:35:00.0

雷鋒網AI科技批評論按：5月30號，在臺北世界貿易中心展館舉辦的臺北國際電腦展上，英特爾中國研究院認知計算實驗室高級研究總監陳玉榮博士以《人工智能與深度學習》爲主題，分享了他們實驗室在視覺認知與機器學習方面上的研究成果。雷鋒網編輯對現場演講內容做了全程記錄。

英特爾中國研究院認知計算實驗室:

致力於視覺認知和機器學習前沿領域的科技創新，開發視覺內容理解和視覺內容創建的領先技術，從而在英特爾平臺上實現視覺數據的智能處理並提供全新的用戶體驗。目前已經在CVPR, NIPS, IJCAI, ACM MM等國際頂級會議上發表多篇論文，並擁有數十項相關專利，並連續兩年摘得英特爾研究院全球最高獎Gordy Award (以英特爾公司創始人之一戈登·摩爾命名)。

陳玉榮博士，現任英特爾首席工程師/高級研究總監、英特爾中國研究院認知計算實驗室主任。目前，他主要負責領導面向英特爾智能計算的視覺認知（視覺分析和理解）和機器學習研究工作。同時他也是英特爾研究院「視覺理解與合成」全球研究規劃的共同負責人，主導和推動基於英特爾平臺的智能視覺數據處理的技術創新。

以下是陳玉榮博士的現場演講，雷鋒網(公衆號：雷鋒網)做了不改變原意的編輯

視覺理解在未來會有很大的市場需求

當今，視覺識別技術無處不在，且成本越來越低廉。這得益於視覺識別技術在深度學習方面的不斷突破。其中一個主要的推動力是視頻內容在互聯網所佔比例越來越高，大量的互聯網數據都是視頻內容。預計到2019年，互聯網內容中的77%將由視頻組成，視覺媒體公司的數量將會繼續增加，視覺內容數量也會持續增加。面對這一現象，主要的挑戰在於機器如何能夠識別並學習數量如此龐大的視覺內容，而這一問題的答案就在於視覺分析技術。視覺分析就是處理並理解視頻內容的過程，而這一技術發展的重點在於在識別過程中如何確定視頻內容中的對像並進行分類。

視覺理解的應用範疇

舉幾個視覺理解方面的例子，比如說，物體識別與辨認，情感識別，行動識別，語義分割，場景識別、幾何佈局評估等等。其中，物體與動作的識別和檢測是視覺理解技術中最基礎的部分，視覺識別技術要求能夠識別出物體的形狀輪廓，而視覺檢測技術同樣要求能夠辨認出物體在進行怎樣的活動。視覺識別中要求能識別出物體以及物體數量，而進行視覺檢測時則需要更多的要求。舉個例子，當人在移動時經過攝像機，識別技術可以知道有人正在經過攝像機，而通過視覺檢測對它的動作進行分析，可以明白這個人是在拍照。以上的這些都是機器參與並進行識別的一部分。2012年實驗室新研發出的算法使得識別準確率提高了40%，而另一項算法使得在識別方面的準確率每一年都能夠提高30%-40%。在2015年，微軟的研究讓識別錯誤率降到了3.57%。這邊研究人員也在努力推進相關的研究，而研究的一個主要目的就是發展視覺理解。但這其中也包含一些基礎的內容，如CNN建構等。

英特爾中國研究院認知計算實驗室的主要研究成果

l 人像分析與情感識別

這項技術有着廣泛的應用前景，可以與任何智能設備配合使用，還可以與增強實現技術配合使用。在過去的幾年內，實驗室建立起了一套人臉識別系統，它利用了更加科學嚴謹的算法，這一技術的發展基於英特爾本身，能夠完成人臉識別，表情識別，建立人像檔案等，我們改進了它的應用，拓展了它的應用範疇，提供了問題的解決方案, 我們同樣試圖完善我們的系統，讓它具備情感識別功能，因爲在人像識別中，情感識別功能非常重要，它對於智能計算和智能系統的建立至關重要。實驗室發明了世界領先的ILC互動式人臉分析技術，它能夠捕捉面部的肌肉活動，基於這個識別方法，實驗室研究團隊獲得了2015情感識別挑戰大獎，這一獎項是主要是基於音頻視頻內容的情感識別。共有來自世界各地的74家隊伍參加了這次比賽，在多個挑戰項目中，基於音頻視頻內容的識別挑戰最有難度，因爲它需要非常複雜的技術。

l 基於視覺認知的機器學習

基於視覺識別的深度學習，實驗室開發了高效的CNN算法模型。這一技術非常有效，設計中各個元素在識別情感中彼此互補，在識別7種表情的任務中，準確率達到了53.8%，這得益於實驗室團隊在過去的四年中的努力。有人可能會問，視覺理解在視覺認知中只是一個最基礎的技術，那麼還有哪些是更具有挑戰性的任務呢？答案是機器學習、視覺分析和多模態情感識別。這是一個更爲快速的功能，是一個基於目標檢測的方案。該方案十分重要，融合了各種高效的方法，靈活地應用了低端的邊角，中部的主體，和高端的芯片，在一個漂亮的二維空間裏呈現出一個動態的圖像。因此能夠直接掃描和處理目標圖像。這個高效的方案可用於生成閱讀指南和目標檢測。這個方案有兩個優勢。首先，它擁有最先進的閱讀指南存儲功能，從指南中無法發現機器檢測正在運行的工作。其次，檢測工作能夠更有效利用空間，花費更短的檢測時間。這個方案顛覆了原本的連接金字塔，這一框架將基於地區和不基於地區的方法統一起來，彌補它們各自的劣勢，突破性地解決了兩個根本性的問題。首先，它的多維度目標定位功能憑藉倒轉的連接金字塔能夠檢測出不同維度的目標。其次，它有着高效的實體空間挖掘功能，以目標爲網絡的核心，顯著地減少了物體的第二空間。目標對象跨越的維度很大，該方案呈現出來的是對象的集合，呈現出倒置的圖像，不管是在精確度還是運行速度上，性能都是十分突出的。這也被今年的城市計劃報道了。

l 視覺分析和多模態情感識別

在分析視頻內容時，會對視覺, 說話方式, 語言, 甚至國籍進行識別, 以便於機器對於內容更好分析,這一技術讓自動爲圖片和視頻內容添加說明成爲可能，也讓視覺問答技術的發展成爲可能，這都得益於實驗室的研究成果。而在視頻字幕和多模型分析方面，實驗室正在從事一個更爲創新且富有挑戰性的任務，即密集視頻字幕的研發，這一任務旨在設計出一個具有多重視覺信息和多樣字幕狀態的視頻片段。實驗室研發出了一個人工智能的密集視頻字幕方案，採用了國外視頻水平等級，融合多種設計方法。舉一些例子，在下面這個視頻中，可以製造出不同部分的描述。比方說在第一部分中，一個帶着墨鏡的女人正在給小孩子們拍照，而在第二部分一羣人正在給馬拍照，然後在第三部分小孩子們正在接受採訪。另一段視頻，像觀衆們詳細描繪了這個船長的形象。這還有一個例子，它表明實驗室的方案可以製造出信息豐富場景多樣的視頻。實驗室可以設計出能夠採集每一秒鐘信號的模型。比方說，在前一秒一個男人正在喝酒，下一秒另一個男人在喝水，而在再下一秒，兩個男人就開始攀談了起來。程序的最後一個功能所帶來的甚至超越頂級的單個視頻字幕創造方案。大家可以看到展示的這個樣本短視頻中的底部有字幕出現。實際上研究人員可以在每個視頻中製作5個視頻片段。在這個視頻中，一個男人正在家裏做一個主題發表。如演講或非演講的表演形式都可以被展現出來。實驗室的這一努力縮短了人們瞭解圖像信息未知部分的距離。

總結

認知計算實驗室的研發結果推動了數據處理成果的發展，通過研發創新、在多個平臺間處理數據，研究人員運行了最前沿的算法，進行了機器學習的研究，獲得了多個範式的視頻數據研發成果。這就是我今天的演講，感謝大家的參與。

via 雷鋒網編輯整理

文章來源：雷鋒網

喜歡這篇文章嗎？快分享吧！