第十三屆圖像圖形技術與應用學術會議 ,張廣軍院士等學者報告其多年研究工作

 2018-04-15 22:21:00.0

第十三屆圖像圖形技術與應用學術會議 ,張廣軍院士等學者報告其多年研究工作

雷鋒網 AI 科技評論:2018 年 4 月 8 日至 10 日由北京圖象圖形學學會主辦,北京航空航天大學承辦的「第十三屆圖像圖形技術與應用學術會議」(IGTA 2018)在北京航空航天大學成功舉辦。

本次大會由北京理工大學王涌天教授、北京航空航天大學姜志國擔任大會主席,北京航空航天大學趙沁平院士、中科院自動化研究所譚鐵牛院士擔任大會名譽主席。雷鋒網(公衆號:雷鋒網)瞭解到,會議共收到 138 篇投遞論文,錄用 87 篇,其中 64 篇英文論文。本次會議共有 200 多人與會。在三天的議程中,共包含

4 場特邀報告:

張廣軍:動態視覺測量與工程應用

Jeremy M. Wolfe:Why didn't I see that? The role of attention in visual search errors

劉成林:文檔圖像識別研究現狀與趨勢

劉燁斌:動態場景三維重建技術:便捷性與實時性

4 場高峯論壇報告:

張豔寧:高分辨率圖像智能處理技術

童欣:從交互圖形學到智能圖形學

周昆:Computer Graphics 2.0:towards end-user-generated 3D contents

王亮:Analysis and Understanding of Big Visual Data

6 場 CVPR 頂會論文報告:

宋純鋒(自動化所):Mask-guided Contrastive Attention Model for Person Re-Identification

黃鑫(北大):Deep Cross-media Knowledge Transfer

段嶽圻(清華):Deep Adversarial Metric Learning

楊文瀚(北大):Erase or Fill? Deep Joint Recurrent Rain Removal and Reconstruction in Videos

王培鬆(自動化所):Two-Step Quantization for Low-bit Neural Networks

黃永業(北郵):SketchMate: Deep Hashing for Million-Scale Human Sketch Retrieval

此外還有一系列接收論文的交流報告。

下面爲特邀報告和高峯論壇報告的詳細內容。

特邀報告

1、動態視覺測量與工程應用

東南大學校長張廣軍院士作爲本次會議的特邀講者,做了首場特邀報告。在一個小時左右的報告中,張廣軍院士簡要介紹他十多年的主要研究成果。

張廣軍院士在報告中提到隨着我國航天、國防、鐵路等領域快速發展,如何能夠實時、精確、動態地測量物體(例如衛星、導彈、高鐵等)的三維形貌、位置和姿態成爲迫切急需的核心技術之一,這決定着高端裝備的性能和安全。而動態視覺測量,即爲採用計算機視覺和幾何量測量學的方法來實現高速運動體的測量。

基於實際需求及對問題的分析,張廣軍院士及他所帶領的團隊在數十年中完成了大量相關的研究,概括來說則有三類:

1、發展了視覺測量模型與現場校準體系,提高了動態測量精度和現場適應性,並實現了星載設備小型輕量化。

2、發明了動態成像新模式和圖像信息處理新方法,提高了動態視覺測量的實時性、動態性、準確性和可靠性。

3、研製成功三類動態測量系列設備,打破了國外的技術封鎖,填補了國內空白,主要指標達到或超過了國外最好的水平。

在工程應用上,張廣軍院士列舉了三類應用,包括航天器自主姿態測量星載產品、航空裝備飛行性能動態測試站和列車運行狀況正線動態測試站等。

2、Why didn't I see that? The role of attention in visual search errors

接着來自哈佛醫學院 Jeremy M. Wolfe 教授做了關於人類注意力對視覺影像的報告。

據 Wolfe 教授介紹,我們人類無法同時識別出我們視野中的每一個物體,我們通過將注意力從一個對象轉到另一個對象,從而來尋找我們需要的東西。因此注意力在我們的視覺搜索中佔據着極爲重要的地位。

在報告中,Wolfe 教授通過三個故事生動地介紹了關於人類注意力的研究結果。

首先,他通過在圖中找物體或差異的遊戲,陳述了一個事實:對於人類視覺,在任何時候都沒有關注全部,而只是彙集到當前關注的對象上,其餘的部分只是幾個簡單要點、抽象物體或者記憶產物。

其次,他介紹一個經典實驗 The Incidental Gorilla,即當你關注視頻中傳遞籃球的遊戲時,卻沒有注意到從視頻當中走過的黑猩猩。同樣的情況也會在醫生檢查 CT 片子時發生,當他們把注意力放在尋找肺結節時,常常會忽略片子中其他的信息。這告訴我們人類的注意力搜尋引擎有時候會給我們帶來很嚴重的錯誤。

最後,Wolfe 教授通過安檢的案例介紹了 The Prevalence Problem。在安檢中通過掃描圖像能否正確地發現危險物品呢?Wolfe 通過具體的實驗數據得出結論:在低流行率下漏掉危險物品的機率大大增加,而虛警率則稍稍降低。

通過以上這些研究,Wolfe 認爲我們的「搜索引擎」並不能完美運行,有時我們無法找到我們要找的東西。當那些錯過的目標是諸如腫瘤或炸彈之類的東西時,這些錯誤就具有重要的社會意義,這個問題值得關注,如果有可能的話則需要通過別的方式來糾正。

3、文檔圖像識別研究現狀與趨勢

劉成林研究員是中科院自動化所副所長,模式識別國家重點實驗室主任。在他的報告中,劉成林研究員詳細介紹了文檔圖像識別(簡稱文字識別)的研究現狀和未來趨勢。

在報告中劉成林首先介紹了文字識別的應用背景。所謂文字識別,即將字符圖像轉換爲符號代碼,這包括文本分割、識別、上下文處理、語義信息提取等。其意義在於能夠壓縮數據,以及內容理解和語義提取等。其應用需求包括手寫字體識別、圖像中文字信息提取等,例如交通牌信息的提取對於當前自動駕駛尤爲重要。

其次劉成林介紹了文檔種類和研究問題。文檔種類大致分爲物理文檔(例如掃描書籍、交通牌等)和合成文檔(在線手寫字體等)。對於文檔的研究,依據流程,主要有圖像處理、版面分析、內容識別、語義分析和應用等。隨後他詳細介紹了這幾個方面的技術研究現狀。就像在 CV 的其他領域一樣,深度學習的方法在文字識別中也逐漸發揮着越來越多的應用,並對文字識別的性能有極大的提升。

但是目前文字識別在應用中仍然存在許多問題有待解決。例如識別精度到底需要多高才可以用?識別錯誤主要發生在什麼情況?應用中如何克服識別錯誤?文本分割/識別之處有哪些研究問題?如何更有效地構建(學習)識別系統?如何對應用場景進行擴展?……

此外,劉成林研究員還提出了幾個尚未解決的傳統問題,包括版面分析(印刷/手寫混合、多種元素、多文種、多語言、邏輯結構等)、文字認證和拒識(置信度分析、結構分析等)

對於未來的研究方向,劉成林研究員也針對基礎理論和方法論、字符識別、文本行識別、情景文字識別、應用導向等的問題。

整個報告可以說是對文字識別領域全方位的介紹。劉成林認爲文字識別的研究已經有 50 多年的歷史,在這個過程中產生了大量的研究成果,但是在實際應用中還存在很多技術的不足,需要從應用角度重新思考聚焦研究問題。

4、Real-time and Convenient Human Performance Capture

劉燁斌爲清華大學自動化系副教授,其研究方向爲視覺信息獲取與重建,包括三維重建、運動捕捉、計算攝像等。他在報告中主要介紹了他十多年來所做的一件事情:對人體進行動態的三維重建。

人類表現捕捉,也即根據多角度視頻輸入或 RGBD 序列來捕捉人體的三維幾何和一維運動。其應用場景包括電影生成、增強現實、電子會議、運動分析等領域,其目標則是能夠高精度、可編輯、大範圍、便捷且實時地捕捉人類的表現。

其講解內容包括 Depth Map Merging Based MVS、Variational MVS Pipeline、多視角立體測光、骨架驅動的 HPC、Relightable/Animatable HPC、Multi-person HPC、Hand-object Motion Capture、手持相機的 HPC、非剛性表面追蹤的 HPC、實時 4D 重建、實時 4D 融合和重建、用無人機實現重建、第四代 4D 重建等大量的工作。

劉燁斌副教授表示,基於視覺信息在空間、視角、光譜、時域、強度等的多維度,他們未來的工作將圍繞全光成像、實時構建、智能計算等方面進行深入開展。

高峯論壇報告

1、高分辨率智能圖像處理技術

西北工業大學張豔寧教授是國務院學科評議組成員,教育部「長江學者」特聘教授。在報告中張豔寧教授詳細介紹了她所帶領的研究團隊在高分辨率觀測中的研究成果。

隨着人類對近地空間的探索,分佈地球軌道上的衛星、空間站、空間碎片日益增多,對這些太空人造物體進行有效監視則極爲重要。但是利用空間平臺視覺圖像進行空間探索,依然存在光學成像分辨率受制約、圖像模糊、分辨率低等問題,現有的圖像難以滿足看得清、辨得明的應用需求。

針對這樣的問題,張豔寧教授及其所帶領的團隊認爲在硬件平臺受限、同時由於運動、抖動等造成圖像模糊等問題的情況下,應當通過計算方法實現高分辨率的圖像智能處理。報告中張豔寧教授提出了他們在空間圖像高分辨率計算成像、動態耦合降質圖像的清晰化重建等方面的創新理論和方法,其成果在提高圖像分辨率、圖像清晰化方面有極好的表現。

最後張豔寧教授還介紹了他們在圖像去噪、協同感知等方面的研究成果。

2、從交互圖形到智能圖形

童欣博士目前爲微軟亞洲研究院網絡圖形組首席研究員,研究主管,同時擔任中科大兼職教授。

童欣博士介紹到,AR&VR 技術的發展可以應用到例如探索世界、訓練和學習、工業設計、複雜任務等場景中。這其中最爲關鍵的技術就是高質量的三維內容。但是傳統的圖像內容創作一般都依賴藝術家和工程師大量的交互和手工勞動,對於普通人來說則幾乎不可能。

微軟對此的解決方案是:使用便宜的設備、大量的數據以及機器學習的方法來實現從交互到智能。童欣博士在報告中介紹了三方面的內容。

第一是 shape modeling。其目標爲根據稀疏的二維素描來自動生成三維模型。研究成果詳見 ACM TG, 36(4), 2017

第二是 material modeling and rendering。其目標爲從單一圖像能夠自動生成材料紋理。研究成果詳見 SIGGRAPH, 36(4), 2017

第三是 animation。其目標爲自動設計具有所需行爲的軟氣動機器人。研究成果詳見 SIGGRAPH,36(6), 2017

童欣博士認爲依據幾何知識、物理計算和優化、以及數據和機器學習模型,完全可以實現智能地高質量內容創作。當然這條路還很漫長,離終端用戶能夠創作高質量圖像內容還有很長的路要走。

3、Computer Graphics 2.0: towards end-user-generated 3D content

浙江大學的周昆教授,是教育部長江學者特聘教授,IEEE Fellow。研究領域包括計算機圖形學、人機交互、虛擬現實和並行計算。

周昆教授的與前面童欣博士的研究類似,他認爲在海量互聯網數據、傳感器技術、以及 VR/AR 和 3D 打印等新興應用的推動下,計算機圖形學的研究正在進入一個新的時代:每一個人在日常生活中都能夠創作屬於自己的視覺內容。

在這個報告中周昆教授舉了三個案例。

案例一:Digital Avatar。在電影《阿凡達》中,依靠 CG 技術,阿凡達可以擁有真實的面孔和頭髮;然而在一些交互應用(例如遊戲)中,幾乎沒有這樣的特效。周昆教授所帶領的團隊在 13-16 年間連續發表了多篇文章,探討了如何自動生成真實面孔以及如何從單張圖片中自動生成動態的頭髮模型。

案例二:基於模型的 RGBD 圖像。根據單張 RGBD 圖像自動生成相應場景的數字化模型。

案例三:Computational Fabrication。如何將數字模型變得更爲真實呢?在已知數字化模型的基礎上,可以通過 3D 打印的方法獲得物理模型。周昆教授團隊受到傳統上色工藝的啓發,採用仿真等方法將數字模型中的表面圖像轉化爲二維紋理,隨後可以使用相關的技術可以將圖像貼到 3D 打印物體上,構建出生動的物理模型。

周昆教授認爲,未來圖像研究主要有三個大的研究方向。首先是輸入,將沿着從點、網格、圖像、視頻、深度等方向發展;其次是輸出,將沿着數字化到實體化的方向發展;另外一個是應用,將從電影走向遊戲、APPs、VR/AR 以及 3D 打印等。這需要計算機圖形學、計算機視覺和數字製造三個領域的相互結合。

4、Analysis and Understanding of Big Visual Data

自動化所王亮研究員是模式識別國家重點實驗室副主任,主要研究領域是模式識別、計算機視覺、大數據分析等。

在報告中,王亮研究員針對視覺大數據整個領域的研究做了一個綜述性的介紹。

視覺信息對人類至關重要,隨着設備的改進,視覺數據出現爆發式增長,表現爲數據總量巨大、類別跨度多樣、性質異質性高以及質量不一。這也帶來了一系列的挑戰,例如如何獲取、如何建模、如何計算以及如何使用等,此外還有模糊、多視角、多尺度、遮掩等多樣的問題。

在整個視覺大數據的分析中,主要有三個大問題:大規模數據集、大規模視覺計算、平臺和應用。

針對大規模數據集,目前有包括 ImageNet、Microsoft COCO、Google YouTube-8M、Kinetics、Visual Question Answering(VQA)、NLPR Object Tracking、CRIPAC Pedestrian Attribute、Gait Dataset 等數據集,各個數據集都有自己的針對方向和領域。

針對大規模視覺計算,則主要包括物體檢測和分割、物體識別和檢索、運動/行爲分析、場景理解、視覺語言(Vision by Language)等。

針對平臺和應用,王亮研究員介紹了視覺圖靈測試、DIG(數據智能收集)、ISEE(智能場景演化和探索)、SIR(smart identity recognition)以及一些計算機視覺相關的公司現狀。

他總結到,現在計算機視覺已經在許多領域取得了長足的進展,但是計算機視覺相比於人類視覺還有很大差距,未來的工作需要進行一下探索:

通過模擬人類認知機制來學習人類的視覺智能;

將視覺與語言、語音等結合起來,實現統一的智能框架;

將視覺與預測、控制和規劃結合起來打造下一代類人智能機器人;

增強視覺智能在視覺大數據的嚴重噪聲下的魯棒性和普適性;

構建有效的視覺數據捕捉、存儲、大規模計算和應用的集成平臺。

雷鋒網報道。

相關文章:

IGTA 2018 | 第十三屆圖像圖形技術與應用學術會議

文章來源:雷鋒網