專訪閱面科技童志軍:FDDB、LFW雙奪冠的人臉識別技術

 2017-07-25 15:30:00.0

人工智能領域有很多比賽,近年來,隨着領域不斷升溫,在學術界之外,很多技術創業公司也開始參加各種大賽,來證明自己的技術實力。除了火熱的各種機器人比賽之外,在深度學習、機器視覺等領域的算法比賽也逐漸被人關注。「人臉識別」作爲機器視覺中重要的應用領域,肯定也少不了。說到人臉識別,首先,先介紹兩個老牌的比賽:

  • FDDB

FDDB的全稱爲Face Detection Data Set and Benchmark,是由馬薩諸塞大學計算機系維護的一套公開數據庫,爲來自全世界的研究者提供一個標準的人臉檢測評測平臺。它是全世界最具權威的人臉檢測評測平臺之一,包含2845張圖片,共有5171個人臉作爲測試集。

測試集範圍包括:不同姿勢、不同分辨率、旋轉和遮擋等圖片,同時包括灰度圖和彩色圖,標準的人臉標註區域爲橢圓形。值得注意的是,目前FDDB所公佈的評測集也代表了目前人臉檢測的世界最高水平。

  • LFW

LFW全名Labeled Faces in the Wild,是由馬薩諸塞大學於2007年建立,用於評測非約束條件下的人臉識別算法性能,是人臉識別領域使用最廣泛的評測集合。該數據集由13000多張全世界知名人士互聯網自然場景不同朝向、表情和光照環境人臉圖片組成,共有5000多人,其中有1680人有2張或2張以上人臉圖片。每張人臉圖片都有其唯一的姓名ID和序號加以區分。

LFW測試正確率,代表了人臉識別算法在處理不同種族、光線、角度、遮擋等情況下識別人臉的綜合能力。

這兩個比賽使得人臉檢測和人臉識別真正從學術界走向工業界,達到實用的精度。目前爲止,這兩個比賽已經吸引了國內外很多技術團隊參加,其中包括Google、Facebook、微軟亞洲研究院等頂級的工業界與學術界團隊,以及百度、騰訊、商湯、Face++等國內團隊。

5月20日,根據人臉檢測評測平臺FDDB公佈的數據排名顯示,來自中國的人工智能公司閱面科技(ReadSense)在衆多的優秀競爭者中拔得頭籌,當時雷鋒網也對此事進行了報道。

6月末,LFW公佈了最新的測試結果,閱面科技的人臉識別技術以99.82%的識別精度獲得第一名。

由此,這家創業公司成爲了史上第一個在FDDB和LFW同時奪冠的團隊。爲此,雷鋒網(公衆號:雷鋒網)採訪了閱面科技算法總監童志軍,從技術的角度瞭解了一下關於閱面科技在這兩次比賽中所獲突破的技術細節。

FDDB小尺寸的突破

根據FDDB官方發佈的人臉檢測技術報告顯示,指標曲線包含離散和連續兩個,而這兩個指標閱面科技都獲得了第一,關於這兩個指標的實際意義,童志軍介紹說:

人臉檢測離散指標更注重評測算法的檢測率,只要算法預測檢測框和官方提供的GroudTruth的IOU(intersection-over-union)大於0.5就可以。

連續指標除了評測算法檢測率,還對框的擬合程序作了細化的比較,屬於細粒度的評測。

實際使用中更關注離散指標,只要能檢測到人臉就達到實用要求,這主要是因爲人臉檢測後續都會加上人臉關鍵點定位來做細粒度的對齊。

專訪閱面科技童志軍:FDDB、LFW雙奪冠的人臉識別技術專訪閱面科技童志軍:FDDB、LFW雙奪冠的人臉識別技術

△FDDB官方發佈的人臉檢測技術曲線

而此前據雷鋒網瞭解:閱面科技在FDDB上提交的全新檢測算法突破了小尺寸、模糊和動態人臉檢測的極限。

關於這個「小尺寸」,童志軍向雷鋒網解釋說,小尺寸主要是分辨率在10*10以下的模糊人臉檢測,而這類的檢測在安防應用領域很常見。

爲了解決小尺寸、模糊和動態人臉檢測的問題,閱面科技團隊自己採集了特定場景的數據,和跟客戶合作累積的數據相結合,形成了基於實際場景的百萬級的人臉數據,並且使用這些數據訓練基礎模型,在網絡模型設計中引入高低層特徵聯合、多尺度融合、負樣本挖掘等策略,重點解決較爲棘手的小尺寸、模糊和動態人臉檢測難題,從而提高了小尺寸模糊人臉的檢測率。

LFW高精度識別和難點

在FDDB之外,閱面科技在LFW數據集以達到99.82%±0.0007人臉驗證精度奪冠,據雷鋒網瞭解,LFW人臉識別(1:1驗證)實際評測時包含3000個正pair和3000個負pair,把6000個pair分爲10組,而閱面科技的的驗證結果正式採用10次交叉驗證的方式得到平均識別率爲99.82%,標準差爲±0.0007。

專訪閱面科技童志軍:FDDB、LFW雙奪冠的人臉識別技術

△LFW測試結果

而之所以能夠得到如此高的精度,童志軍說,在閱面提交的人臉識別算法是以改進版的殘差網絡爲基礎,訓練數據來自內部收集的千萬級的人臉數據,訓練過程中同時加入識別和驗證兩種監督信號保證同一個人的類內距離更小,不同人的類間距離更大。由於人臉五官具有明確的語義信息,閱面採用的多模型融合版本最終得到了98.82%的精度。

聽起來好像輕描淡寫地就把識別率提升了,其實在實際操作過程中還是碰到了一些難題,童志軍向雷鋒網舉了個例子:

我們兩個比賽都是使用基於深度學習的算法,通過「增加更多數據、加深網絡規模」得到一個不錯的「Baseline」之後,發現進一步增加數據和網絡層數並不能帶來提升,算法性能到了一個瓶頸。

後來我們仔細分析了一些測試的「bad case」,並對網絡做了可視化,有針對性的調整網絡結構,最終以50層的網絡規模達到別人300層網絡的精度。

雖然精度已經達到了上述高度,但在實際應用中還有一些難點需要攻克,比如實際應用複雜光照(過曝、暗光)下的人臉識別、跨年齡段的人臉識別都是急需攻克的難點。童志軍告訴雷鋒網,閱面的團隊目前主要解決了大部分複雜光照下人臉識別精度低的問題,通過3D人臉模型和生成對抗網絡的方式合成特定光照的人臉,增強模型的魯棒性,其他也都在陸續努力解決中。

人臉識別深度學習優勢

人臉識別曾經在業界有一個比較普遍的說法,認爲深度神經網絡「層數越深,精度越高」,但是這種說法似乎在人臉識別這個領域並不是絕對的,對此,童志軍認爲:

在通用物體檢測識別中,往往層數越深,精度越高,但由於人臉相比於通用的物體具有很強的先驗知識,比如說人臉的五官分佈普遍一致,更好地挖掘這些有效信息,往往能收到事半功倍的效果。

可以說在人臉檢測和識別上,並不一定需要很深的層數也能達到很高的精度。

據童志軍介紹,閱面相比於其他團隊在深度學習算法上的優勢在於,閱面更偏向於嵌入式的深度學習算法研發,這其中包括半監督的數據清洗和挖掘引擎,多機多卡的雲端訓練引擎,移動端深度學習加速引擎等等,使得深度學習算法在移動端也能夠實時動態、低功耗、低成本地跑起來。

關於技術落地

閱面科技成立於2015年,公司的核心研發團隊由來自阿里、百度、以及卡內基梅隆大學的頂尖人工智能研發人員組成,專注深度學習和嵌入式方案,致力於解決視覺識別問題。而在這兩個比賽中獲得的成績,也是對他們本身技術的一種肯定,隨着自研的人臉識別技術得到越來越多來自國際的權威認證,閱面科技也逐步將技術落地。

閱面科技的核心技術目前已經廣泛應用於消費電子、智能安全、智能商業等領域。

而在技術落地的過程中,確實還會存在着一些難題,比如,在實際場景中複雜背景、不可逆物體形變等影響給算法精度帶來的挑戰等等,對此童志軍說,他們的團隊也正在努力解決這些「落地的難題」:

我們內部會有一個海量數據訓練的基礎模型,會針對不同場景做微調;另外我們還會建立數據迴流機制,不斷強化基礎模型的泛化性。

閱面科技在人臉檢測和識別領域還會繼續深耕,假以時日,相信能取得更大的成果。

文章來源:雷鋒網