斯坦福視覺實驗室最新研究:人眼移動也可以用來探測病情!?

 2016-08-05 14:22:00.0

通過眼睛-移動基於視覺進行發育障礙分類

聯合編譯:章敏,陳楊英傑

摘要

本論文提出了一種可以將發育障礙進行細粒度分類的系統,它通過使用多模態視覺數據測量個人的眼睛-運動(eye-movements)。雖然設計該系統的目的是解決精神問題,但我們相信它的基本原則和一般方法不僅可以吸引精神科醫生,還可以吸引醫療機器視覺方面的研究人員和工程師。其想法是從不同的視覺來源(捕獲的信息不包含在任何一種方式中)中建立未來。通過使用一個眼睛追蹤器(eye-tracker)和一個監視兩個人說話過程的攝像頭,我們建立了時間注意力特徵以描述一個人的語義位置(專注於相對於對方的臉)。在我們的臨牀背景下,這些時間注意力特徵,描述了病人在就診醫生面部的精細離散區域的目光,並用於分類病人特殊的發育障礙。

簡介

自閉症譜系障礙(ASD)是增加患病率和實質性社會影響的重大發展障礙。在早期的診斷中做出最大努力,是正確治療的關鍵。此外,ASD也是一種高度異質性的疾病,這使診斷過程特別的麻煩。目前,鑑定ASD需要一套認知測試和幾個小時的臨牀評估,其中了包括廣泛的測試參與者,並且需要觀察他們的行爲模式(例如,他們與他人的社會交往)。用計算機輔助技術識別自閉症是重要的目標之一,它有可能降低診斷成本和提高標準。

在本次工作中,我們致力於脆性X綜合徵(FXS)。FXS是最普遍的由於遺傳造成的自閉症,在美國大概有100,000人受到了它的影響。個人FXS具有一系列的發育和認知障礙,包括執行功能障礙,視覺記憶和知覺障礙、躲避社交,溝通障礙和重複行爲。尤其是,在ASD比較一般行爲中,社交時迴避他人的視線是個人FXS最突出的行爲特徵。FXS是學習ASD最重要的因素之一,因爲一個單一的基因突變時很容易就可以診斷出來。爲了達到我們的目的,集中於FXS意味着真實的診斷是可用的,並且感染組中症狀異質性也減少了。

對於語言發展,情感識別,社會參與,和通過分享注意力的一般學習等方面,保持適當的社會凝視是關鍵所在。以前的研究表明,凝視波動在個體自閉症的特徵方面起着重要作用。在這項工作中,我們研究了在二元相互作用期間視覺注視的基本模式。特別的是,我們使用了這些模式描述不同的發育障礙。

我們解決兩個問題。第一個挑戰是,建立新的特徵來描述有着發展性障礙的參與者的優良行爲。我們利用計算機視覺和多模態數據,來捕捉在二元相互作用時詳細的視覺注視。第二個挑戰是,使用這些特徵來建立一個可以鑑別不同發育障礙的系統。剩下的文章結構如下:在第2節中,我們討論了以前的工作。在第3節中,我們描述了原始數據:它的收集和傳感器的使用。在第4節中,我們描述了內置的功能,並且進行了分析。在第5節中,我們描述了自己的分類技術,實驗和結果。在第6節中,我們對於結果進行討論。

 斯坦福視覺實驗室最新研究:人眼移動也可以用來探測病情!?

圖1.(a)我們使用來自一個遠程的眼睛跟蹤器和相機的多模態數據,研究有着精神障礙的參與一個採訪者者之間的社會交往。該系統的目標是利用這些數據實現發育障礙的細粒度分類。(b)一個參與者視角的視頻框架(在底部的框架中參與者的頭部是可見的)。用一個遠程眼球跟蹤器跟蹤眼球運動,並將其映射到這個視頻的空間座標系中。

2.前期工作

Rehg等人的開創性工作顯示出了採用粗凝視信息測量ASD兒童相關行爲的潛力。然而,這項工作沒有以自動化的方式,解決ASD和其他疾病之間的細粒度分類問題。因此,我們通過多模態數據,擴展了一種障礙分級的方法。此外,一些之前在發展障礙方面的努力如癲癇和精神分裂症,依賴於使用腦電圖(EEG)進行記錄。這種方法非常精準,但它要求進行長時間的記錄;此外,利用腦電探針定位參與者的頭皮和麪部會,會限制發育人羣的適用性。同時,眼動跟蹤一直被用來研究自閉症,但我們沒有意識到,用一個自動化系統使用眼動跟蹤進行跨障礙的評估(如這裏提出的一樣)。

3.數據集

我們的數據集包括70個臨牀醫生訪談參與者的視頻,覆蓋了參與者的視線(作爲通過一個遠程眼睛跟蹤器的測量),首次在[ 6 ]進行了報道。

參與者被診斷爲特發性發育障礙(DD)或脆性X綜合徵(FXS)。患有DD的參與者顯示出了與患有FXS參與者相同水平的自閉症症狀,但沒有一個診斷出有FXS或任何其他已知的遺傳綜合徵。已知FXS的參與者之間存在性別相關的行爲差異,所以我們進一步細分這一羣體的性別爲男性(FXS-M)和女性(FXS-F)。在DD組沒有性別相關的行爲差異,而基因測試證實DD參與者沒有FXS。

參與者的年齡都是在12到28之間,有51個FXS參與者(32個男人,19個女人)和19個DD參與者。這兩組在時間和發育年齡上進行了很好的匹配,它們在文蘭適應行爲量表(VABS)上有着類似的平均得分,一個發展功能行之有效的措施。患有FXS的人平均得分是58.5,而控制的人是57.7(SD=16.78),折表明這兩個羣體的認知功能水平比典型平均值爲低2-3 SDs

參與者會被臨牀培訓的實驗者一一採訪。在我們的設置中,相機被放置在病人的後面,面對採訪者。圖1描述了採訪的配置,和物理環境。眼球運動使用Tobii X120遠程角膜反射的眼睛跟蹤進行記錄,從場景攝像機時間同步輸入。通過病人看着已知採訪者之前的一組位置,眼睛跟蹤被空間校準到遠程攝像機。

4.視覺注視特徵

我們的工作目標是設計一個特徵,它可以同時洞察這些障礙,並可以在他們之間進行精準的分類。這些特徵是我們系統的構建塊,而關鍵的挑戰是從原來的眼動追蹤器和錄像中,恰當地將他們最有意義的部分提取出來。我們捕捉到參與者的目光和它在採訪中臉部的分佈,在整個面試中5次/秒。有6個相關的地區:鼻子,左眼,右眼,嘴巴,下頜,外表。這些細粒度特徵的精確檢測,可以確保我們在更小規模的變化中研究參與者的注視。對於每一個視頻幀,使用基於部分模型,我們在發現了一組69個採訪者臉上的標誌。圖1顯示了具有里程碑意義的檢測實例。我們總共處理了14414790個標誌。分別計算了DD,FXF-女人,FXS-男人組 59K,56K和156k的幀。我們評估了1K隨機選擇的幀樣本,其中只有一個單一的幀被註釋錯誤了。我們用一個線性轉換器,將眼睛跟蹤座標映射到面部的標誌座標。我們的特徵採取的標籤的集羣(例如顎)是最接近於參與者凝視的標誌。接下來,我們提出了一些關於這些數據的描述性分析。

 斯坦福視覺實驗室最新研究:人眼移動也可以用來探測病情!?

圖2.注意臉部的時間分析。X軸代表幀中的時間(增量爲0.2秒)。Y軸代表每一個參與者。黑點代表參與者看着採訪者臉部時的時間點。白色的空間意味着他們不是。

特徵粒度.我們想分析我們的細粒度注意力特徵的相關性。參與者(尤其是那些患有FXS的人)只花了一小部分的時間看着採訪者的臉。分析個人看着採訪者的臉時的時間序列數據(見圖2),我們觀察到了高組間參與者的差異,例如大多數FSX-F個體序列可以很容易與其他組混淆。

臨牀醫生往往認爲注視的分佈,不只是純粹的缺乏臉部注視——似乎和一般的自閉症症狀[ 8相關。圖3中的分佈支持了該觀點:DD和FXS-F很相似,而FXS-M是不同的。FXS-M主要集中在嘴(4)和鼻子(1)區域。

 斯坦福視覺實驗室最新研究:人眼移動也可以用來探測病情!?

圖片3.各種障礙的視覺注視直方圖。X軸代表注視,從左至右:鼻(1),左眼(2),眼右(3),口腔(4),頜(5)。直方圖計算了所有參與者的數據。爲了方便的可視性我們移除了非臉部的注視。

注意轉換.除了注視的分佈,臨牀醫生也認爲,注視的順序描述了基本的行爲。特別是,FXS參與者經常快速瀏覽臉部,然後移開,或掃描非眼睛的區域。圖4以熱量的形式顯示了區域之間的轉換。兩個不同的障礙之間有着標誌性的不同:患DD的人做出更多的轉變,而那些患FXS的人表現明顯更少——與臨牀直覺相一致。臉部區域之間的轉換,相比於從非臉部到臉部區域的轉換可以更好地識別三個組。FXS-M的參與者傾向於在嘴和鼻子之間頻繁的交換目光,而其他兩個則不會。DD的參與者在面部區域之間表現出更多的運動,沒有明顯的偏好。FXS-F的模式類似的DD,雖然模式不太明顯。

 斯坦福視覺實驗室最新研究:人眼移動也可以用來探測病情!?

圖4  矩陣的感知轉換障礙。每個方塊[i j]代表每組參與者的注意力從狀態i轉移到狀態j的聚合次數。座標軸代表不同的狀態: 非人臉區域(0),鼻子(1),左眼(2),右眼(3),嘴(4),下巴(5)。

近似熵.我們接下來預估近似熵(ApEn)的分析結果,來提供一種可以預測序列的手段。信號中的低熵值表示高度規律性。對於每個類別(DD,FXS-Female,FXS-Male),我們挑選15組隨機的參與者序列。我們通過不同的w (滑動窗口長度) 計算ApEn。圖5描述了這一分析。我們可以看到人與人之間有巨大的差異,許多都與其他組別的參與者有類似的熵。數據序列的高可變性使他們難以進行分類。

 斯坦福視覺實驗室最新研究:人眼移動也可以用來探測病情!?

圖5 (a)-(c) 對每個不同的數據窗口長度參數w對應數據的ApEn分析。Y軸代表ApEn,X軸代表參數w。每一行代表一位參與者的數據。我們觀察到個體間的巨大差異性。

 5 .分類器

這項工作的目標就是創造一個用來從原始圖像信息對發育障礙進行分類的端對端系統。目前爲止,我們已經介紹了捕捉社會感知信息和分析它們瞬時結構的特性。接下來我們需要構造能夠優化這些特性的方法,用來預測病人的具體發育障礙。

Model (RNN). 遞歸神經網絡(RNN)是一種前反饋神經網絡對順序的概括。我們的深度學習模型是由Hinton等人提出的感知增強型遞歸神經網絡結構的自適應模型。(LSTM+A). 這個模型已經在其他領域得到了非常矚目的成果,必入語言模型和語音處理。我們的特徵序列非常符合數據模型。另外,一個加密解密遞歸神經網絡結構能讓我們有效地試驗變化長度的序列。我們的實際模型與LSTM+A有兩種不同。第一,我們用GRU細胞代替了LSTM細胞,他們可以節省內存並更佳符合我們的數據。第二,我們的解碼器產生一個單獨的輸出值(例如類)。解碼器是一個有soft-max輸出層的單元多層遞歸神經網絡(未展開)。一般來說它可以被視作多對一的遞歸神經網絡,但我們常把它表示成基於距離並採用感知機制的結構。

在我們的實驗中,我們使用三種遞歸神經網絡結構:RNN_128: 3層128單元;RNN_256: 3層256單元;RNN_512: 3層512單元。這些參數基於我們的GPU內存分配限制被選出來。

我們模型的訓練總數達到一千次,對系列結果進行分批處理,使用了動量最陡梯度下降法(SGD)和最大斜率(0.5)

其他分類器.我們也訓練淺基準分類器,利用卷積神經網絡(CNN)的方式,可以發揮出我們數據的local-temporal關係。它是一個有6個卷積單位逐點非線性捲曲構成的隱藏層。特徵向量交叉計算串聯單位,併產生由另一個串聯功能近似轉換得來的輸出層。我們也訓練支持向量機(SVMs),樸素貝葉斯(NB)分類器,和隱馬爾科夫模型(HMMs)。

 6 .實驗與結果

通過改變在第五節中描述的分類方法,我們對系統整體進行了定量評價。我們假設病人的性別已知,並選擇臨牀相關的組合對比分類試驗DD vs FXS-F和DD vs FXS-M。實驗中,我們使用32 FXS-male,19 FXS-female和19位DD參與者。爲了在訓練和測試中保持平等的數據分佈,我們構建了Strain 和Stest 來隨機打亂每組的參與者,以確保兩個參與者類別按50% / 50%分佈。在每一個新訓練/測試子集中,這個過程不斷重複,這樣平均的分類結果就可以代表整組參與者。我們給定個體的時間序列特性數據p,對有發育障礙的參與者進行分類,來評估我們的系統的精度。對N而言,所有的參與者,我們創建一個80% / 20% 培訓/測試數據集,這樣就不會有參與者的數據的會被兩個數據集同時共享。對於每個實驗,我們執行10級交叉驗證,這裏每級被定義爲一個新的隨機子集,參與者按80/20分隔—每個實驗大約有80位參與者被測試。

斯坦福視覺實驗室最新研究:人眼移動也可以用來探測病情!?表1 本系統與其他分類器的精度對比。列表示參與者對於DD vs FXS-female和DD vs FXS-male二進類分類精度。分類器分別以3秒、10秒和50秒的時間窗口運行。我們將系統分類器,RNN和CNN,SVM,NB,HMM算法進行對比。

 指標.我們把一個未知參與者的二進制分類器視作DD or FXS。我們採用一種投票策略,這裏給定一個病人數據 p = [f1,f2,....fT],我們通過時間窗口的方式,對所有修正長度w的p的子序列s進行分類。在我們的實驗中,w對應3秒、10秒和50秒的視頻步長。爲了預測參與者的障礙,我們對每種類別採用一種max-voting體系。參與者的預測類C定義爲:

 斯坦福視覺實驗室最新研究:人眼移動也可以用來探測病情!?

其中C1,C2 ∈ {DD,FXS-F,FXS-M},Class(s) 是給定輸入s時分類器的輸出。我們使用十個交叉認證元來計算分類器平均精度。

結果顯示在表1中。我們發現,在50秒的時間窗口下使用RNN_512模型可得到最高的平均精度。我們懷疑RNN_512產生的矚目結果與高容納能力和表示複雜瞬時結構的能力有關。

 7 .結論

我們闡釋了在一個高成本效益系統中,使用計算機視覺和機器學習技術來輔助診斷髮育障礙,在社交中表現出的視覺表型表達。觀察有發育障礙的試驗者,通過錄像或近距離的眼球捕捉來收集實驗數據。我們建立起顆粒感知對應的視覺特徵,並利用其發展出分類模型來FXS和先天發育障礙。儘管在使用的信號中發現了很高的方差和噪聲,我們的高精度意味着數據中瞬時結構的存在。

這項工作在概念上證明了現代計算機視覺系統在輔助診斷髮育障礙的能力。我們能夠基於短距離眼動記錄,對具體的發育障礙診斷提供一個高概率性預測。這個系統,以及其它類似的,可以顯著加快個體篩查。未來的工作將考慮此功能擴展到更大的疾病範圍,並提高分類精度。

via:斯坦福視覺實驗室

 PS : 本文由雷鋒網(公衆號:雷鋒網)獨家編譯,未經許可拒絕轉載!


斯坦福視覺實驗室最新研究:人眼移動也可以用來探測病情!?

文章來源:雷鋒網