學術明星Michael Jordan解讀:思維層與數據科學革命的關係

 2016-08-30 18:30:00.0

聯合編譯:Blake、高斐

編者注:Michael I. Jordan教授是加州大學伯克利分校(University of California, Berkeley)電子工程系、計算機科學系以及統計系的傑出教授。他在亞利桑那州立大學(Arizona State University)獲得了數學碩士學位,並且在1985年從加利福尼亞大學聖地亞哥分校(University of California, San Diego)獲得了認知科學博士學位。自1988年到1998年,Michael I. Jordan在麻省理工學院(MIT)任教授,他的研究方向包括了計算學、統計學、認知及生物科學,最近幾年集中在貝葉斯非參數分析、概率圖模型,譜方法、分佈式計算系統中內核機及其應用問題、自然語言處理、信號處理和統計遺傳學等問題上(幾乎涵蓋了大部分機器學習中的內容)。

學術明星Michael Jordan解讀:思維層與數據科學革命的關係

Michael I. Jordan教授是美國科學院院士(National Academyof Sciences)、美國工程院(National Academy of Engineering)院士和美國藝術和科學學院(American Academy of Arts and Sciences)院士。他被數理統計研究所任命爲Neyman Lecturer 和Medallion Lecturer。在2016年,他獲得了IJCAI卓越研究獎。之前的2015年,他獲得了David E. Rumelhart獎;在2009年,他獲得了ACM/AAAI的Allen Newell獎。同時,他是AAAI、ACM、ASA、CSS、IEEE、IMS、ISBA和SIAM的成員。

曾在Michael I. Jordan教授學習過的不少學生已有不少成長爲領域中的大牛,包括深度學習中的大神、蒙特利爾大學教授Yoshua Bengio,現任百度美國研究員首席科學家、斯坦福大學教授Andrew Ng(吳恩達),還有學界大牛斯坦福大學教授Percy Liang等人。本文是Michael I. Jordan教授在UC Berkeley有關計算思維推理思維還有數據科學的演講內容整理。

學術明星Michael Jordan解讀:思維層與數據科學革命的關係

學術明星Michael Jordan解讀:思維層與數據科學革命的關係

論計算思維、推理思維和「數據科學」

Michael I Jordan

加州大學伯克利分校(University of California, Berkeley)

學術明星Michael Jordan解讀:思維層與數據科學革命的關係

舉例:一份工作描述(大約在2016年)

如果你是一名來自伯克利的畢業生,當你畢業之後去硅谷可能會遇到的需求。

  • 老闆:「我需要一個大數據系統,使用個性化的服務來替換原來的經典服務。」

  • 「這個系統對於任何一個人來說都要良好運行,我可以接受一點點錯誤但是不能有那些會讓我們尷尬的愚蠢錯誤。」

Michael I Jordan:這意味着要將你的錯誤率降到特別低的程度,如果正確率有99%,那另外1%的用戶遇到那些錯誤也是相當龐大的一個數字。

  • 「它應該和原來的經典服務運行的一樣快。」

Michael I Jordan:不能比原來的服務慢,而且還要在適當的預算中。

  • 「當我們收集到更多的數據時它只能變快,特別是不能變慢。」

Michael I Jordan:當數據量增加時,錯誤率也會相應的增大,不一定數據越多速度會越快。

  • 「在這個方面會有很多人關注嚴隱私層面的問題,這些人裏面包含很多不同的客戶。」

學術明星Michael Jordan解讀:思維層與數據科學革命的關係

觀念上的挑戰

  • 數據科學十分要求計算思維推理思維的完全融合(推理思維出現才300年左右,已經開始擁抱各種思想,可以互相融合)

  • 計算思維意味着什麼

抽象、模塊化、可擴展性、魯棒性等

  • 推理思維意味着什麼

在數據背後考慮真實世界的現象問題

考慮到產生數據的採樣模式

開發程序將從數據「向後」反推到底層現象

學術明星Michael Jordan解讀:思維層與數據科學革命的關係

這些挑戰令人畏懼

  • 計算科學與統計中的核心理論是分別發展的,存在一個油與水的問題(互不相容的因素) 

  • 核心統計理論中沒有運行時間和其它計算資源的位置

  • 核心計算理論中沒有統計風險的位置

學術明星Michael Jordan解讀:思維層與數據科學革命的關係

警告:前方需要大量數學知識

學術明星Michael Jordan解讀:思維層與數據科學革命的關係

第一部分——推理與隱私

學術明星Michael Jordan解讀:思維層與數據科學革命的關係

隱私和數據分析

  • 人們一般不願意他們的個人數據在不受控制的情形下被使用,同時會擔心他們的隱私將會損失多少。

  • 「隱私損失」能夠進行量化

  • 我們想要將隱私損失與我們能從「數據分析」中所得的價值進行交易

  • 問題就變成了將這些價值進行量化並將其與隱私損失並列在一起

學術明星Michael Jordan解讀:思維層與數據科學革命的關係

隱私

疑問——數據庫——私人數據庫

計算思維,但不是推理思維(舉例:數據給出的是人們的年紀、身高、體重以及血壓,是否應該他們藥物治療,他們還能活多久?)

學術明星Michael Jordan解讀:思維層與數據科學革命的關係

推理思維

將兩者融合起來

隱私碰上推理問題

學術明星Michael Jordan解讀:思維層與數據科學革命的關係

私人數據分析極大極小論

  • 讓n來表示數據點的量,d來表示參數空間的維度,a表示不同的隱私參數

  • 原理:如果我們將n替換成有效地樣本大小,隱私意識極大極小風險與經典的極大極小風險相同

學術明星Michael Jordan解讀:思維層與數據科學革命的關係

簡介:隱私均值估計

  • 舉例:患者上醫院的估計原因

  • 藥物濫用入院治療的患者

  • 對引發患病率不同的物質預估

學術明星Michael Jordan解讀:思維層與數據科學革命的關係

簡介:均值估計

學術明星Michael Jordan解讀:思維層與數據科學革命的關係

優化機制?

  • 非隱私觀察:人們有時不想分享一些隱私數據,對此,我們應當通過什麼辦法進行隱私數據分析?

  • 觀點1:增加重尾噪音,以獨立噪音(例如,拉普拉斯機制)爲例,通過這種途徑,便能夠獲得一手數據

學術明星Michael Jordan解讀:思維層與數據科學革命的關係

優化機制

  • 從集合{0,1}中統一提取隨機向量v

學術明星Michael Jordan解讀:思維層與數據科學革命的關係

  • 統一從集合{0,1}中提取v

  • 當概率爲  時,其中α爲微分隱私參數,選擇接近X的v和1-v

  • 否則,選擇遠離X的v和1-v

學術明星Michael Jordan解讀:思維層與數據科學革命的關係

實證證據

額外數據爲綠色曲線,對應對數刻度的藍色曲線反映了該優化機制。綠色曲線和藍色曲線的走勢顯示出額外數據與優化數據之間明顯的差異。

估計由於不同原因進出急診室的比例

數據源:濫用藥物預警網絡

學術明星Michael Jordan解讀:思維層與數據科學革命的關係

第二部分:推理與壓縮

學術明星Michael Jordan解讀:思維層與數據科學革命的關係

溝通約束

  • 大數據現象使分佈式存儲數據具有必要性(因而,Michael在數據分析系統中對數據添加一定的限制,即壓縮(compression))。

  • 獨立數據收集(例如,醫院)

  • 隱私

設置:每一個m智能體的樣本數量爲n

信息傳輸到融合中心

問題:溝通與統計效用之間的權衡?

學術明星Michael Jordan解讀:思維層與數據科學革命的關係

何爲大數據現象?

  • 驗證模式的科學(例如,粒子物理學)

推理問題:存在大量干擾性變量

  • 解釋模式的科學(例如,天文學,基因組學)

推理問題:存在大量的假說

  • 衡量人類活動,尤其是在線活動,將產生大型數據集,這些數據集可用於個性化或用於開拓市場

推理問題:許多不爲人知的取樣框架(具有多樣性),複合式損失函數

  •  存在計算方面的問題

最爲顯著的是,計算方面的問題與推理方面的問題相互影響。

學術明星Michael Jordan解讀:思維層與數據科學革命的關係

極大極小溝通理論(Duchi, Jordan, Wainwright & Zhang, 2015)

  • 將be 限制在B比特範圍內

  • B約束範圍內溝通的最大最小風險如上圖所示。


學術明星Michael Jordan解讀:思維層與數據科學革命的關係

簡介:均值估計

  • 在正態局部集θ中計算平均估計值

  • 原理:當每一個智能體的樣本數量爲n時,最大最小率如上圖所示。

學術明星Michael Jordan解讀:思維層與數據科學革命的關係

 原理:當每一個智能體的樣本數量爲n時,B約束範圍內溝通的最大最小率如上圖所示。

學術明星Michael Jordan解讀:思維層與數據科學革命的關係

討論

  • 在處理數據科學問題中出現了許多概念數學上的挑戰

  • 面臨這些挑戰要求在「計算思維」和「推理思維」中建立良好的聯繫

在計算和推理領域的基礎層面建立聯繫

相關閱讀

深度學習鼻祖Geoffrey Hinton幫你入門帶你飛

深度學習大神Yoshua Bengio經典前瞻演講,幫你打通深度學習的任督二脈

深度學習元老Yann Lecun詳解卷積神經網絡

秒懂!何凱明的深度殘差網絡PPT是這樣的|ICML2016 tutorial

PS : 本文由雷鋒網(公衆號:雷鋒網)獨家編譯,未經許可拒絕轉載!

via Michael I. Jordan

學術明星Michael Jordan解讀:思維層與數據科學革命的關係

文章來源:雷鋒網