一票難求的清華深度學習課！我們「偷」來了全套乾貨

2017-03-23 08:00:00.0

智東西（公衆號：zhidxcom）
文 | Lina

請叫我「楊立昆」，謝謝！

這位自稱「楊立昆」的歪果仁真名Yann LeCun，被業界稱爲「卷積神經網絡之父」，同時是深度學習三巨頭之一（另外兩位分別是Geoffrey Hinton和Yoshua Bengio），現任Facebook人工智能研究院的院長，兼任美國紐約大學教授。

3月23日，這位深度學習的大牛來到了北京，在清華經管學院、清華x-lab、Facebook合作開設的課程中進行了一場主題爲《深度學習與AI未來》的2小時英文演講，智東西也來到了現場。演講剛開始時，Yann LeCun就在幻燈片上打出了自己新取的中文名——「楊立昆」，引來臺下一片瞭然的笑聲，Yann LeCun自己也忍不住笑了。在國內AI圈裏，常有人講Yann LeCun戲稱爲「楊樂康」，有時則是調侃地直接將LeCun以拼音讀成「楊樂村」，不知此事是否傳到了這位風趣可愛的技術大牛耳中。

智東西梳理了本次演講的要點與脈絡，並增補了相關背景知識，帶你詳細瞭解深度學習的發展現況、成果、困境、以及最前沿的突破性嘗試。此外，還有Yann LeCun親口向智東西迴應關於Facebook削減AI預算的報道、以及十年前的2個賭約等科技小八卦。

1、臉書AI研究院與卷積神經網絡

Facebook人工智能研究院全稱FAIR（Facebook Artificial Intelligence Research），主要研究AI相關的科學與技術，以及其在各個領域中的應用——如計算機視覺、對話系統、虛擬助手、語音識別、自然語言識別等；據聞是一個學術氛圍較濃的研究院，研究方向相對自由寬鬆，也沒有近期的產品壓力，可以着眼長遠做困難和本質的研究問題。

Yann LeCun不僅是FAIR的一把手，同時還是卷積神經網絡（CNN, Convolutional Neural Nets）的發明人之一。卷積神經網絡是深度學習的重要分支，是第一個真正多層結構學習算法——而深度學習中的「深度」，最簡單理解就是「有很多層」。

「深度學習的深度，指的是超過一層的非線性特徵轉換。(It’s deep if it has more than one stage of non-linear feature transformation)」

目前常見的深度學習模型包括牛津大學視覺幾何組VGG網絡、谷歌的GoogLeNet、Facebook的深度殘差網絡ResNet等。

隨着近年來深度學習的不斷崛起，擅長處理圖像（特別是大圖像）的卷積神經網絡也被視爲開發可拓展自動自然語言理解和圖像識別工具，甚至是語音識別和視覺搜索系統的基本構件，Facebook的AI實驗室也在YannLeCun及一衆大牛的帶動下飛速前進。

不過，3月初，據The Information報道（就是那個曾經正面懟上Magic Leap的媒體），儘管Facebook一直在進行Messenger聊天機器人相關內容的研發，結果卻不盡如人意。在沒有人力干預的情況下，Messenger能夠正確處理人類請求的概率不到30%。因此，Facebook目前正在削減機器學習和人工智能方面的研發支出。

智東西也就這個問題直接詢問了Yann LeCun教授本人，作爲Facebook AI研究院的院長他堅定地一口否決。「不，完全沒有這回事。」

2、卷積神經網絡在Facebook的落地應用

作爲Facebook人工智能研究院主任，Yann LeCun的演講中自然也少不了卷積神經網絡及深度學習在Facebook中的落地應用。

最先提到的是DeepFace。DeepFace是FAIR開發的一套人臉識別系統，主要應用卷積神經網絡來提取人臉特徵完成識別。現在Facebook用戶每天上傳的圖片數量達到了8億張，擁有大量的數據供機器訓練與學習。

此外，Yann LeCun還提到了一項FAIR開發的，用於檢測、分割、識別單張圖像中每個物體的技術，比如在一盤菜裏檢測、分割、並識別出西蘭花來、又或是在一堆羊羣裏分割出每隻羊，其核心流程爲以下三步（去年8月都已開源）：

1）使用DeepMask這個新型框架對物體進行檢測與分割，生成初始對象掩膜（Mask，相當於一個覆蓋區域）；
2）使用SharpMask模型優化這些對象掩膜；
3）使用MutiPathNet卷積網絡識別每個掩膜所框定的物體。

值得一提的是，MutiPathNet中使用了一種新型的對象實例分割（Instance Segmentation）框架：Mask R-CNN。這是FAIR研究員何凱明（Kaiming He）——同時也是深度殘差網絡ResNet的作者之一——最近公佈的研究成果，它是Faster R-CNN的擴展形式，能夠有效地檢測圖像中的目標，同時還能爲每個實例生成一個高質量的分割掩膜（Segmentation Mask）。

3、常識是個好東西，希望大家都有

此外，Yann LeCun還提到了如今AI發展過程中遇到的幾大困難：

1）機器需要學習/理解世界的運行規律（包括物理世界、數字世界、人……以獲得一定程度的常識）
2）機器需要學習大量背景知識（通過觀察和行動）
3）機器需要理解世界的狀態（以做出精準的預測和計劃）
4）機器需要更新並記住對世界狀態的估測（關注重大事件，記住相關事件）
5）機器需要邏輯分析和規劃（預測哪些行爲能讓世界達到目標狀態）

目前機器學習中最大挑戰之一就是如何讓機器擁有常識——即讓機器獲得填充空白的能力。比如「John背起包來，離開了房間」，由於人類具備常識，因此我們能夠知道John在這個過程中需要站起來，打開房門，走出去——他不會是躺着出去的，也不會從關着的門出去，可機器並不知道這一點。又或者我們即使只看到了半張人臉也能認出那人是誰，因爲人類常識裏左右臉都是通常長得差不多，但機器同樣不具備這種能力。

下文提到的無監督/預測學習可以讓機器獲得常識，現在我們常用的監督學習並做不到這一點。從本質上來說，在無監督學習方面，生物大腦遠好於我們的模型。

4、無監督學習纔是蛋糕本身

「是的、是的，我知道你們在想什麼——那個蛋糕比喻又來了，」切到這張幻燈片時，Yann LeCun笑着說，「這已經是我在人工智能領域的一個梗了。」

在大大小小的無數場演講中，Yann LeCun不止一次，甚至不止十次地打過這個比方：如果人工智能是一塊蛋糕，強化學習（Reinforcement Learning）就是蛋糕上的一粒櫻桃，而監督學習（Supervised Learning）是蛋糕外的一層糖霜，但無監督學習/預測學習（Unsupervised/Predictive Learning）纔是蛋糕本身。目前我們只知道如何製作糖霜和櫻桃，卻不知道如何做蛋糕。

我們現在對深度神經網絡的訓練，用的大部分還是監督學習的方式。你將一張圖片展現給系統並告訴它這是一輛車，它就會相應調整它的參數並在下一次說出「車」。然後你再展現給它一張桌子，一個人。在幾百個例子、耗費幾天到幾周的計算時間之後，它就弄明白了。「這其實並不是一個非常複雜的概念。」

其次，對於一個AI系統來說，預測+規劃=邏輯分析（Predicting + Planning = Reasoning）。如果想要讓機器能夠了解並且預測世界的規律，強化學習（Reinforcement Learning）需要建立一個世界模擬器（World Simulator），模擬真實世界的邏輯、原理、物理定律等。不過真實世界太過複雜，存在大量的表徵學習參數，使得機器學習的計算量相當冗餘，聽起來似乎很誘人，但是在有限的時間內無法學習到成千上億的參數。

而無監督學習需要機器處理大量沒有標記的數據，就像給它一堆狗的照片，卻不告訴它這是一條狗。機器需要自己找到區分不同數據子集、集羣、或者相似圖像的辦法，有點像嬰兒學習世界的方式。

5、無監督學習的一些突破性的嘗試與結果

無監督學習的一大困難之處在於：對不確定性的預測。比如當你將一支筆直立在桌面上時，鬆開手的那一刻，你並不知道這隻筆將會朝哪個方向倒下。如果系統回答這隻筆會倒下，卻判斷錯誤了倒下的方向，我們需要告訴系統，雖然你不是完全正確，但你的本質上是正確的，我們不會懲罰你。此時需要引入曲面的成本函數，只要系統回答在曲面之下的數據，都是正確的答案。

傳統神經網絡需要一個人類科學家精心設計的成本函數來指導學習，無監督學習爲了解決這一問題，利用生成式對抗網絡（Generator Adversarial Networks）對機器進行對抗訓練（Adversarial Training）成了關鍵答案。

生成式對抗網絡（Generator Adversarial Networks）是一種面向無監督學習的神經網絡：它帶有一個發生器（Generator），從隨機輸入中生成某類假數據（比如，假的圖片）；假數據和來自世界的真數據會一起輸入一個判別器（Discriminator）中，等待判別器裁決。

兩者的關係就像一個騙子和一個測謊者。判別器這位測謊者要不斷優化自己，儘可能地識別出發生器生成的「假圖像」，防止自己被騙；而生成器這個騙子爲了瞞過判別器，也必須不斷進步。在這種動態的對抗中，生成器會得到訓練，最後開始生成非常真實的圖片，這意味着生成器掌握了圖像的特徵，自己掌握成本函數——某種意義上，這就是無監督學習。

6、AI的未來

技術講完了，我們來聊聊行業。

在演講後的問答環節中，Yann LeCun回答了幾個與人工智能行業應用的問題。他認爲，未來人工智能將會落地應用、快速改革的行業包括：自動駕駛、語音交流（比如翻譯）、工業製造（隨着機器人在工業製造中的普及，現在這種「全球工廠」的趨勢將會減退，工業製造越來越多地在本地完成，進而導致城市的構架設計也發生變化）、還有醫療健康領域（比如癌症檢測）。

此外，對於許多科幻小說裏提出的，最終能夠「推翻人類」、「統治人類」的「超級智能」，Yann LeCun認爲我們真的大可不必太擔心。

人類的佔領、統治、鬥爭等大部分行爲，都是在一代代進化的過程中，受到「希望獲得資源」這一目的所驅動的。而如果我們想要機器做一件事情，則需要給它賦予這個能力，朝這個目的去打造機器。如今我們已經做出了在特定領域比人類更智能的機器，但人工智能並不會真正統治世界，因爲我們並不會朝這個目的去做。

7、十年之約與兩個小賭

早在20世紀80年代末，Yann LeCun就作爲貝爾實驗室的研究員，提出了卷積網絡技術，並展示如何使用它來大幅度提高手寫識別能力。而在演講的中，他還提到了1995年裏，來自貝爾實驗室的兩個有趣的賭約。

對賭雙方分別是：前貝爾實驗室負責人Larry Jackel，和支持向量機（Support Vector Machine）的創建者之一Vladimir Vapnik。

第一個賭約：Larry Jackel認爲，最遲到2000年，我們就會有一個關於神經網絡爲什麼有效的成熟理論解釋。

第二個賭約：Vladimir Vapnik則認爲，到了2000年，大家不會再使用神經網絡的結構。（畢竟人家是支持向量機的創建者之一，自然更加認可支持向量機）

而對賭結果呢？——兩個人都輸了。我們至今仍舊沒有一個成熟的解釋，可以告訴我們爲什麼神經網絡的使用效果這麼好；與此同時，我們也仍在使用神經網絡架構。

最後在2005年，他們吃了一場昂貴的賭約變現晚飯，由於兩人都是各輸一局，因此賬單對半。

結語：

作爲Facebook人工智能實驗室主任、卷積神經網絡之父、深度學習三巨頭之一，Yann LeCun的演講比文章內體現的內容要學術得多，除了上文的亮點梳理外，Yann LeCun教授的演講還涉及到深度學習從1957年至今的發展歷程、在神經網絡結構中引入能量函數的無監督學習、基於能量的生成式對抗網絡（EBGAN）、深層卷積生成式對抗網絡（DCGAN）、視頻內容預測等。在智東西對話頁回覆「FaceBook」，可以獲得YannLeCun本次清華演講的全部PPT，此處就不一一展開了。

每日一頭條

趨勢·深度·犀利·乾貨，最專業的行業解讀

深喉爆料、投稿：guoren@zhidx.com

文章來源：智東西