現場報道 | 硅谷最乾貨大會之一AI Frontiers 詳解全球投資熱區和5大應用趨勢

2017-11-05 13:13:00.0

除了吳恩達近況和麥肯錫的預測，你還可以從文章裏找到當下最火的深度學習應用案例！

美國時間週五，位於硅谷的聖克拉拉會議中心，人頭攢動，來自 17 個國家的 1400 多人蔘加了硅谷人工智能前沿大會 AI Frontiers。這些人有着共同的興趣：AI。

這是 AI Frontiers 今年的第二場大會，爲期三天。前百度首席人工智能科學家、Coursera 和 deeplearing.ai 的創始人吳恩達，以及來自 Google、Amazon、Facebook、Nvidia、Uber、EA、麥肯錫、阿里巴巴的代表，分享了語音助手、機器人、無人車、視頻理解和遊戲等領域在今年的最新趨勢。

機器之心從大會現場帶來核心內容：

吳恩達：發展 AI 就積極創業！

吳恩達的演講，滿是他在斯坦福大學當教授教課的樣子：襯衫西褲，黑筆白板，無需演講稿和 ppt，直接寫出要點，開始演講。

離職的這半年，吳恩達動作頻頻——創建 Deeplearning.ai；在 Coursera 推出基於深度學習的 5 項課程；加入他的學生 Alison Darcy 所創立的 AI 公司 Woebot 成爲董事會主席；他妻子 Carol Reiley 所在的無人車公司 Drive.ai 也在今年完成 1500 萬美元的融資，並和 Lyft 達成戰略合作。

「AI 就是新的電力」，這句話成爲了吳恩達的座右銘，他也以此做題，暢談了 AI 對工業界帶來的影響。

除了在 AI 的三大領域——語音識別、自然語言處理、計算機視覺做點到爲止的講解外，吳恩達提到現在科技公司的工作流程因爲 AI 發生了巨大的變化。

「過去，互聯網公司的項目經理會給工程師一個用戶界面；現在，任何一個工程師拿着一張畫着用戶界面的草圖都做不出一個聊天機器人出來，」吳恩達說。

另一個非常重要的問題是，傳統科技公司+神經網絡並不等於 AI 公司。要想實現 AI 在公司各層次業務上的普及，必須加入新的工作流程——你需要獲取全新的戰略性數據，統一化的數據分析，爲有 AI 技能的工程師增加新的工作職位，比如說 CAO（Chief AI Officer）。

美國科技媒體 ZD.net 近日發表的一篇文章裏談論了工業界需要一個全新的首席職位，首席 AI 官或許會成爲趨勢。「是時候僱傭一個首席 AI 官了，」吳恩達在自己的推特中說道。

面對業內如今 AI 人才嚴重欠缺的情形，吳恩達也自然而然地爲 Deeplearning.ai 站臺，「學習 AI 基礎的第一步是求助於 MOOC（大型開放式網絡課程），然後做各種各樣的項目，最後找到一份工作。」

就在近日，有消息人士透露，Deeplearning.ai 推出一個爲期 30 天的深度學習訓練營，招募編程能力強、有一定機器學習基礎的人，培養他們成爲能夠處理深度學習任務的工程師。不過，還不清楚 Deeplearning.ai 如何在這麼短的時間內訓練出 AI 人才。

演講的最後，吳恩達呼籲，「我們有足夠的論文了！不要再發表了，準備用科技來改變人們的生活吧！」對急於向全社會推廣 AI 的吳恩達來說，處於金字塔頂端的論文研究很難將 AI 深入到每個人的生活，人才只有加入工業界或者創業才能帶來更多的變化。

投資的熱區在哪裏

這是麥肯錫的 James Manyika 第二次參加 AI Frontiers。這位美國前總統奧巴馬的全球發展委員會委員、麥肯錫全球研究所的聯合主管，專注於研究 AI 對工業界的影響。大會第一天，Manyika 從四個角度剖析瞭如今 AI 對工業界的影響。

投資的熱區在哪裏？從 2013 年至 2016 年，科技公司對於 AI 企業的投資和收購金額高達 200 億—300 億美元；風投在 AI 企業身上投入了 60 億美元至 90 億美元的金額，增長率是 285%，僅此於電動車。中美依舊是投資的主力，美國承包了 150—230 億美元，亞洲地區則達到了 80 億—120 億美元。

然而，並非所有公司都會採用 AI 技術。依然有 30% 的企業不清楚在商業案例上使用 AI 的意義；41% 的企業不清楚 AI 的投資回報率；28% 的企業沒有組建 AI 技術團隊的能力。

什麼樣的公司熱衷 AI？科技公司、通訊公司以及金融公司是擁抱 AI 技術的主力；建築、旅遊、教育以及醫療健康領域行業對 AI 技術的態度則相對保守。

早期使用 AI 的公司有這幾個普遍的特點：數字化程度很高；企業規模較大；在關鍵的商業應用上運用 AI；更注重業務的增長和創新，而不是一味地減少成本；創立和 AI 相關的 C-level 職位。

AI 如何提升企業的表現？AI 對工業界的平均影響比例是 10%，對擁有大量實物工廠和設備資產的行業來說影響更大。

企業如何在應用 AI？Manyika 建議企業發展五個方面：AI 對案例的核心價值；一個數據生態；AI 相關的技術和工具；工作流程的整合；以及開放的組織結構。

下面，就是機器之能通過大會現場講解總結的5大應用趨勢。

2017 年，屬於智能音箱

如果說 2016 年，智能音箱市場只有 Amazon 和 Google 兩大玩家，那麼到了 2017 年，自稱是科技公司的都會在智能音箱上比劃兩下——Amazon 和 Google 分別推出智能音箱的第二代 Echo 2 和 Google Home Mini&Max；

基於 Siri 的 Home Pod 在 9 月的蘋果發佈會上亮相；微軟的 Cortana 被包裹進了最新的智能音箱 Human Kardon Invoke；阿里巴巴則推出了天貓精靈 X1，內置智能語音助手 AliGenie。

Amazon Alexa 的主管 Ruhi Sarikaya 道出了科技公司哄搶智能音箱市場的原因：

談話中包含的信息肯定比打字來的多，普通人講話的速度比打字的速度快上 4 倍。這讓語音成爲了操作平臺上新的輸入媒介——IOS 有 Siri，Windows10 有 Cortanan，Google 的搜索應用裏有 Google Now。

據 Gartner 預計，到了明年，將有 30% 的人機交互都會通過語音實現。

同時，智能音箱也要多虧深度學習在語音識別上的重大突破。如果語音識別的準確率低於 90%，機器是聽不懂人話的。據微軟的首席語音科學家黃學東介紹說，如今微軟已經將錯誤率降到了 5.1%。

Sarikaya 介紹說，Alexa 的目標是通過機器學習和 AI，爲用戶提供最合適的應用，將不必要的任務，比如付賬單，記事簿都交給機器來自動化，並且按需的服務，比如叫出租車、放音樂、尋找班車列表等等。

未來，Alexa 的回答也將更加智能，除了回答以外，還要主動地爲用戶提供服務。

自然語言交互的挑戰是用戶要求的不明確，比如用戶問，「我晚飯應該吃什麼」，這對 Alexa 不是一個明確的要求，也就需要 Alexa 自己選擇調配什麼樣領域的知識和技能來回應這個問題。

Google 的研究科學家 Dilek Hakkani-Tur 主要分享了 Google 在端到端對話系統上的研究。

作爲人機交互過程中的一個重要環節，對話系統需要將用戶的要求翻譯成帶有標籤的對話行爲（dialogue act），比如用戶是疑問句還是陳述句？語句有關什麼內容？然後根據對話策略（dialogue policy），對話系統要選擇一個答案。這當然需要大量的數據進行訓練。

在訓練過程中，Google 的研究團隊也針對不同問題進行不同的學習模式：

「比如在對話級別的規劃上使用了端到端的強化學習；在泛化到其他語言或者含義上，則使用遷移學習；訓練談話語言理解時，Google 採用 E2E MemNN（端到端記憶網絡）；

在訓練對話策略的過程中則採用分階段訓練，先用人家專家的知識訓練模型，再用強化學習在模擬用戶和獎勵機制任務的環境裏學習，最後用交互式強化學習將前兩者合併。

Hakkani-Tur 還提到了自然語言生成，用戶模擬器和機器之間的交互。

「智能助手的挑戰還有很多，比如語義不詳的語言，定製化，更加自然生動的對話，多領域任務，以及跨越領域的交互，都是我們需要解決的問題，」Hakkani-Tur 說。

蘋果 Siri 的高級主管 Alex Acero 介紹了蘋果是如何將深度學習應用到 Siri 上，包括喚醒詞的識別、大量詞彙識別、語音合成、機器翻譯和自然語言處理。

Acero 着重介紹了銜接語音合成技術，這是一種通過銜接短聲音樣本的方式輸出文本-合成-聲音；以及用深度神經網絡識別喚醒詞並觸發 Siri，以及用大量 GPU 和深度神經網絡訓練 iWatch 上的喚醒詞 Hey Siri。

機器人和計算機視覺

今年的 AI Frontiers 機器人單元迎來了兩家初創公司——致力於高等智能機器人的 Vicarious，和致力於打造可愛家用機器人 Mayfield Robotics。

Vicarious 在上週剛剛發表了關於攻破 CAPTCHA（驗證碼）的論文，也因此頻頻出現在媒體頭條。

我們近日與 Vicarious 的 CTO Dileep George 進行了深度專訪，發現 Vicarious 並沒有採用時下主流的機器學習算法——以卷積神經網絡爲代表的深度學習算法，而是採用了區別於判別模型的概率生成模型，結合對腦科學的研究。

George 也受到 AI Frontiers 的邀請，討論了 Vicarious 的最新研究——遞歸皮質網絡（Recursive Cortical Network）是如何攻破 CATPCHA，以及如何應用在機器人的操縱上，包括物體識別能力，以及在物體重疊的情況下也能很好地分辨物體。

Vicarious 已經和衆多的機器人廠商、包括 ABB Group 進行合作。在其位於舊金山東灣 Union City 的三個辦公地點，Vicarious 都購置了不同種類的機器人進行了實驗。據 Vicarious 的商業總結樓興華透露，該公司的機器人技術將會最早應用到工業領域的柔性製造中。

Mayfield Robotics 介紹了一款叫做 Kuri 的機器人——外表像極了大白（超能陸戰隊），裝載着麥克風、攝像頭、手勢裝置、揚聲器、定位裝置、駕駛系統（可以到處移動）和核心處理器 GPU。

和 Vicarious 一樣，Mayfield Robotics 也在計算機視覺上發力，算法上，Mayfield Robotics 使用了 Google 最新提出的 MobileNets——一種基於卷積神經網絡的嵌入式算法，用來進行人臉檢測，寵物檢測、人臉識別以及地點識別（用於繪圖和定位）。

這樣的算法對於實現 Kuri 與用戶（小孩子）的互動，以及 Kuri 成爲家庭錄像和娛樂的能力至關重要。

視頻理解成爲計算機視覺的新大陸

今年，Google、Facebook 等科技巨頭都發布了大型視頻數據集或數據平臺，這也意味着對視頻理解的算法研究也在大規模地開放。

谷歌研究視頻搜索功能、Youtube 和視頻移動 app 的 Google 擁有很多基於圖像和視頻的應用，比如視頻搜索、雲視頻 API、安卓相機、視頻圖書館內容整理、手寫識別、光學字符識別、以及 Allo 裏個性化表情包、Youtube 的縮略圖的預覽優化、無聲視頻的字幕生成等等。

Rahul Sukthankar 是谷歌的高級工程師，他講解了如何通過深度學習在大規模視頻數據庫實現多種目標，比如 Youtube 大型視頻集註解、Youtube 視頻縮略優化。

五年前，在輸入和輸出中間需要多個步驟，包括手動設計的描述符和碼本直方圖；如今，有了深度學習後，只要把數據扔進模型裏就可以得到視頻的字面描述，而且效果更好。

Google 在 2015 年寫了一篇用深度神經網絡訓練 Youtube 的縮略圖優化的博客，將網絡上的視頻縮略圖（輸入）和點擊量（結果）做一個鏈接。

撇開這些過去的研究，Sukthankar 提到了視頻數據集在未來的研究方向——自我監督模仿（self-supervised imitation）。Google 介紹了時間對比網絡（time-contrastive networks），讓機器能夠學習視頻裏的動作，學會一些基本的操控和控制，比如倒水，或者站立。

Sukthankar 在最後分析了不同視頻數據集的特色，比如：Sports-1M 和 Youtube-8M 適用於視頻註解；HUMOS，Kinetics 和 Google 剛剛開源不久的 AVA 適用於訓練視頻裏的動作識別；Youtube-BB 和 Open Images 適用於物體識別。

隨後出場的 Facebook 計算機視覺主管 Manohar Paluri 介紹了今年新開放的圖像數據平臺 Lumos。

基於 FBLearner Flow 的 Lumos 是一個面向圖像和視頻理解的平臺。Facebook 工程師不需要接受深度學習或計算機視覺方面的培訓，就可以使用 Lumos 培訓和部署新模型。

Paluri 也在大會上公佈了令人興奮的消息：明年年初，Facebook 將公佈兩個新的數據集——SOA（Scenes，Objects & Actions）和 Generic motions dataset。

今年加盟阿里巴巴 iDST 的任小楓也受邀參加 AI Frontiers，分享了阿里巴巴在視頻理解中的需求，以及 iDST 正在解決的挑戰，例如淘寶上的移動購物、優酷和土豆上的視頻搜索和推薦、以及菜鳥物流和智慧城市的實時系統。

任小楓主要介紹了視頻理解如何應用到阿里巴巴的具體業務，比如優酷視頻中的物品識別可以直接和淘寶網的購物鏈接相連；以及最近淘寶推出了商品視頻介紹，賣家可以拍攝有關商品的視頻，淘寶會分析視頻的內容，用於優化商品搜索。

自動駕駛「加速度」，兩個月讓無人車上路

在所有的 AI 初創公司裏，自動駕駛公司無疑最惹人矚目，而且，無人駕駛的研發正在提速。

今年四月纔剛剛創立的景馳科技，僅用一個多月的時間就完成了首次封閉場地的無人駕駛測試；兩個半月後，景馳科技獲得了加州無人駕駛車輛測試許可證；公司成立 81 天后，景馳科技的無人車完成了在開放路面上的無人駕駛測試。

景馳科技的 CTO、前百度無人車首席科學家韓旭參加了此次大會。韓旭開場提到了汽車行業的三個未來趨勢：

電動車讓傳統引擎和排放變得不再重要；汽車的銷售會從 B2C 轉變爲 B2B；汽車未來的核心驅動力是 AI，軟件會變得和硬件一樣重要。

「誰能最先融合科技、共享經濟和 OEM，誰最先贏得市場，」韓旭說。

韓旭對未來自動駕駛的普及有着清楚的預計：2018 年，無人車公司都能上路測試；2020 年，中等城市會贏來第一批無人車；2022 年，無人車在大型城市普及；2025 年，北京、上海、紐約等體量的國際之都將迎來無人車：2025 年之後，個人或許能購買一輛屬於自己的無人車。

值得一提的是，在自動駕駛的單元裏，韓旭遇到了他的金主——Nividia 自動駕駛的高級主管 Danny Shapiro。今年 9 月，景馳科技宣佈了 Pre-A 輪 5200 萬美元融資，Nividia 也參與了這一筆投資。所以，韓旭也在演講之後的座談會環節向 Shapiro 連連致謝。

Nividia 在自動駕駛的決心也不小，黃仁勳在今年北京的 Nividia GTC 大會上就高調錶示，Nividia 要在 2030 年實現 L5 的全自動駕駛。

專注於硬件和芯片的 Nividia 也在今年 5 月推出了有關無人駕駛的硬件解決方案（包括計算平臺 Drive PX, 操作系統 Drive OS, 車內交互智能開發工具 Drive IX SDK, 以及 Drive AV)。

另一位演講嘉賓、Uber 的高級工程經理 Jeff Schneider 則扮演了一回大學教師，將自動駕駛的歷史和基本元素——繪圖（mapping）, 定位（localization）, 感知（perception）, 預測（prediction）, 路徑規劃（motion planning）, 控制（control）解釋了一遍。

遊戲 AI：強化學習的暖牀

大會第一天最後，Facebook AI 研究所田淵棟和 Electronic Arts 的技術總監 Magnus Nordin 討論了關於 AI 在遊戲中的應用。

田淵棟（左），Magnus Nordin（中）

田淵棟曾是 Facebook 圍棋機器 DarkForest 的開發者，使用深度學習和蒙特卡洛數搜索將 DarkForest 提升至業餘五段的水平。

之後，田淵棟就一直研究強化學習在遊戲 AI 中的作用。他去年的一篇論文提出了一個新的框架，通過結合強化學習和課程學習，培訓第一人稱射擊遊戲（FPS）的機器人。

田淵棟還帶着他的實習生在 2016 年 ViZDoom AI 大賽中成功獲得了 Track1 冠軍，比第二名高出 35％。

田淵棟也介紹了其他的項目，包括去年提出的 ELF 框架（Extensive, lightweight, and flexible）。任何基於 C++界面的遊戲都可以通過這個框架進行訓練，同時不需要大量的計算能力和訓練時間。

田淵棟另外一篇研究機器人探索 3D 環境的論文也被 ICLR2018 收錄。論文基於 SUNCG 的數據集，同時也採用多模態學習。

隨後，EA 的 Nordin 介紹了 EA 近日的新動作——Seed（Search for Extraordinary Experiences Division），這是 EA 單獨成立的一個研發部門，爲了探索遊戲中的一些全新體驗，包括 AI。

據 Nordin 的介紹，EA 也在使用強化學習訓練遊戲機器人，基於獎罰機制來提高遊戲水平。在一個躲避球的遊戲裏（吃掉綠色球得一分，碰到紅色球扣五分），遊戲機器人會通過強化學習不斷提高自己的分數。

這樣的訓練方式還有不着不錯的泛化能力，包括躲避球、射擊遊戲、賽車遊戲都取得了不錯的效果。

對 EA 而言，AI 不只是用來訓練機器人的遊戲水平。在 EA 的幾款經典遊戲系列《模擬人生》《戰地》《FIFA》中，遊戲場景生成就可以通過 AI 加速生成，即使是用戶在平板上畫上幾筆，AI 也能學習如何生成例如山脈這樣複雜的自然環境。

「未來五年裏，遊戲的變化會比之前 45 年的變化都要多，」Nordin 說。

另一方面，從 AI Frontiers 大會所討論的內容不難看出，快速推進的產業應用得益於——深度學習的研究進展推進了語音識別、圖像分類、自然語言處理等技術的驚人變化。然而，泛化能力的不足也一直備受行業詬病。

Google 高級科學家 Lukasz Kaiser 在會上介紹了 Depthwise Separable Convolutions，這個模型能夠在多個領域進行訓練，包括 ImageNet、翻譯、圖像字幕、語音識別語料庫，以及英語的語法分析。同時，它還能夠提高生成文字和圖像的能力。

DSC 起源於 Google 大牛、Keras 的開發者 François Chollet 的論文《Xception: Deep Learning with Depthwise Separable Convolutions》。從結果上看，Xception 在各個領域都取得了很好的效果。

另外，值得注意的是，Kaiser 在今年 6 月發表了一篇論文，將 DSC 應用到了神經機器翻譯上。

我們將繼續跟蹤大會更多重要內容。

文章來源：機器之心

喜歡這篇文章嗎？快分享吧！