前OpenAI科學家辭職創立智能機器人公司，我們和他們的CEO聊了聊|專訪

2017-11-29 11:39:00.0

毫無疑問，中國幾乎是對工業機器人應用反應最爲積極的市場之一。從採購量來看，中國從 2013 年就已經成爲最大的工業機器人購買國，去年採購量增速高達 27%，中國之外，全世界賣出的 30 萬臺機器人中，還有一些去了韓國、日本、美國和德國。根據國際機器人聯合協會的數據， 2016 年工業機器人銷售額以增速 18% 達到 131 億美元，而這一數字創了行業紀錄。

需求的另一邊，機器人也是創業熱地。全球機器人創業公司在 2016 年的融資交易量，從 2015 年的 147 起增加到 174 起，增長了約 18%。其中，約 48% 的融資交易指向了創建以重工業、製造業爲主的企業級機器人。同時，越來越多機器人創業公司並不僅僅侷限於本土市場，從一開始就把眼光盯向全球不同的國家市場。

兩個半月之前，硅谷創業公司 Embodied Intelligence 成立，由於強化學習領域頗有建樹的 Pieter Abbeel ，從 OpenAI 辭職並參與創辦而備受關注。除了較強的技術實力，我們也留意到創始團隊成員的中國背景，以及種子輪投資方引入的中方機構峯瑞資本（FreeS Fund），不難看出，中國市場也會是這家公司未來的目標。公司 CEO Peter Chen 說，「我們正在國內積極尋找合作伙伴和應用場景。」

早在 Peter Chen和 Rocky Duan 讀博之前，峯瑞資本創始合夥人李豐已經和他們打過交道，「這次，他們有了創業的想法，我們就在國內見面討論過。」除了對團隊熟悉，他們也符合峯瑞在做跨境投資時的一貫特點——團隊或創始人是中國人，他們從美國開始第一步，但做的事情同樣在中國具備巨大應用前景。

「無論是從中國製造業的需求還是我們過往投資過的機器人公司發展速度來來看，機器人、機器人手臂的應用在中國工業製造領域肯定會有比較好的前景。」峯瑞資本創始合夥人李豐分析，

「從 Peter 團隊現階段的團隊構成、技術優勢、產業資源積累來看，他們以美國爲起點，攻克技術難點和典型應用，並做出影響力，然後再調動在中國的行業資源，把技術和產品帶到中國的應用場景裏，是比較合理、合適的。」

Embodied Intelligence 提供的智能模塊可以接入任何市面上的機器人，讓它們可以自然地學習新的技能，無需編寫晦澀難懂的代碼。

撰文 | 彭君韜（Tony）

編輯 | 劉燕

2016 年年初，加州伯克利大學的教授、機器人學習大牛 Pieter Abbeel，帶着他的兩個博士 Peter Chen和 Rocky Duan，加入了位於舊金山的非營利性人工智能（A.I.）研究機構 OpenAI。在過去的一年半的時間，他們三人蔘與並貢獻了整個機構 40% 的論文發表，在強化學習和生成模型上做出了很多成績。

Chen 在回憶這段光景的時候感嘆道，「最大的收穫是 ambition（志向），」他頓了頓，又改了口，「確切地說是 perspective（視野）。相比於學術界，OpenAI 很不一樣，這裏的研究拓展了你的視線，讓你在想能不能跳出一個細小的問題，去想一個更長期的目標。」

在這一年半的時間裏，Chen 慢慢明確了自己想達到的目標，以及實現這個目標的路徑。今年 9 月，Abbeel、Chen 和 Duan 同時離開了 OpenAI，並拉上了前微軟研究員 Tianhao Zhang ，成立了一家致力於研究智能機器人（學徒）的初創公司 Embodied Intelligence。

在外人眼裏，機器人或許只是一堆拼裝在一起的、能重複簡單動作的硬件，但 Embodied Intelligence 希望賦予他們快速學習的能力，可以通過算法學習完成任務，並將自動化技術應用到世界範圍內的工廠、倉庫、甚至是家庭中。「傳統的機器人編程非常耗費時間，只有專業人員才能進行。」Embodied Intelligence 總裁、首席科學家 Abbeel 說，「我們提供的智能模塊可以接入任何市面上的機器人，讓它們可以自然地學習新的技能，無需編寫晦澀難懂的代碼。」

創立之初，Embodied Intelligence 的辦公地還在伯克利大學的機器人實驗室，Chen 的博士生歲月幾乎也都是在這裏度過。除了其他研究員外，實驗室還有一個叫做 Brett 的機器人。伯克利的學生們沒少在它身上下功夫：教它撿東西、拼裝、實物操作。之後，成立僅兩個月的 Embodied Intelligence 就獲得了硅谷風險投資機構 Amplify Partners 和其他投資方的共 700 萬美元的種子輪融資，其中包括一家來自中國的風投峯瑞資本（FreeS）。

三週前，公司從伯克利搬到了附近埃默裏維爾市（Emeryville）。我們在他們的新辦公室裏，和公司CEO Peter Chen 聊了聊從出走 OpenAI 到開始創辦運營一家公司的歷程。看得出 Chen 很忙，採訪的時候也很難無法完全放下手上的活兒，需要時不時地翻看一下筆記本上的代碼和手機上的消息。不過他直言，從伯克利博士生，到 OpenAI 研究員，再到如今公司的 CEO，他並沒有覺得很強烈的角色變換。「我們依然在做一個研究項目，只不過要實現落地的話，就需要建立一個公司。」

傳統機器人的硬傷

傳統工業機器人的痛點，是每一個想要做智能機器人創業公司的機會。

目前，工業機器人的硬件水準是無可挑剔的。市面上大部分機器人都可以達到百分之一毫米的精確度，而且一個三五十萬的機械臂的耐久度至少是五至十年的時間。機器人可以完成批量地、重複的動作、在生產線上進行裝配，滿足剛性製造所需的大批量生產。

但機器人的每一個動作都需要工程師在背後進行精細的編程，從拿起一個元件，到裝配到另一個元件上，編程的過程都需要考量諸如距離、角度這樣的條件。很多在人類看來非常簡單的動作，對機器人來說卻是很大的挑戰。

比如，將兩個齒輪合在一起，人類只要擰一擰調整一下角度就可以輕鬆地將齒輪卡住，但機器人不這麼覺得。如果用傳統機械的方法，工程師需要準確的監測到兩個齒輪之間的角度差異，然後來回進行轉動讓它完美地契合在一起，這立刻就變得變成一個很困難的工程問題。

「任何需要用眼來看，然後用手來去進行適應性的操作，都是對傳統機器人的挑戰，」Chen 說。越來越多年輕人不願意在工廠或者倉庫裏做這些枯燥的、重複的動作，但傳統機器人又無法適應柔性的、可以隨時變化操作的工業製造。Chen 想要在短時間內解決的就是，讓機器人既可以組裝齒輪，下一秒也可以去裝備其他的元件或者完成其他的動作。

智能機器人的解決方法可以有很多。今年受機器人公司關注的有谷歌提出的自我監督模仿（Self-Supervised Imitation）。通過一種叫做時間對比網絡（Time-Contrastive Networks）的神經網絡，機器人能夠自我學習視頻裏的動作，比如倒水，或者站立。

Chen 則將希望寄託於深度強化學習。這種基於環境而行動、從而獲得最大化利益的機器學習方法，在過去的兩年時間裏成功地讓電腦學會了下圍棋和打遊戲。

2015 年，Chen 過去所在的伯克利機器人實驗室，已經通過深度強化學習讓機器人獲得了一種類似於視覺肌肉記憶的能力（Visual Motor Skills）。人類在做很多動作時不會認真經過大腦思考。比如在人喝水前，並不會在腦海裏提前畫上一個從拿起杯子——轉動杯子角度——將水倒入嘴裏的草圖，而是根據條件反射直接拿起杯子喝水。

這個過程並不複雜：深度神經網絡就像人類的大腦一樣，它能夠處理視覺數據，讓機器擁有模擬人類條件反射的能力；模擬之後，接下來就是訓練機器的方法。利用深度強化學習，機器人能通過不斷地試錯和獎勵機制找到學習這個動作的「竅門」。這種學習動作的過程不需要手把手的編程。

但是，兩年前的方法最終只停留在理論階段。機器人的深度強化學習需要一個引導設置，而不是漫無目的地試錯，這就需要擁有強化學習知識的人才（主力是博士生）完成前期的編程和調試。一個大學裏的實驗室可以讓幾個博士生沒日沒夜的埋頭苦幹，但這顯然不適用於工業界。

因此，直到兩年後，Chen 的團隊找到了能夠落地的解決方案——模擬學習（Imitation Learning）。

模擬學習搭配強化學習

消費級 VR 設備的出現，爲很多 AI 公司提供了意外驚喜。Embodied Intelligence 使用了 VR 設備實現了機器人模擬學習的能力。據 Chen 介紹，模擬學習的主要研究出自另一位聯合創始人 Tianhao Zhang 之手。

任何人帶上 VR 設備，拿上遙控器，就相當於人在實時遙控一個機器人。機器人只需實時追蹤 VR 設備的手的運動軌跡，VR 中的示範數據則將用來訓練深度神經網絡。在這個過程中，機器人持續地學習，直到它表示：「我學會了。現在我可以自己接手了。」整個過程只需要 30 分鐘。按照 Chen 的話說，即使是這 30 分鐘再乘上 100 倍，也比過去訓練機器人動作的成本要小。

這種方法具有很好的遷移性或者說適用性。即使是不同的動作，它背後的代碼是一模一樣的，包括 VR 的代碼、收集示範動作的代碼、訓練的代碼，以及神經網絡學習的代碼，都是一樣的。唯一的不同只是示範的動作而已。

目前，Embodied Intelligence 的機器人學過時間最長的動作是將近一分鐘，學習動作並沒有明確的規定，大部分人類憑條件反射就能完成的動作，機器人都可以學習。但還不知道機器人是否能學習一些非常規的動作，比如上週波士頓動力機器人 Atlas 的後空翻。

完成模擬學習後，機器人依然需要強化學習的介入，讓它能夠繼續進行自我學習。人類的動作有些時候並非最有效的，比如在走路時沿着一個弧線，這可能不是最優的結果，或者人在走路的時候會有一些顫抖也是很有可能的，但對一個機器人來說，通過強化學習可以讓動作變得更加高效。

「近段時間 AI 領域的突破性進展已讓機器人學會行走，通過反覆試錯學習操縱物體，以及從 VR 收集的示範數據來學習新的技能。但是，這些進展都侷限於仿真或實驗室環境。」Amplify Partners 合夥人Sunil Dhaliwal 說，「Embodied Intelligence 團隊推動了很多這些進展，而現在他們將把這些最前沿的人工智能和機器人領域的進展引進具體的應用場景中。」

據 Chen 透露，這套基於模擬學習和強化學習的機器人應用將在明年投身工業界，通過這套流程，機器人可以輕鬆地學會廣泛的技能，尤其在那些傳統解決方案望而卻步的應用領域，比如操縱可變形的物體——電線、絲料、布料、服裝、液體包裝、食品等，在不規則、雜亂環境中分揀、整理物品，複雜的拼裝任務。而隨着材料不規整程度的增加，以及個性化訂單的增長，傳統硬編碼的方式尤其展現出其侷限性。

只不過，Embodied Intelligence 的藍圖並不盡於此。

五到十年，實現元學習

模擬學習+強化學習是一個 Embodied Intelligence 能夠短期內提供的智能解決方案，元學習（Meta Learning）纔是這家公司放眼未來五年到十年的核心。「機器人和人力的關鍵區別是『教』的成本，我們想把機器人變得和人一樣可教。現階段，我們只是在減少教的時間。」

什麼是元學習？簡答來說，就是讓機器人學會一個學習策略。過去的深度學習是通過輸入大量的數據得到一個結果，而元學習則是從少量數據中獲得學習這類任務的方法。換言之，這也是一種體現在機器人上的通用人工智能（Artificial General Intelligence），也是爲什麼Chen會將公司取名爲Embodied（具現） Intelligence（智能）。

Chen 在元學習上已經有了一些研究上的成果。今年，Chen 聯合他的導師在 arXiv 上發表了兩篇關於元學習的論文。Meta Learning Shared Hierarchies 研究了一種用於學習層次結構化策略的元學習方法，通過使用共享基元提高未見任務的樣本效率；另一篇 Meta-Learning with Temporal Convolutions 則提出了一類基於時間卷積的簡單和通用的元學習器體系結構，這個結構不限領域，而且沒有使用特定的策略或算法進行編碼。

在 Chen 設想的藍圖裏，Embodied Intelligence 最終實現的智能機器人將同時擁有元學習和強化學習的能力。「強化學習在單一任務上表現的很好，元學習是讓機器人掌握快速學習，這兩者在未來是可以互補的。」

身在硅谷的 Chen 面臨的壓力不小，除了像谷歌這樣的科技巨頭發力智能機器人外，不少初創公司也有這樣的野心，在距離埃默裏維爾市開車 20 分鐘的聯合城市（Union City），同樣一家機器人公司Vicarious.ai 在爲實現具有人類智能的機器人夜以繼日。該公司的 CTO Dileep George 曾告訴我們，他們選擇了一條完全不同於深度學習和強化學習的路徑——通過模擬人類的視覺皮質，結合生成模型，讓機器能夠模擬物體的結構，從而獲得對物體本身的理解能力。而他們預期在 2040 年前後實現。

沒有人能確定哪一條路能通往人工智能的終極聖盃。但從現在來看，帶着伯克利和 OpenAI 最新研究出走的 Embodied Intelligence 是走在了機器人科研的最前沿。

文章來源：機器之心

喜歡這篇文章嗎？快分享吧！