MIT頂尖機器人學家創業,融資數千萬,受線蟲啓發開發液態網路,叫板OpenAI

 2023-12-12 12:17:30.0

機器之能報道

編輯:吳昕


MIT 電腦科學和 人工智慧實驗室 CSAIL 孵化的創業公司—— Liquid AI 終於結束隱身模式,公開與 OpenAI 和其他公司的大型 語言模型競爭。

近日,Liquid AI 官宣已籌集 3750 萬美元。就種子輪而言,這個數字相當可觀。投資人不乏一些大人物,比如 GitHub 聯合創始人 Tom Preston Werner、Shopify 聯合創始人 Tobias Lütke 和 Red Hat 聯合創始人 Bob Young。

融資後,公司估值 3.03 億美元。

著名機器人學家和電腦科學家、麻省理工學院電氣工程和電腦科學系 Andrew 和 Erna Viterbi 教授、MIT CSAIL 主任 Daniela Rus 是這家公司創始人之一。

圖片MIT CSAIL 主任 Daniela Rus 是這家公司創始人之一

「今天開發的許多模型都非常龐大,」Daniela Rus 在夏天接受採訪時說。「必須建立越來越大的模型似乎不言而喻。但我們要問,這是真的嗎?」

生成式 AI 被認為是最強大的AI 工具之一,但在安全、可解釋性和巨大算力等方面存在的明顯侷限性,導致其很難被用於解決複雜的機器人問題,特別是 移動機器人問題。

受僅 1 毫米長秀麗隱杆線蟲(簡稱線蟲,不少諾獎得主也為之折腰)神經結構啓發,Rus 和實驗室的博士後們研發了一種基於線蟲神經的新型靈活 神經網路——液態 神經網路
和傳統 神經網路只是在訓練階段學習不同,新型網路可以邊工作邊學習,會根據觀察到的輸入改變基本架構,特別是改變 神經元的反應速度,不斷適應新情況。
圖片 四位創始人(從左到右)CEO Ramin Hasani,Daniela Rus,首席科學官Alexander Amini和CTO Mathias Lechner

除了 Daniela Rus,Liquid AI 另三位聯合創始人都是 MIT CSAIL 博士後研究人員,都為液體 神經網路的發明做出了貢獻。

聯合創始人兼 CEO Ramin Hasani 進入 MIT CSAIL 從事博士後研究之前,曾是美國最大的基金管理公司之一先鋒集團( Vanguard )的首席 人工智慧科學家。

聯合創始人兼 CTO Mathias Lechner 在維也納工業大學讀書時就和 Hasani 一起研究線蟲的神經結構。

聯合創始人兼首席科學官員  Alexander Amini 是 Daniela Rus 的博士生。
圖片
目前公司員工陣容
圖片
液體 神經網路的想法,源於多年前奧地利維也納工業大學(Vienna University of Technology) Radu Grosu 教授的實驗室。

當時,Hasani 在那裏攻讀電腦科學博士學位,Lechner 在讀碩士學位,兩人對繪製秀麗隱杆線蟲 神經網路的研究產生了興趣。

線蟲僅 1 毫米長,神經系統只有 302 個 神經元(人類有大約 860 億個 神經元),位於食物鏈底層,卻能進行一系列高階行為:移動、覓食、睡覺、交配,甚至從經驗中學習。

他們意識到,研究線蟲的大腦實際上如何工作,也許有助於製造能適應意外情況的彈性 神經網路
圖片 秀麗隱杆線蟲也是截至2019年,唯一完成連線組(connectome,神經元連線)測定的生物體。

2017年,Daniela Rus 將 Hasani 和 Lechner 挖到了 MIT CSAIL。Rus 和她的博士生 Amini 也加入到液態 神經網路的研究中。

他們發現了使液態神經系統成為可能的計算原理,這反過來又啓發他們開發出一個簡單的軟體 神經網路

2020年底,Hasani、Rus、Lechner、Amini 等人發表了一篇題為 Liquid Time-constant Networks 的研究論文,液體 神經網路引發不少關注。

去年,他們的研究取得突破性進展,打破了計算瓶頸。這種新型網路可能已經具有足夠通用性,在某些應用中取代傳統 神經網路。10月,以 Closed-form continuous-time neural networks 為題的論文也發表在了 Nature Machine Intelligence 

今年 3 月,Hasani 和 Lechner 成立了這家初創公司,Rus 擔任技術顧問和董事會成員。

所謂液體神經網路,首先是指其架構像液體一樣,是動態的,具有高度的靈活性和適應性。

標準的 神經網路更像是一層層間隔均勻的水壩,每層水壩上安裝了許多閥門( 權重)。計算的洪流每經過一層水壩,都要透過這些閥門,彙總後再奔向下一層水壩。

液體 神經網路不需要這些水壩。

每個 神經元都由微分方程 (ODE)控制。這些微分方程 引數會根據觀察到的輸入而變化(也就是說,基本方程是會變化的)。這個變化過程是一個由「非線性函式」控制的概率過程,以此不斷適應新的資料輸入,從現場環境中學習。

大多數 神經網路的行為在接受訓練後就是固定的,這意味著,它們不善於適應新輸入的數據流的變化。「液體」網路的流動性使其對意外或嘈雜的資料更具彈性(比如大雨遮擋了 自動駕駛汽車上的攝像頭視野),也更強大。

和動輒數十億引數規模的生成 AI 模型相比,液體神經網路的另一個特點是規模小得多

比如,GPT-3 包含約 1750 億個 引數和約 50,000 個 神經元。而針對諸如在室外環境中駕駛 無人機等任務進行訓練的液體 神經網路可以包含少至 20,000 個 引數和不到 20 個 神經元
圖片 今年早些時候,Rus 和 Liquid AI 根據專業無人機飛行員收集的資料訓練了一個液體神經網路,然後部署在飛行器上,在一系列戶外環境(包括森林和人口稠密的城市社羣)中進行遠距離目標跟蹤和其他測試。結果擊敗了其他經過訓練的導航模型。此外,液體神經網路是唯一一個可以在沒有任何微調的情況下可靠地泛化到它從未見過的場景的模型。

從計算的角度來看,更少的 引數神經元也使得液態 神經網路對算力需求沒那麼可怕。理論上,被用於 自動駕駛汽車的液體 神經網路可以在 Raspberry Pi 上執行。他們不需要雲,可以在各種機器人硬件平臺上執行。
第三,由於尺寸小,架構也簡單,液體神經網路也有可解釋性方面的優勢。

畢竟,弄清楚液體 神經網路內每個 神經元的功能比弄清楚 GPT-3 中 50,000 個左右 神經元的功能更容易。
液體神經網路也有侷限性。和其他 神經網路不同,液態 神經網路青睞「時間序列」資料。
Rus 和 Liquid AI 團隊成員聲稱,該架構適合分析隨時間波動的任何現象,包括視訊處理、自動駕駛、大腦和心臟監測、金融交易(股票報價)和天氣預報等。

只要存在包含序列資料的資料集(例如視訊),就可以訓練液體 神經網路。在實時分析這些資料,並利用它們來預測未來的行為上,液體 神經網路比其他最先進的時間序列演算法要高出幾個百分點。

但是,這個方案並不適用於由靜態資料項組成的資料集,比如 ImageNet 。

新方法將如何與 OpenAI 等競爭對手的主流模型相抗衡還有待觀察。

Hasani 表示,目前,Liquid AI 沒有計劃為消費者開發像 ChatGPT 這樣的應用程式。公司首先關注希望為金融和醫學研究建模的企業客戶。

這是我見過的最令人印象深刻的 MIT 科學家群體之一。一些投資人表示,他們被 Liquid AI 的 神經網路方法所吸引--—— 神經網路技術減少了很多「蠻力冗餘」,更像是人類的思想。

融資是爲了建立下一個模型。從目前所看到的一切來看,如果它能夠正確擴充套件,可能是一項突破性技術。


參考連結
https://www.liquid.ai/#team
https://techcrunch.com/2023/08/17/what-is-a-liquid-neural-network-really/
https://news.mit.edu/2021/machine-learning-adapts-0128
https://www.bostonglobe.com/2023/12/06/business/liquid-ai-boston-chatgpt/
https://techcrunch.com/2023/12/06/liquid-ai-a-new-mit-spinoff-wants-to-build-an-entirely-new-type-of-ai/


文章來源:機器之心