圓桌|世界模型的「前世今生」與終局猜想

 2026-02-12 15:39:00.0

至今,科技圈對「世界模型」仍未給出一個標準定義。但這不妨礙它成為當下最性感的敘事:

在VC眼中,它是驗證商業閉環的終極沙盤;在具身智慧賽道,它是讓機器人學會「走一步看三步」的預判大腦;而在元宇宙的廢墟之上,它被視為資訊載體從2D視訊向3D互動世界躍遷的最後一塊拼圖。

就在1月23日,據彭博社報道,李飛飛正在就其創辦的初創公司 World Labs 進行新一輪融資洽談,目標估值約為 50 億美元。

在這個概念還未被祛魅的時刻,中關村早期投資論壇找到幾位不同背景的先行者。他們不談虛無的共識,只求在視角的碰撞中,釐清這波AI新浪潮的真實商業脈絡。

由雷峰網(公眾號:雷峰網)總編輯林覺民主持的一場圓桌論壇上,英諾科創基金合夥人王晟、流形空間創始人武偉、VAST創始人宋亞宸以及千訣科技合夥人蔣屹舟齊聚一堂。這場對話並非爲了尋求某種平庸的共識,而是旨在呈現出一場關於世界模型討論。

圓桌|世界模型的「前世今生」與終局猜想

圓桌論壇現場


以下是本次圓桌的深度對話實錄:

林覺民:請各位做一下簡單的自我介紹。

圓桌|世界模型的「前世今生」與終局猜想

雷峰網總編輯林覺民

武偉: Manifold AI(流形空間),去年6月剛成立,專注世界模型,目前主攻具身大腦落地,用在機械和無人機上。

宋亞宸:VAST創始人,做AI 3D大模型,服務遊戲、動畫、影視這些需要"造世界"的場景。

蔣屹舟:千訣科技合夥人,今天本來是師兄(CEO)來,我們師兄弟三人一起創業,我臨時頂包。我們做家居場景的通用機器人類腦大腦,用類腦技術做決策和感知。

一、 概念定義:從模擬到預測

林覺民:聽說這場圓桌本來是要"幹仗"的,主要是目前行業內對於「世界模型」尚未形成統一的定義,有人要做具身智慧的世界模型,有人做數字空間的,Google Gemini3 又是一派。所以今天我們不凝聚共識,就各抒己見,百家爭鳴。

王晟(英諾科創基金):

我們將世界模型視為特定領域內逼近「Ground Truth(地面真值)」的模擬系統。

它不一定要在物理上100%復刻真實世界,而是要定義一個「域(World)」,比如醫療、法律或具身智慧領域。在這個域中,模型能夠模擬出符合客觀規律的反饋。以醫療為例,如果模型能準確模擬出病人服藥後的生理指標變化,且無限接近真實結果,它就是該領域的優秀世界模型。其核心價值在於提供準確的反饋(Reward),強化AI的學習效率。

圓桌|世界模型的「前世今生」與終局猜想

英諾科創基金創始人王晟

武偉(流形空間):

我們的定義包含兩個關鍵詞:模擬與互動。即「用模擬的方式實現泛化的互動」。

目前行業內主要有三個流派:1.模擬器派: 如英偉達,主要用於雲端合成數據,輔助智慧體訓練;2.通用互動介面派: 如Google Gemini、World Labs,打造開放的可互動數字環境,偏向娛樂應用;3.具身大腦派(我們所選路線): 讓機器人具備內生的推理和想象能力。不僅是模仿動作,而是通過大腦推演「如果我這樣做,世界會發生什麼變化」,從而指導實際操作。

圓桌|世界模型的「前世今生」與終局猜想

流形空間創始人 武偉

林覺民:Manifold和蔣總都是做「大腦」的,我們現在是哪個路線,以及為什麼要選擇這樣的路線?

武偉(流形空間):

準確說是foundation model 派 vs 內腦架構派。我們把世界模型當作機器人原生的 foundation model,建模物理空間移動和操作的內生認知,用一段式或兩段式端到端實現;千訣則是模擬人腦分割槽,用多個小模型/skills組合來降低功耗。

這種差異純粹是團隊基因決定的——我們是晟總 PPT 裡那批"CV 派+自動駕駛派",我 2015 年加入商湯幹了十年,2021-2025 年在中國最早提出自動駕駛端到端和世界模型。這種背景讓我們必須 all in 端到端和資料的 scaling,而不是走小模型拼接的路線。

宋亞宸(VAST):

李飛飛 World Labs 的 BP 裡唯一提到的公司就是我們,我還發給晟總偷看了。她定義世界模型三大場景:3D 生成、XR 空間智慧、機器人——前兩個纔是重點。

Luma(我們老同行,做 AI 3D 轉去做世界模型)剛融了 9 億美金,比李飛飛還多,估值 40 億。這說明世界模型確實是 AI 終局,但分兩層:一層是具身智慧讓機器人替代人類,這層很可怕——作為文科生,要是會寫小說,未來就是恐怖片。

另一層更重要:勞動力被解放後,人最終只能卷創意本身。當 AI 3D 讓人"造萬物"、AI Coding 讓人"定規則",每個人都能零門檻創造虛擬世界——重力可以不是 9.8,你可以飛、可以重寫社會規則。這就是馬良的神筆,人人為我、我為人人的"天堂"。

未來人的價值,就看你創造的世界裏別人願意花多少時間。AI 讓人像神一樣創造世界級體驗,這纔是世界大模型的終局意義。

圓桌|世界模型的「前世今生」與終局猜想

VAST創始人宋亞宸

林覺民:您這就是想造個"言出法隨"的東西?

宋亞宸(VAST):必然的!未來每個人心想事成、言出法隨,就是馬良的神筆。

林覺民:快過年了,這話太應景了,不過宋總確實站得高,不僅是李飛飛 BP 裡唯一提到的公司,他自己也是 MiniMax 早期創始人,剛纔直接把世界模型定義成了整個 AI 的終局。

蔣屹舟(千訣科技):

其實早年實驗室看世界模型,核心在於"理解世界"而非預測——就像牛頓看蘋果落地能推匯出萬有引力公式,或者AI只讀文字就能畫出世界地圖,這是一種對物理規律的底層抽象。

後來李飛飛帶火了"預測世界",我們起初覺得"又來吹牛了",這不就是十年前強化學習裡用的"視訊預測"換了個名字嗎?但後來發現對機器人確實關鍵——沒有理解就無法外推,比如疊大小不同的衣服,這種細微差別很難人工建模,必須讓模型具備底層認知才能做預測。

我們走類腦路線(非端到端的小模型組合),因為機器人不像GPT可以"思考十分鐘",人看到機器人在等待會很痛苦。所以世界模型對我們來說是"一步三算、一步十算",像CPU分支預測一樣提前推演各種可能性分支(比如回家打掃時遇到不同情況該怎麼走),現在主要用於決策環節,讓機器人具備真正的實時反應能力。

圓桌|世界模型的「前世今生」與終局猜想

千訣科技創始人蔣屹舟

林覺民:所以蔣總我們其實已經把世界模型用在現實生活中了是嗎?

蔣屹舟:對,目前用的更多可能是決策環節,因為我們的決策是能夠一步三算的。

林覺民:李飛飛吹牛不怕,只要能實現,這個東西還是一個很好的願景。

二、 技術路線:端到端 VS 類腦架構

林覺民:世界模型路線五花八門,最後拼什麼才能跑出來?

王晟(英諾科創基金):這個問題挺複雜的,世界模型現在更多是投資共識的"標籤"——就像之前必須投"具身智慧"一樣,現在必須投"基於世界模型的具身智慧",這樣纔好交流、好決策。但細節層面其實一團亂麻,每家定義都不同,我作為投資人可以接受任何聽起來合理的定義。

真正決定勝負的只有一點:你能不能建立一套接近 ground truth 的驗證/模擬系統,能源源不斷產出高質量資料。 在 scaling law 的暴力美學下,資料是核心燃料,尤其在具身領域,corner case 資料直接決定機器人會不會像自動駕駛一樣出事故。這套系統產出的資料必須夠 scale、夠真實(能給你準確的 reward),同時分佈均衡(稠密和稀疏性平衡),才能訓練出既不過擬合也不稀疏的模型——核心還是歸到資料。

林覺民:武總是做「大腦」的,過去一個月發了兩個大腦模型,都宣稱自己是世界第一,想請武總聚焦具身大腦領域回答一下。

武偉(流形空間):

商業公司活路就兩條:要麼 Day 1 有健康現金流,要麼燒錢但增長快、天花板高。世界模型顯然屬於後者,關鍵看三點:找對落地場景、增長夠快、天花板夠高。

我們選具身大腦作為第一個產品化方向。做個思維遊戲:人從出生到 18 歲,眼睛大概收集 300 萬 clips;掌握 2000 個工種,再攢 3 億 clips。人類一輩子能收集的資料天花板約 10 億 clips。 如果能用 10 億 clips 訓出世界模型,達到人的智慧化上限——簡單任務零樣本泛化,複雜任務幾十個樣本學會——這就是世界模型的終極天花板,商業價值極高。

倒推回來,做世界模型公司怎麼 survive?快速收集 10 億高質量資料、找到能 pre-train 的架構、泛化到零樣本/少樣本的應用場景——這三件事做到,就能在具身大腦這個狹窄賽道里跑出來。

宋亞宸(VAST):

為什麼今天大家都在談論世界模型?並不是因為AI技術突然成熟了,也不是因為具身智慧到了某個時間點。根本原因在於,人類的資訊載體正在經歷一場終極升維。

回顧人類歷史,我們其實一直在做一件事:對「真實世界」進行壓縮。

在文字誕生前的史前文明(如良渚文化),人類接觸的是直接的、3D的大自然,那是「原檔案」。後來爲了便於傳播,我們不得不將這些3D體驗「壓縮」——先是壓縮成文字(龜殼刻字),再是圖片,直到1889年我們發明了視訊。視訊本質上依然是對3D世界的一種「ZIP壓縮包」。

當資訊密度越低(如文字),傳播越容易;當頻寬和算力提升,我們纔開始普及圖片和視訊。而到了AI時代,基礎設施終於足以支撐我們解壓這個「壓縮包」,讓我們重新回到3D和世界本身。

所以,世界模型不是新物種,而是資訊載體的「復原」。我們終於有能力不再處理壓縮後的視訊,而是直接以3D原檔案作為媒介。這纔是世界模型出現的真正意義。

林覺民:這個相當於是對資訊的利用效率?

宋亞宸:本質是傳播成本決定載體形式——資訊密度越低越易傳播,所以龜殼時代只能刻字,網際網路時代能傳圖文視訊。而 3D 或世界本身,纔是我們最終的資訊載體。

蔣屹舟(千訣科技):

我們認為世界模型不侷限於視覺——盲人操作物體靠的不是看,而是對物理因果的理解(知道動作會帶來什麼後果,進而影響下一步決策)。這種對因果關係的把握纔是核心。

類腦路線採用非端到端架構,最大優勢是不需要暴力堆資料。現在 VLA 很頭疼的是必須靠機械臂瘋狂採集或模擬訓練,而我們認為可以用人類判斷代替——比如抓取物體,不必讓機械臂試成千上萬次,直接讓人判斷"人會怎麼抓",把這套理解餵給模型就夠了。

另外,世界模型也不一定要理解整個自然世界,人類構建的抽象世界也算——語言就是人對世界的最根本抽象,LLM 已經證明了這一點。所以只要在任意層面具備對世界的理解和預測能力,就是世界模型。我們的工作會在各個模型裡融入這種思路,不侷限於單一技術路線。(雷峰網雷峰網雷峰網)

文章來源:雷鋒網