「最強具身VLA大模型」，究竟強在哪兒？

2025-11-21 15:50:35.0

讓機器人從失敗中學習

henry 發自凹非寺

量子位 | 公眾號 QbitAI

看似輕描淡寫，實則力透紙背。

Physical Intelligence刷屏全網的機器人基礎模型π*0.6，一亮相就秀出了實力：

讓機器人連續一整天製作意式濃縮咖啡，數小時不間斷摺疊各類衣物，還能精準組裝工廠所需的包裝紙箱。

在π*0.6的加持下，這些任務的成功率都達到了90%以上。

然而，仔細閱讀論文就會發現，比起連做13個小時咖啡，π*0.6真正的突破在於引入了一種更直覺的學習方法——Recap：

指導：用人類示範教它基礎動作
輔導：糾錯指導讓它修正錯誤
練習：從自主經驗中不斷優化、變得更強

這徹底扭轉了過去機器人只會逼近「真值」的模仿學習模式，讓機器人能從自己的錯誤中成長。

就連網友也直呼：

從錯誤中學習，這不比人都強？

最強VLA模型——π*0.6

π*0.6延續了Physical Intelligence此前一貫的VLA（視覺-語言-動作模型）路線，是今年四月份釋出π0.5以來最新的VLA模型。

總的來說，π*0.6的核心貢獻在於提出了一種通用訓練方法——基於優勢條件策略的經驗與糾偏強化學習（RL with Experience & Corrections via Advantage-conditioned Policies，RECAP）。

RECAP讓VLA能夠使用獎勵反饋和人類介入進行訓練，其主要包含三個階段：

離線RL：基於多機器人、多工的示範資料（包括失敗資料）訓練價值函式和策略
微調：用人類示範將π*0.6適配到具體任務（咖啡/折衣服/組裝盒子）
線上階段：機器人自主執行任務，獲得稀疏獎勵，並結合專家線上糾偏，更新價值函式，再通過優勢條件化改進策略

接下來，讓我們具體來看。

首先，對於為什麼RECAP選擇價值函式，而不是標準的策略梯度，這裏有個關鍵的巧思。

一方面，真實機器人資料極度異構：包括人類示範、專家干預、以及機器人在不同策略下的執行軌跡。標準的策略梯度方法需要on-policy的新鮮資料，難以有效吸收這些歷史混合資料，因此天然不適合具身場景。

另一方面，VLA模型基於Flow Matching生成連續動作，這類模型沒有顯式的log π(a|s)，導致無法像傳統策略那樣對直接求梯度。

換句話說，PPO、REINFORCE 這些演算法在這種模型結構上根本施展不開。

因此，RECAP沒有走傳統RL的路線，而是採用了一個巧妙的「優勢條件化」策略：

模型仍按監督學習方式訓練，但額外給它一個輸入，告訴它當前動作的優勢值（advantage）。優勢越高，代表「這個動作更值得模仿」。

於是整個流程變成了：

價值函式負責評價 → 優勢條件化負責表達 → VLA用監督學習吸收所有資料

換句話說，RECAP用價值函式判斷動作質量，再用優勢條件化把原本需要RL求解的策略更新，重新寫成了大模型最擅長的監督學習問題。

訓練價值函式與策略提取：

爲了讓模型從異構資料中學習，首先需要訓練一個能夠識別「好壞」的價值函式。無論資料來自哪裏（演示或自主嘗試），處理過程如下：

計算經驗回報：對每條軌跡，從當前時間步到結束計算累計回報，並歸一化、離散化成201個區間，為價值函式提供訓練目標。
訓練分散式價值函式：用多工分散式價值函式預測離散價值分佈，通過最小化交叉熵損失進行訓練，再提取連續價值函式，得到每個狀態-動作的實際價值。
計算優勢（advantage）：用動作的實際回報減去價值函式預測，得到優勢值，並二值化形成高/低優勢指標，作為策略訓練的額外輸入，引導模型選擇更優動作。

有了優勢訊號，我們就能實現高效的策略提取。這種方法完美滿足了前文提到的對離線RL的需求：

充分利用多樣化的離策略資料：包括最初的人類示範、專家干預，以及機器人自主執行的軌跡（既有最新策略的，也有早期策略的）。
可擴充套件性：方法需要能夠應用於大型VLA模型，包括那些使用流匹配（flow matching）或擴散（diffusion）生成動作的模型。
同時利用優劣資料：既要有效利用近似最優的動作，也要利用次優動作的資料，這對於通過自主經驗提升策略尤其重要。

通過這種設計，RECAP成功地在不依賴昂貴線上PPO更新的情況下，利用混合質量的離線資料實現了機器人的自我進化。

線上階段：專家糾錯 + 自主經驗

在機器人自主執行階段，RECAP通過兩類資料持續優化策略：

專家糾錯：專家遠端干預糾正嚴重錯誤（如紙箱摺疊順序顛倒），每一次糾錯動作都會被標記為「正向優勢」，訓練模型學習如何恢復錯誤。
自主經驗：模型自主完成的軌跡，無論成功還是失敗，都納入訓練資料。通過價值函式和優勢指標，自動篩選有效訊號，優化精細動作。

模型架構與效能

π*0.6是在π0.6基礎上構建的，而π0.6又是對π0.5的升級版本。

π0.6的Backbone從Pi0、π0.5的Gemma(2.6B)擴充套件到Gemma3(4B)，Action Expert引數量也升級到了860M。

在模型架構方面，π0.6延續了π0和π0.5架構，通過流匹配（flow matching）和離散動作token 輸出生成動作片段。

從實驗來看，研究團隊在三個高難度的現實任務中評估了模型：摺疊多樣化的衣物、組裝紙箱（工廠環境）和製作濃縮咖啡。

在最難的任務（如摺疊多樣化衣物和製作咖啡）中，RECAP將任務的吞吐量（每小時成功次數）提高了一倍以上，相比於僅進行監督微調（SFT）的模型，RECAP將任務失敗率降低了約2倍。

與此同時，模型表現出極高的穩定性，例如連續13小時製作咖啡、連續2小時摺疊衣物而無需人為重置。

從失敗經驗中學習

正如開頭提到的，Recap最具啓發性的地方，莫過於它讓機器人能夠從錯誤經驗中學習。

俗話說「失敗乃成功之母」，但在傳統的模仿學習，乃至更廣泛的監督學習中，逼近真值或最優解通常被認為是最直接、最有效的策略。

這種方法在大規模語言模型（LLM）和其他機器學習系統上確實表現出色，數學上也簡潔優雅。

然而，對於現實世界的機器人，僅僅知道如何做對，卻不知道如何從錯誤中恢復，就會成為關鍵障礙。

在LLM等生成靜態輸出的AI系統中，監督學習假設資料是獨立同分布（i.i.d.），預測輸出不會影響後續輸入，因此偶爾的偏差不會帶來致命問題。

但對於需要持續與外界互動的系統，例如機器人，情況則完全不同。

模仿學習中模型的每一次動作都會影響未來狀態，一旦出現輕微錯誤，就可能進入訓練資料未覆蓋的新狀態，從而觸發滾雪球式誤差。這些錯誤疊加後，任務可能徹底失敗。

因此，要想讓機器人「每次都成功」，光靠複製示範資料是不夠的。

解決之道在於：讓視覺-語言-動作（VLA）模型能夠從自身實際犯過的錯誤中學習，就像人類通過練習不斷糾正失誤一樣。

問題在於，這些經歷該如何標註？如果簡單地讓模型複製過去的行為，它只會學會重複錯誤。關鍵是如何從「壞資料」中提煉出有效的訓練訊號。

Recap通過指導中輔以糾正，練習中輔以強化來實現這一點：

教練式糾偏（corrections）當機器人犯錯時，專家通過遙操作介入，示範如何恢復、如何更好地完成任務。

不同於傳統的示範教學，這裏不是教「該怎麼做」，而是教「當事情出錯時該如何修正」。

這種針對性糾偏彌補了傳統模仿資料的不足，是防止錯誤累積的關鍵。

強化學習（reinforcement learning）

然而，僅僅依靠人類提供糾正措施是遠遠不夠的，機器人需要自主學習。

機器人需要根據一個回合的總體結果自行判斷其行為的好壞，並迭代地學習執行好的行為，同時避免壞的行為。

由此，就引出了基於對錯獎勵的強化學習。

如上文所說，爲了實現強化學習，核心在於解決信用分配（credit assignment）的問題。

比如，要知道機器人執行的哪些動作導致了好的結果，哪些動作導致了壞的結果。

這裏，Recap通過訓練一個價值函式（value function）來應對這一挑戰，它可以預測當前狀態相較於其他狀態的優劣。

△圖源：Reinforcement learning: An introduction

舉例來說，在經典的格子世界中，智慧體會通過一次次嘗試更新每個狀態的價值：落在好格子上，價值提高；掉進壞格子裡，價值降低。

隨著價值評估逐漸準確，智慧體自然會傾向於選擇那些通向高價值狀態的動作。

同樣的邏輯放到機器人身上：價值函式的變化為模型提供了一個簡單而強大的判斷訊號。

讓價值上升的動作：代表機器人朝任務成功更近了一步，應當被強化；
讓價值下降的動作：意味著偏離目標，需要被抑制或修正。

舉例來說，在摺疊衣服任務中（左圖），紅色區域表示機器人突然將衣服拉起的錯誤動作，對應價值下降；而綠色區域表示機器人正確完成摺疊時，價值上升。

可以說，價值函式幫助機器人識別「關鍵步驟」與「錯誤來源」，讓它真正具備在複雜真實環境中從經驗中變強的能力。

當訓練好價值函式後，下一步是「策略抽取」：讓策略（即VLA模型）以價值變化為條件進行訓練。

所有資料——包括成功和未成功——都被保留，同時告知模型哪些動作是有效的、哪些動作應避免。

這種優勢條件化（advantage-conditioned）訓練能夠讓模型在保留全部經驗的前提下，從失敗中學習，從而表現超越單純示範資料的水平。

綜上，Recap不僅讓機器人學會了執行任務，更重要的是，它讓機器人學會了自我糾正和優化策略，為後續複雜任務的魯棒性和效率提升提供了可擴充套件的解決方案。

與此同時，如果從好資料（示範）少，壞資料（錯誤經驗）多的視角來看，π*0.6 的突破可能更具深遠意義 ——

它證明了機器人能從真實執行中收集的「不完美經驗」裡，提煉出高效的學習訊號，這也為後續機器人研究開闢了全新思路，提供了極具價值的探索方向。

參考連結：

[1]https://www.pi.website/download/pistar06.pdf

[2]https://www.pi.website/blog/pistar06

[3]https://www.physicalintelligence.company/download/pi05.pdf

[4]https://x.com/svlevine/status/1990574916622856290

文章來源：量子位