DeepMind「通才」AI智慧體Gato來了,多模態、多工,受大語言模型啓發

 2022-05-13 16:18:11.0

假如使用單一序列模型就能解決所有任務,是再好不過的事情,因為這種模型減少了不必要的麻煩。不過這需要增加訓練資料的數量和多樣性,此外,這種通用模型隨著資料的擴充和模型的擴充套件,效能還會提高。從歷史上看,更擅長利用計算的通用模型最終也會超過特定於專門領域的模型。

今日,受大規模語言建模的啓發,Deepmind 應用類似的方法構建了一個單一的「通才」智慧體 Gato,它具有多模態、多工、多具身(embodiment)特點。
論文地址:https://storage.googleapis.com/deepmind-media/A%20Generalist%20Agent/Generalist%20Agent.pdf

Gato 可以玩雅達利遊戲、給圖片輸出字幕、和別人聊天、用機械臂堆疊積木等等。此外,Gato 還能根據上下文決定是否輸出文字、關節力矩、按鈕按壓或其他 token。
與大多數智慧體玩遊戲不同,Gato 使用相同的訓練模型就能玩許多遊戲,而不用為每個遊戲單獨訓練。
Gato 的訓練資料集應該儘量廣泛,需要包括不同模態,如影象、文字、本體感覺(proprioception)、關節力矩、按鈕按壓以及其他離散和連續的觀察和行動。

爲了能夠處理這種多模態資料,Deepmind 將所有資料序列化為一個扁平的 token 序列。在這種表示中,Gato 可以從類似於標準的大規模語言模型進行訓練和取樣。在部署期間,取樣的 token 會根據上下文組合成對話響應、字幕、按鈕按下或其他動作。

UCL 計算機系教授汪軍告訴機器之心,DeepMind 的這項最新工作將強化學習、計算機視覺和自然語言處理這三個領域合到一起,雖然技術思路上沿用了前人的方法,但能將 CV、NLP 和 RL 這三個不同模態對映到同一個空間,用一套參數列達,是非常不容易的。

其積極意義在於,證明了 CV、NLP 和 RL 的結合是切實可行的,通過序列預測能夠解決一些決策智慧的問題。考慮到 Gato 模型目前的引數量只能算中等,接下來繼續往這個方向探索,構建更大的模型,將會有非常大的意義。

不過,Gato 大模型的 RL 部分只採用了監督學習方法,並未觸及強化學習真正的核心——reward 設計機制,目前的任務中也沒有多智慧體決策的問題。汪軍教授表示,他的團隊近期在決策大模型上做了很多探索,包括證明多智慧體決策也可以是序列模型,相關成果將於近期公佈,歡迎大家關注。

Gato 智慧體細節

在 Gato 的訓練階段,來自不同任務和模態的資料被序列化為扁平的 token 序列,由一個類似於大型語言模型的 transformer 神經網路進行 batch 和其他處理。由於損失被 masked,Gato 只預測動作和文字目標。

下圖為 Gato 的訓練流程。
在部署 Gato 時,提示(如演示)被 tokenised,形成了初始序列。接著,環境產生了首個觀察結果,該結果也被 tokenised 並新增到序列中。Gato 以自迴歸的方式對動作向量進行取樣,一次只採樣一個 token。

一旦包含動作向量的所有 token 都被取樣(由環境的動作規範確定),動作被解碼併發送給環境,然後逐步產生新的觀察結果。重複這一過程。Gato 模型始終在包含 1024 個 token 的上下文環境視窗內檢視之前所有的觀察結果和動作。
下圖展示了將 Gato 部署為控制策略(control policy)的流程。
除了各種自然語言和影象資料集之外,Gato 還在包含模擬和真實環境中智慧體經驗的大量資料集上進行了訓練。

下表 1 左為用於訓練 Gato 的控制資料集,右為視覺與語言資料集。樣本權重(sample weight)表示每個資料集在訓練序列 batch 中平均所佔的比例。
Gato 智慧體能力

研究者彙總了在以上資料上訓練時 Gato 的效能。也就是說,所有任務的所有結果都來自具有一組權重的單一預訓練模型。微調結果將在「實驗分析」章節展示。

模擬控制任務

下圖 5 展示了 Gato 在給定分數閾值之上執行不同控制任務的數量相對於 Gato 訓練資料中的專家表現。其中,x 軸上的值表示專家分數的特定百分比,0 對應隨機智慧體效能。y 軸表示預訓練模型的平均效能等於或高於特定百分比時的任務數量。

研究者將效能報告為百分比,其中 100% 對應每個任務的專家,0% 對應於隨機策略。對於訓練模型的每個模擬控制任務,他們在相應的環境中 roll out Gato 策略 50 次,並對定義的分數進行平均。如下圖所示,Gato 以超過 50% 的專家分數閾值執行了 604 個任務中的 450 多個。
在 ALE Atari 中,Gato 在 23 場 Atari 遊戲中取得了人類平均(或更高的)分數,在 11 場遊戲中取得了兩倍於人類的分數。雖然生成資料的單任務線上 RL 智慧體依然優於 Gato,但可以通過增加容量或使用離線 RL 訓練而非純監督克服。研究者在文中還介紹了一個專業的單域 ALE Atari 智慧體,它在 44 場比賽中都取得比人類更好的分數。

在 BabyAI 中,Gato 在幾乎所有級別上都得到了 80% 以上的專家分數。對於最困難的任務 BossLevel,Gato 的得分為 75%。相比之外,另外兩個已釋出的基準 BabyAI 1.0 和 BabyAI 1.1 分別使用 100 萬次演示對該單一任務進行訓練,它們的得分不過為 77% 和 90%。

在 Meta-World 中,Gato 在接受訓練的 45 個任務中的 44 箇中得到了 50% 以上的專家分數,35 個任務上得到 80% 以上,3 個任務上超過 90%。在規範的 DM Control Suite 上,Gato 在 30 個任務中的 21 個上都得到了 50% 以上的專家分數,在 18 個任務上得到 80% 以上。

機器人基準評估

第一視角遠端操作可以收集專家演示。然而,此類演示收集起來速度慢成本高。因此,資料高效的行為克隆方法對於訓練通用機器人操縱器是可取的,離線預訓練成為一個很有動力的研究領域。研究者也在已建立的 RGB Stacking 機器人基準上對 Gato 進行了評估。

RGB Stacking 機器人基準上的技能泛化挑戰測試了智慧體堆疊以往未見過形狀的物件的能力。智慧體在一個包含各種形狀機器人堆疊物件的 episodes 的資料集上進行訓練。但是,五個物件形狀的三元組沒有包含在訓練資料中,而是作為測試三元組。研究者針對真實機器人上的每個測試三元組對訓練的 Gato 進行了 200 輪的評估。

下表 2 的結果表明,Gato 在每個測試三元組上的成功率與 Lee 等人(2021)提出的單任務 BC-IMP(filtered BC)基準相當。
文字示例

Gato 智慧體也能生成基本對話以及給影象加字幕(或描述)。下圖 6 展示了 Gato 為影象加字幕的代表性示例。
下圖 7 展示了一些精選的純文字對話交流示例。
實驗分析

下圖 8 中,DeepMind 評估了 3 種不同模型大小(以引數計數衡量):79M 模型、364M 模型和 1.18B 模型 (Gato)。可以得出,在相等的 token 數下,隨著模型的擴充套件,模型效能隨之提高。
下圖 10 將 Gato 在不同微調數據機制中的成功率與 sim-to-real 專家和 Critic-Regularized Regression (CRR) 智慧體進行了比較,結果如下:Gato 在現實和模擬中(分別為左圖和右圖的紅色曲線),僅用 10 episodes 就恢復了專家的表現,並在 100 或 1000 episodes 微調資料時達到峰值,超過了專家。在此點之後(在 5000 處),效能會略有下降,但不會遠遠低於專家的效能。
下表 3 為 Gato 和 BC-IMP 比較結果。
原文連結:
https://www.deepmind.com/publications/a-generalist-agent

文章來源:機器之心