ICML 2025 Oral | NAS老樹開新花，NUS提出智慧體超網，成本狂降55%

2025-06-21 21:14:53.0

本文第一作者為張桂彬，新加坡國立大學25Fall電腦科學博士生；本文在南洋理工大學的王琨博士、上海人工智慧實驗室的白磊老師、和中國科學技術大學的王翔教授指導下完成。

LLM 智慧體的時代，單個 Agent 的能力已到瓶頸，組建像「智慧體天團」一樣的多智慧體系統已經見證了廣泛的成功。但「天團」不是人越多越好，手動設計既費力又不討好，現有的智慧體自動化方法又只會「一招鮮」，拿一套複雜陣容應對所有問題，導致「殺雞用牛刀」，成本高昂。

現在，一篇來自新加坡國立大學、上海 AI Lab、同濟大學等機構並被 ICML 2025 接收為 Oral Presentation 的論文，為我們帶來了全新的解題思路。

他們將神經網路架構搜尋（NAS）的超網路（Supernet）思想引入 Agent 領域，首創了一個名為「智慧體超網」（Agentic Supernet）的概念。它不再尋找一個固定的最佳「陣容」，而是根據任務難度，動態「剪」出一個量身定製的智慧體團隊。結果有多驚豔？效能超越現有方法最高 11.82%，推理成本卻只有它們的 45%！

論文地址：https://arxiv.org/abs/2502.04180
Github 連結：https://github.com/bingreeky/MaAS
論文標題：Multi-agent Architecture Search via Agentic Supernet

智慧體的「一體化」困境：從設計內捲到資源浪費

如今，從 AutoGen 到 MetaGPT，各種多智慧體系統（Multi-agent Systems）層出不窮，通過定製化的協作，其能力在多個領域（如程式碼生成，複雜通用 AI 任務）已超越了單個智慧體。但一個核心痛點始終存在：這些系統的設計往往依賴於繁瑣的人工配置和 Prompt 工程。爲了解決這個問題，研究界轉向自動化設計，比如通過強化學習、進化演算法、蒙特卡洛樹搜尋等方式尋找最優的 Agent 工作流。

然而，這又帶來了新的困境：

1. 資源浪費 (Dilemma 1)：諸如 AFlow 和 ADAS 這樣的自動化多智慧體系統優化方法傾向於找到一個極其複雜的「萬金油」式系統，以確保在所有任務上表現優異。但面對「10+1*2.5=？」這樣的簡單問題，動用一個需要數十次 LLM 呼叫的複雜系統，無疑是巨大的資源浪費。

2. 任務衝突 (Dilemma 2)：在 GAIA 這樣的多領域基準測試中，一個擅長文獻總結的多智慧體系統，不一定擅長網頁瀏覽總結 —— 似乎不存在一個能在所有任務上都最優的「全能冠軍」。

面對這種「要麼手動內卷，要麼自動浪費」的局面，我們是否該換個思路了？

Agentic Supernet：從「選一個」到「按需生萬物」

這篇論文的核心貢獻，就是一次漂亮的「正規化轉移」 (Paradigm Reformulation)。作者提出，我們不應該再執著於尋找一個單一、靜態的最優智慧體架構。相反，我們應該去優化一個「智慧體超網」（Agentic Supernet） —— 這是一個包含海量潛在智慧體架構的概率分佈。

^{圖 1 智慧體超網路}

這個「超網」就像一個巨大的「能力兵工廠」，裏面包含了諸如思維鏈（CoT）、工具呼叫（ReAct）、多智慧體辯論（Debate）等各式各樣的基礎能力「運算元」（Agentic Operator）。當一個新任務（Query）到來時，一個「智慧控制器」（Controller）會快速分析任務的難度和型別，然後從這個「兵工廠」中，動態地、即時地挑選並組合最合適的幾個「運算元」，形成一個量身定製的、不多不少、資源分配額剛剛好的臨時智慧體系統去解決問題。

上圖生動地展示了這一點：

對於簡單問題 (a, b)：MaAS 在第二層就選擇了「提前退出」（Early-exit），用最簡單的 I/O 或 ReAct 組合快速給出答案，極大節省了資源。
對於中等和困難問題 (c, d)：MaAS 則會構建更深、更復雜的網路，呼叫更多的運算元來確保問題得到解決。

這種「按需分配、動態組合」的哲學，正是大名鼎鼎的 NAS 的核心思想。如今，MaAS 框架將其成功地應用在了多智慧體架構搜尋（Multi-agent Architecture Search）上，可以說是 NAS 在 Agentic 時代的重生和勝利。

MaAS 的「三板斧」如何玩轉智慧體架構？

接下來，我們就一起拆解 MaAS 的「獨門祕籍」。其核心思想，可以概括為定義藍圖 → 智慧排程 → 自我進化三步走戰略。

第一板斧：定義萬能「藍圖」 - Agentic Supernet

傳統方法是設計一個具體的 Agent 架構 (System)，而 MaAS 的第一步，就是定義一個包含所有可能性的「宇宙」—— 智慧體超網 (Agentic Supernet)。

1. 智慧體運算元 (Agentic Operator)：首先，MaAS 將智慧體系統拆解為一系列可複用的「原子能力」或「技能模組」，也就是智慧體運算元 (O)。這包括了：

I/O: 最簡單的輸入輸出。
CoT (Chain-of-Thought): 引導模型進行循序漸進的思考。
ReAct: 結合思考與工具呼叫。
Debate: 多個 Agent 進行辯論，優勝劣汰。
Self-Refine: 自我批判與修正。
... 等等，這個「技能庫」是完全可以自定義擴充套件的！

2. 概率化智慧體超網 (Probabilistic Agentic Supernet)：有了這些智慧體運算元，MaAS 將它們組織成一個多層的、概率化的結構。你可以想象成一個分了好幾層的巨大「技能池」。

每一層都包含了所有可選的智慧體運算元。
每個模組在每一層被「選中」的概率（π）是不固定的，是可以學習和優化的。

^{圖 2 MaAS 自進化框架示意圖}

如圖 2 所示的智慧體超網，就是 MaAS 施展魔法的舞臺。它不是一個靜態的系統，而是一個智慧體系統架構的概率分佈空間。

第二板斧：智慧「排程師」 - 按需取樣架構

有了「藍圖」，當一個具體的任務（Query q）來了，如何快速生成一個「定製團隊」呢？這就輪到 MaAS 的「智慧排程師」—— 控制器網路 (Controller) 上場了。控制器的工作流程如下所示：

1. 「閱讀」任務：控制器首先將輸入的 Query q 進行編碼，理解其意圖和難度。

2. 逐層挑選：然後，它從超網的第一層開始，逐層為當前任務挑選最合適的「技能模組」。

3. MoE 式動態選擇：這裏的挑選機制非常精妙，它採用了一種類似混合專家（MoE）的策略。

在每一層，控制器會為所有待選的技能模組計算一個「啟用分數」。這個分數取決於當前任務 q 以及之前層已經選定了哪些模組。

然後，它會從分數最高的模組開始，依次啟用，直到這些被啟用模組的累計分數總和超過一個預設的閾值 (thres)。

這個設計恰恰與 MaAS 的動態性緊密相關！這意味著：

簡單任務可能在某一層只啟用一個智慧體運算元就夠了。
複雜任務則會啟用更多的運算元，可能是兩個、甚至三個，以保證足夠的解決能力。
同時，如果「早停 (Early-Exit)」這個特殊的運算元被選中，整個取樣過程就會提前結束，完美實現了「見好就收」。

通過這種方式，MaAS 為每一個 Query 都動態生成了一個獨一無二的、資源配比恰到好處的 Agent 執行圖（G），實現了真正的「查詢感知（Query-aware）」。

第三板斧：雙軌「進化引擎」 - 成本約束下的優化

生成了臨時團隊去執行任務還不夠，MaAS 還要能從經驗中學習，讓整個「超網」和「運算元」都變得越來越強。但這裏有個難題：整個 Agent 執行過程是「黑盒」的，充滿了與外部工具、API 的互動，無法進行端到端的梯度反向傳播！為此，MaAS 採用了雙軌優化策略，分別對「架構分佈」和「運算元本身」進行更新：

1. 架構分佈 (π) 的進化 - 蒙特卡洛策略梯度：

MaAS 的目標函式不僅要考慮任務完成得好不好（Performance），還要考慮花了多少錢（Cost，如 token 數）。
它通過蒙特卡洛取樣來估計梯度。簡單說，就是讓取樣出的幾個不同架構（G_k）都去試試解決問題。
然後，根據每個架構的「價效比」（即效能高、成本低）賦予其一個重要性權重 (m_k)。
最後，用這個權重來更新超網的概率分佈 π，讓那些「又好又省」的架構在未來更容易被取樣到。

2. 運算元 (O) 本身的進化 - Textual Gradient (文字梯度)：

這是最「魔法」的地方！如何優化一個 Prompt 或者一段 Python 程式碼？MaAS 借鑑了「文字梯度」的概念。

它會利用一個梯度智慧體，來分析某個運算元（比如 Debate 運算元）的表現。

如果表現不佳，這個「教練」會生成一段文字形式的「改進意見」，這就是「文字梯度」。比如：

「給這個 Refine 過程的 Prompt 裡增加一個 few-shot 示例。」
「爲了穩定性，降低這個 Ensemble 模組裡 LLM 的 temperature。」
「給這個 Debate 運算元增加一個‘反對者’角色，以激發更深入的討論。」

^{圖 3 文字梯度案例}

效能、成本、通用性：全都要！

MaAS 的效果不僅理念先進，資料更是亮眼。

^{圖 4 MaAS 與其他多智慧體方法效能比較}

如上圖所示，在 GSM8K、MATH、HumanEval 等六大主流基準測試上，MaAS 全面超越了現有的 14 個基線方法，效能提升了 0.54% ~ 11.82%。平均得分高達 83.59%，展示了其卓越的通用性和高效性。

^{圖 5 訓練與推理成本比較}

成本大降是更令人興奮的一點。MaAS 所需的推理成本（如 token 消耗）平均只有現有自動化或手動系統的 45%。在 MATH 基準上，MaAS 的訓練成本僅為 3.38 美元，而表現相近的 AFlow 則高達 22.50 美元，相差 6.8 倍。除此之外，MaAS 的優化時間僅需 53 分鐘，遠低於其他動輒數小時的方法。

^{圖 6 MaAS 成本視覺化}

上圖同樣展示了 MaAs 在訓練 token 消耗、推理 token 消耗和推理 API 金額方面的卓越效能。

^{圖 7 MaAS 推理動態展示。可以看到，針對不同難度的 query，MaAS 智慧地啟用了不同的智慧體網路架構解決之。}

上圖是 MaAS 對於不同難度的 query 的啟用動態。可以看到，MaAS 完美地做到了任務難度的動態感知，對於簡單的任務早早地退出了推理過程，而對於複雜的任務則深入 3～4 層智慧體超網路 u，並且每層啟用的智慧體運算元不止一個。

除此之外，MaAs 還展示出了超強泛化能力：

跨模型：在 gpt-4o-mini 上優化好的「超網」，可以輕鬆遷移到 Qwen-2.5-72b 和 llama-3.1-70b 等不同的大模型上，並帶來顯著的效能提升。
跨資料集：在 MATH 上訓練，在 GSM8K 上測試，MaAS 依然表現出色，證明了其強大的跨領域泛化能力。
對未知運算元：即使在訓練中從未見過「Debate」這個運算元，MaAS 在推理時依然可以合理地啟用並使用它，展現了驚人的歸納能力。

總結

MaAS 通過引入「智慧體超網」的概念，巧妙地將 NAS 的思想正規化應用到多智慧體系統的自動化設計中，完美解決了當前領域「一刀切」設計所帶來的資源浪費和效能瓶頸問題。它不再追求一個靜態的最優解，而是轉向優化一個動態生成的架構分佈，為不同任務提供量身定製的、最高性價比的解決方案。這項工作無疑為構建更高效、更經濟、更智慧的全自動化 AI 系統鋪平了道路。

讓我們共同期待一個完全自動化、自組織、自進化的集體智慧時代的到來！

文章來源：機器之心