7B智慧體僅憑9個任務訓練即超越R1!上交大打造AI-for-AI新正規化

 2025-06-21 21:04:44.0

圖片

儘管人工智慧(AI)在飛速發展,當前 AI 開發仍嚴重依賴人類專家大量的手動實驗和反覆的調參迭代,過程費時費力。這種以人為中心的方式已成為制約創新速度和通向通用人工智慧(AGI)的關鍵瓶頸。為突破限制,AI-for-AI(AI4AI)應運而生。AI4AI 旨在讓 AI 作為智慧體來自主設計、優化和改進 AI 演算法,大幅減少人類干預,加速迭代開發週期,推動 AGI 發展程序。

圖片

最近,上海交通大學與上海人工智慧實驗室聯合團隊最新研究表明,一個僅依賴 7B 引數大模型的 AI 智慧體(ML-Agent),採用 「經驗學習」 新正規化,只在 9 個機器學習任務上持續探索學習,迭代進化,最終就能設計出超越 671B Deepseek-R1 驅動的智慧體設計的 AI 模型,首次實現了在自主機器學習領域從 「提示工程」 到 「經驗學習」 的正規化躍遷,開創了 AI4AI 的新路徑。

圖片
  • 論文標題:

    ML-Agent: Reinforcing LLM Agents for Autonomous Machine Learning Engineering

  • 論文地址:

    https://arxiv.org/pdf/2505.23723

  • 程式碼地址:

    https://github.com/MASWorks/ML-Agent

傳統自主機器學習:費時低效的困境

傳統機器學習工程繁瑣低效,研究人員常需數天至數月進行模型設計、引數調優,與反覆試錯,限制了 AI 創新發展的速度。最近,基於大語言模型(LLM)的智慧體(Agent)的出現給該領域帶來顯著變革。它們能理解自然語言指令,生成程式碼並與環境互動,實現自主機器學習(Autonomous Machine Learning,AI4AI),提升 AI 開發效率。

然而,這些智慧體仍高度依賴人工設計的提示詞(Prompt Engineering),缺乏從經驗中自主學習與泛化的能力。其能力提升仍需研究人員根據數小時的執行結果不斷調整提示詞形成 "等待 - 修改 - 重試" 的低效迴圈,仍難以擺脫對人力的依賴與效率瓶頸。

AI4AI 破局之路:從指令遵循到自我進化

為解決這一關鍵限制,該研究首次探索了基於學習的智慧體自主機器學習正規化,其中智慧體可以通過線上強化學習從機器學習任務的執行軌跡中進行學習。這種方式使得智慧體能夠主動探索不同的策略,跨任務積累知識,逐步優化決策,持續從自身經驗中學習,並通過訓練不斷提升其設計優化 AI 的能力。

圖片

      自主機器學習流程

ML-Agent:首個經驗學習的 AI4AI 智慧體

利用提出的訓練框架,研究人員訓練了一個由 7B 規模的 Qwen2.5 大模型驅動的自主機器學習智慧體。在訓練過程中,智慧體能夠高效地探索機器學習的環境,從經驗中學習,並通過對各種機器學習任務的迭代探索實現持續的效能提升。令人驚喜的是,只在 9 個機器學習任務上反覆學習,7B 的智慧體不僅超越了 671B 規模的 DeepSeek-R1 智慧體,還表現出了卓越的跨任務泛化能力。這項研究標誌着 AI 智慧體在設計 AI 中從 "工具執行者" 向 "自主學習者" 的轉變,帶來了 「AI 自主設計 AI」 的新正規化。

圖片

      自主機器學習訓練框架

三大核心突破,解鎖 AI 自進化

研究團隊提出全新訓練框架,攻克自主機器學習三大難題:

1️⃣ 敢想敢試:探索增強微調

  • 問題:傳統自主機器學習智慧體重複相似操作,創新受限!

  • 解法:探索增強微調 (Exploration-enriched fine-tuning),通過精心設計的多樣化的專家軌跡資料集,訓練智慧體嘗試不同策略,大幅提升探索能力。

  • 效果:拓寬智慧體的探索範圍,增強後續強化學習階段多樣化策略生成能力,不再侷限區域性最優解,而是具備更廣泛的策略選擇空間!

圖片

      探索增強微調助力強化學習訓練

2️⃣ 快速迭代:逐步強化學習正規化

  • 問題:完整迭代機器學習實驗需數小時,傳統 RL 方法在機器學習實驗中取樣效率低下!

  • 解法:逐步強化學習正規化(Step-wise RL paradigm),重構訓練目標函式,每次只優化單步動作,資料收集效率提升數倍。

  • 效果:RL 訓練階段可擴充套件性提高,訓練時間顯著縮短!

圖片

逐步強化學習(紅線,每訓練 5 步進行一次評測)比基於整條軌跡的強化學習(藍線,每訓練 1 步進行一次評測)更高效

3️⃣ 聽懂反饋:定製化獎勵模組

  • 問題:實驗反饋複雜(如程式碼錯誤、資源溢位、效能提升),難以統一!

  • 解法:機器學習定製化獎勵模組(Agentic ML-Specific Reward Module) 懲罰錯誤、鼓勵改進,將機器學習多樣執行結果轉換為統一反饋。 

  • 效果:為 RL 優化提供一致有效的獎勵訊號,推動智慧體在自主機器學習訓練中進行持續迭代改進!

圖片

      機器學習定製化獎勵模組每一組成部分的有效性

ML-Agent 持續進化,展現泛化能力!

研究團隊利用所提訓練框架訓練了一個由開源大模型 Qwen2.5-7B 驅動的自主機器學習智慧體 ——ML-Agent,並開展廣泛的實驗以評估其效能。結果表明:

✅ ML-Agent 具有強大泛化能力

研究將 ML-Agent 與 5 個強大的開源 / 閉源 LLM 驅動的智慧體進行了比較。下表說明,ML-Agent 在見過 / 未見過的機器學習任務中的平均和最好效能都達到了最高。令人驚喜的是,只在 9 個機器學習任務上不斷學習,7B 大模型驅動的 ML-Agent 就在所有 10 個未見過的機器學習任務上超過了 671B 的 Deepseek-R1 驅動的自主機器學習智慧體,展現出了強大的泛化能力。

圖片

ML-Agent 具有強大泛化能力

✅ ML-Agent 優於最先進方法

爲了進一步證明訓練框架的有效性,研究人員將 ML-Agent 與一個專門為自主機器學習設計的 LLM 智慧體(AIDE)作比較。結果顯示,ML-Agent 總體優於 AIDE 智慧體,凸顯了所提訓練框架的有效性。

圖片

                            ML-Agent 優於最先進的自主機器學習智慧體

✅ ML-Agent 持續進化

隨著訓練的進行,ML-Agent 不斷自我探索,從自主機器學習的經驗中學習,在訓練過 / 未經訓練過的機器學習任務上效能持續提升,最終超越所有基線方法。

圖片

      ML-Agent 的自主機器學習能力在訓練中持續提升

ML-Agent 引領了 AI4AI 的新正規化,將自主機器學習從依賴人類優化的、提示工程的低效模式,轉變為智慧體自主探索的、基於自我經驗學習的設計方式。這一轉變大幅減少人類干預,加速了 AI 演算法的設計迭代。隨著 ML-Agent 在更多的機器學習任務上持續自我學習與探索,其能力有望不斷提升,設計出更高效智慧的 AI,為構建強大的 AI4AI 系統奠定堅實基礎,為實現通用人工智慧的長遠目標貢獻關鍵力量。

MASWorks 大模型多智慧體開源社羣

ML-Agent 也是最近剛發起的大模型多智慧體開源社羣 MASWorks 的拼圖之一。MASWorks 社羣致力於連線全球研究者,匯聚頂尖智慧,旨在打造一個開放、協作的平臺,共同分享、貢獻知識,推動多智慧體系統(MAS)領域的蓬勃發展。

作為社羣啟動的首個重磅活動,MASWorks 將在 ICML 2025 舉辦聚焦大語言模型多智慧體的 Workshop:MAS-2025!期待全球廣大學者的積極參與,共同探討、碰撞思想,描繪 MAS 的未來藍圖!

  • MASWorks 地址:

    https://github.com/MASWorks

  • MAS-2025 地址:

    https://mas-2025.github.io/MAS-2025/

文章來源:機器之心