月之暗面「調教」出最強Agent，在「人類最後一場考試」拿下最新 SOTA

2025-06-21 21:31:40.0

昨天，月之暗面發了篇部落格，介紹了一款名為 Kimi-Researcher 的自主 Agent。

這款 Agent 擅長多輪搜尋和推理，平均每項任務執行 23 個推理步驟，訪問超過 200 個網址。它是基於 Kimi k 系列模型的內部版本構建，並完全通過端到端智慧體強化學習進行訓練，也是國內少有的基於自研模型打造的 Agent。

GitHub 連結：https://moonshotai.github.io/Kimi-Researcher/

在「人類最後一場考試」(Humanity's Last Exam) 中，Kimi-Researcher 取得了 26.9% 的 Pass@1 成績，創下最新的 SOTA 水平，Pass@4 準確率也達到了 40.17%。

從初始的 8.6% HLE 分數開始，Kimi-Researcher 幾乎完全依靠端到端的強化學習訓練將成績提升至 26.9%，強有力地證明了端到端智慧體強化學習在提升 Agent 智慧方面的巨大潛力。

Kimi-Researcher 還在多個複雜且極具挑戰性的實際基準測試中表現出色。在 xbench （一款旨在將 AI 能力與實際生產力相結合的全新動態、專業對齊套件）上，Kimi-Researcher 在 xbench-DeepSearch 子任務上平均 pass@1 達到了 69% 的分數（4 次執行的平均值），超越了諸如 o3 等帶有搜尋工具的模型。在多輪搜尋推理（如 FRAMES、Seal-0）和事實資訊檢索（如 SimpleQA）等基準測試中，Kimi-Researcher 同樣取得了優異成績。

舉個例子。我們想找一部外國動畫電影，但只記得大概劇情：

我想找一部外國的動畫電影，講的是一位公主被許配給一個強大的巫師。我記得她被關在塔裡，等著結婚的時機。有一次她偷偷溜進城裏，看人們縫紉之類的事情。總之，有一天幾位王子從世界各地帶來珍貴禮物，她發現其中一位王子爲了得到一顆寶珠作為禮物，曾與當地人激烈交戰。她指責他是小偷，因為他從他們那兒偷走了聖物。

隨後，一個巫師說服國王相信她在撒謊，說她被某種邪靈附體，並承諾要為她「淨化」，作為交換條件是娶她為妻。然後巫師用魔法讓她變成一個成年女子，並把她帶走。他把她關進地牢，但她有一枚可以許三個願望的戒指。

由於被施了魔法，讓她失去了逃跑的意志，她把前兩個願望浪費在了一些愚蠢的東西上，比如一塊布或者一張床之類的……然後她好像逃出來了……並且耍了那個巫師一把……她後來還找到了一塊可以生出水的石頭……我記得還有人被變成青蛙……

整部電影發生在一個有點後末日設定的世界裏，是一個古老魔法文明崩塌幾百年之後的背景。如果有人知道這是什麼電影，請告訴我。我一直在找這部電影，已經找了好久了。

Kimi-Researcher 就會根據給定的模糊資訊進行檢索，最終識別出該電影為《阿瑞特公主》，並一一找出該電影與劇情描述之間的對應關係。

此外，它還能進行學術研究、法律與政策分析、臨床證據審查、企業財報分析等。

Kimi–Researcher 現已開始逐步向使用者推出，可以在 Kimi 內實現對任意主題的深入、全面研究。月之暗面也計劃在接下來的幾個月內開源 Kimi–Researcher 所依賴的基礎預訓練模型及其強化學習模型。

端到端的智慧體強化學習

Kimi–Researcher 是一個自主的智慧體與思維模型，旨在通過多步規劃、推理和工具使用來解決複雜問題。它利用了三個主要工具：一個並行的實時內部搜尋工具；一個用於互動式網頁任務的基於文字的瀏覽器工具；以及一個用於自動執行程式碼的編碼工具。

傳統 agent 開發存在以下幾個關鍵限制：

基於工作流的系統：多智慧體工作流將角色分配給特定智慧體，並使用基於提示的工作流進行協調。雖然有效，但它們依賴於特定的語言模型版本，並且在模型或環境發生變化時需要頻繁手動更新，從而限制了系統的可擴充套件性和靈活性。
帶監督微調的模仿學習（SFT）：模仿學習能使模型很好地對齊人類演示，但在資料標註方面存在困難，尤其是在具有長時間跨度、動態環境中的智慧體任務中。此外，SFT 資料集通常與特定工具版本強耦合，導致隨著工具的演變，其泛化能力會下降。

端到端的智慧體強化學習（agentic RL）訓練的是一個能夠整體性解決問題的單一模型：給定一個查詢，智慧體會探索大量可能的策略，通過獲得正確解答的獎勵進行學習，並從整個決策軌跡中總結經驗。與監督微調（SFT）不同，端到端方法天然適應長程、基於當前策略的推理過程，並能動態適應工具與環境的變化；也不同於模組化方法，它將規劃、感知、工具使用等能力融合在一個模型中統一學習，無需手工編寫規則或工作流模板。

OpenAI 的 Deep Research 等先前研究也展示了這種方法的強大效能，但它也帶來了新的挑戰：

動態環境：即使面對相同的查詢，環境結果也可能隨時間發生變化，智慧體必須具備適應不斷變化條件的能力。目標是實現對分佈變化的魯棒泛化能力。
長程任務：Kimi–Researcher 每條軌跡可執行超過 70 次搜尋查詢，使用的上下文視窗長度甚至達數十萬 token。這對模型的記憶管理能力以及長上下文處理能力提出了極高要求。
資料稀缺：高質量的用於智慧體問答的強化學習資料集非常稀缺。該研究團隊通過自動合成訓練資料的方式解決這一問題，從而實現無需人工標註的大規模學習。
執行效率：多輪推理和頻繁工具呼叫可能導致訓練效率低下，GPU 資源利用不足。優化 rollout 效率是實現可擴充套件、實用的智慧體強化學習訓練的關鍵。

研究方法

Kimi–Researcher 是通過端到端的強化學習進行訓練的。研究團隊在多個任務領域中觀察到了智慧體效能的持續提升。圖 2-a 展示了 Kimi–Researcher 在強化學習過程中整體訓練準確率的變化趨勢；圖 2-b 則呈現了模型在若干內部資料集上的效能表現。

訓練資料

爲了解決高質量智慧體資料集稀缺的問題，研究團隊在訓練語料的構建上採取了兩種互補的策略。

首先，他們設計了一套具有挑戰性的、以工具使用為核心的任務，旨在促進智慧體對工具使用的深入學習。這些任務提示被刻意構造為必須呼叫特定工具才能解決 —— 從而使得簡單的策略要麼根本無法完成任務，要麼效率極低。通過將工具依賴性融入任務設計中，智慧體不僅學會了何時呼叫工具，也學會了在複雜的現實環境中如何高效協同使用多種工具。（圖 3 展示了在這些訓練資料中，模型對工具的呼叫頻率。）

其次，他們策劃並整合了一批以推理為核心的任務，旨在強化智慧體的核心認知能力，以及其將推理與工具使用結合的能力。該部分進一步細分為以下兩類：

數學與程式碼推理：任務聚焦於邏輯推理、演算法問題求解和序列計算。Kimi–Researcher 不僅依賴思維鏈進行解題，還能結合工具集解決這類複雜問題。
高難度搜索：這類任務要求智慧體在上下文限制下進行多輪搜尋、資訊整合與推理，最終得出有效答案。案例研究表明，這些高難搜尋任務促使模型產生更深層的規劃能力，以及更健壯、工具增強的推理策略。

爲了大規模構建這一多樣化提示集，研究團隊開發了一條全自動資料生成與驗證流程，可在極少人工干預下生成大量問答對，同時保證資料的多樣性與準確性。對於合成任務而言，確保「準確的標準答案（ground truth, GT）」至關重要，因此他們引入了一種強大的 GT 提取方法，以儘可能確保每個問題都配有可靠的答案。

此外，他們還設計了嚴格的過濾流程，以剔除歧義、不嚴謹或無效的問答對；其中引入的 Pass@N 檢查機制，可確保僅保留具有挑戰性的問題。圖 4 展示了基於兩項實驗結果的合成任務效果評估。

強化學習訓練

該模型主要採用 REINFORCE 演算法進行訓練。以下因素有助於提升訓練過程的穩定性：

基於當前策略的資料生成（On-policy Training）：生成嚴格的 on-policy 資料至關重要。在訓練過程中，研究團隊禁用了 LLM 引擎中的工具呼叫格式強制機制，確保每條軌跡完全基於模型自身的概率分佈生成。
負樣本控制（Negative Sample Control）：負樣本會導致 token 概率下降，從而在訓練中增加熵崩塌（entropy collapse）的風險。為應對這一問題，他們策略性地丟棄部分負樣本，使模型能夠在更長的訓練週期中持續提升表現。

Kimi–Researcher 使用基於最終結果的獎勵機制進行訓練，以在動態訓練環境中保持一致的偏好方向。

格式獎勵（Format Reward）：如果軌跡中包含非法的工具呼叫，或上下文 / 迭代次數超出限制，模型將受到懲罰。
正確性獎勵（Correctness Reward）：對於格式合法的軌跡，獎勵依據模型輸出與標準答案（ground truth）之間的匹配程度進行評估。

爲了提升訓練效率，研究團隊在正確軌跡上引入了 gamma 衰減因子（gamma-decay factor）。該機制鼓勵模型尋找更短、更高效的探索路徑。例如，兩條最終結果相同的正確軌跡，較短的那一條將因其前期行為更高效而獲得更高獎勵。

上下文管理

在長程研究任務中，智慧體的觀察上下文可能會迅速膨脹。如果沒有有效的記憶管理機制，普通模型在不到 10 次迭代內就可能超過上下文限制。爲了解決這一問題，研究團隊設計了一套上下文管理機制，使模型能夠保留關鍵資訊，同時捨棄無用文件，從而將單條軌跡的迭代次數擴充套件至 50 次以上。

早期的消融實驗表明，引入上下文管理機制的模型迭代次數平均提升了 30%，這使其能夠獲取更多資訊，進而實現更優的任務表現。

大規模智慧體RL infra

為應對大規模智慧體強化學習在效率與穩定性方面的挑戰，研究者構建了一套具備以下關鍵特性的基礎設施體系：

完全非同步的 rollout 系統：實現了一個具備擴充套件性、類 Gym 介面的全非同步 rollout 系統。基於服務端架構，該系統能夠高效並行協調智慧體的軌跡生成、環境互動與獎勵計算。相較於同步系統，這一設計通過消除資源空轉時間顯著提升了執行效率。
回合級區域性回放（Turn-level Partial Rollout）：在 Agent RL 訓練中，大多數任務可在早期階段完成，但仍有一小部分任務需要大量迭代。為解決這一長尾問題，研究者設計了回合級區域性回放機制。具體來說，超出時間預算的任務將被儲存至 replay buffer，在後續迭代中以更新後的模型權重繼續執行剩餘部分。配合優化演算法，該機制可實現顯著的 rollout 加速（至少提升 1.5 倍）。
強大的沙盒環境：研究者構建了統一的沙盒架構，在保持任務隔離性的同時，消除了容器間通訊開銷。基於 Kubernetes 的混合雲架構實現了零停機排程與動態資源分配。Agent 與工具之間通過 MCP（Model Context Protocol）進行通訊，支援有狀態會話與斷線重連功能。該架構支援多副本部署，確保在生產環境中具備容錯能力與高可用性。

智慧體能力的涌現

在端到端強化學習過程中，研究者觀察到 Kimi–Researcher 出現了一些值得關注的能力涌現。

面對多來源資訊衝突時，Kimi–Researcher 能通過迭代假設修正與自我糾錯機制來消除矛盾，逐步推匯出一致且合理的結論。
展現出謹慎與嚴謹的行為模式：即便面對看似簡單的問題，Kimi–Researcher也會主動進行額外搜尋，並交叉驗證資訊後再作答，體現出高度可靠性與資訊保安意識。

更詳細的內容，可參閱原文。

文章來源：機器之心