Apple Intelligence 進入新的一章。
近日,蘋果釋出了 2025 年 Apple Intelligence 基礎語言模型技術報告。
剛剛加入 Meta 的前蘋果 AI 負責人龐若鳴(Ruoming Pang)發出多條推文進行了介紹。

在報告中,蘋果詳細介紹了訓練新一代模型所用的資料、模型架構、訓練方案、優化推理技術手段,以及與同類模型對比的評估結果。文中重點展示了蘋果如何在提升使用者價值的同時實現功能擴充套件與質量優化,並大幅提高裝置端和私有云計算的執行效率。

報告連結:https://machinelearning.apple.com/research/apple-foundation-models-tech-report-2025
這次蘋果介紹了兩種多語言、多模態基礎語言模型,可為蘋果裝置和服務中的 Apple Intelligence 功能提供支援。其中包括:
1)通過 KV 快取共享和 2 位量化感知訓練等架構創新,針對蘋果自有晶片進行了優化的 3B 引數裝置模型;2)一種可擴充套件的雲端模型,它結合了新型並行軌道混合專家 (PT-MoE) Transformer 和交錯的全域性 - 區域性注意力,以便在蘋果的私有云計算平臺上進行有效推理。
這兩款模型均通過負責任的網路爬取、授權語料庫和高質量合成數據集進行大規模多語言、多模態訓練,並在新的非同步平臺上通過監督微調和強化學習進一步優化。最終模型不僅支援多種新增語言,還能理解影象並執行工具呼叫。

PT-MoE 架構示意圖。每個軌跡 track 由多個軌跡塊組成,每個軌跡塊包含固定數量的 Transformer/MoE 層。假設總層數為 L 層且軌跡塊深度為 D,則同步開銷可從 2L(張量並行)降低至 L/D(軌跡並行)。例如當 D = 4 時,PT 架構可將同步開銷減少 87.5%。
PT Transformer 是蘋果研究人員提出的一種新型架構。與僅包含單一順序層堆疊的標準解碼器式 Transformer 不同,該架構將模型劃分爲多個小型 Transformer 模組,稱為軌道。每個軌道由多個堆疊的軌道塊組成,每個軌道塊本身都是一個 Transformer 層堆疊。這些軌道塊獨立處理標記資料,僅在軌道塊的輸入輸出邊界進行跨軌道同步。這種隔離設計不僅實現了軌道間的直接並行執行,還有效降低了傳統 Transformer 解碼器(如採用張量並行技術的模型)中常見的同步開銷。這種方法被稱為軌跡並行,改進了訓練和推理的延遲,而不會影響模型的質量。
為實現伺服器端模型的進一步擴充套件,蘋果在每個軌道塊內部引入了專家混合層(MoE),從而構建出 PT-MoE 架構。由於各 MoE 層中的專家模組僅在對應軌道內執行,通訊開銷可與計算過程有效重疊,從而提升訓練效率。結合軌道並行性帶來的軌道級獨立性優勢,這種設計使模型在保持低延遲的同時實現高效擴充套件 —— 得益於稀疏度的提升,模型執行更加輕量化。
另外爲了實現現視覺理解能力,蘋果引入了一個可以從輸入影象中提取視覺特徵的視覺編碼器,在大量影象資料上進行了預訓練,以提高其效能。視覺編碼器包含兩個關鍵元件:一個視覺主幹,用於從輸入影象中提取豐富的視覺表徵;以及一個視覺語言適應模組,用於壓縮視覺表徵並將這些視覺特徵與模型的標記表徵進行對齊。
在視覺主幹網絡中,蘋果採用了標準的視覺 Transformer(ViT-g),伺服器模型為 10 億引數;以及更高效的 ViTDet-L 主幹網絡,裝置端模型為 3 億引數。
裝置端視覺主幹網絡採用了 ViTDet 架構,該架構在大多數視覺 Transformer 層中使用視窗注意力機制,僅包含三個跨視窗全域性注意力層。為更有效地捕捉並整合細粒度區域性細節與巨集觀全域性上下文資訊,蘋果在標準 ViTDet 基礎上創新性地引入了註冊視窗(RW)機制。該機制通過讓全域性登錄檔(或類別)標記在參與整體全域性上下文聚合前,先與影象中的不同區域性視窗進行互動,從而實現對全域性特徵的編碼。
蘋果認為,端側和雲端模型配合可以滿足廣泛的效能和部署需求。裝置端模型經過優化,能夠以最低資源消耗實現低延遲推理;而伺服器端模型則專為複雜任務設計,提供了高精度和可擴充套件性。
在人工評估基準中,蘋果的模型在跨語言、文字和視覺模式上都具有不錯的競爭力,甚至優於同等規模的最佳開源模型。


在技術報告中,蘋果還介紹了全新推出的 Swift 核心的基礎模型框架,其中整合了引導式生成、約束式工具呼叫和 LoRA 介面卡微調三大功能模組,開發者僅需幾行程式碼即可輕鬆實現這些功能的整合。
該框架讓開發者能夠藉助約 30 億引數的裝置端語言模型,著手打造可靠且具備量產級品質的生成式 AI 功能。作為 Apple Intelligence 的核心,它在摘要、實體提取、文字理解、優化、簡短對話、創意內容生成等多樣化文字任務中表現卓越。不過蘋果表示,雖然已針對裝置端模型進行了專門優化,但它並非為通用知識問答而設計。蘋果鼓勵應用開發者利用該框架為 APP 定製實用功能。
蘋果表示,Apple Intelligence 模型的最新進展始終遵循「負責任的人工智慧」的理念,通過內容過濾、地區定製評估等安全防護措施,並依託私有云計算等創新技術,切實保障使用者隱私安全。
在技術報告發布之後,龐若鳴不忘感謝了所有貢獻者,其中包括模型、後訓練、多模態、框架 / API、專案管理人員,同時把接力棒交給了蘋果 AI 的下一任負責人 Zhifeng Chen 和 Mengyu Li。

此前據媒體報道,龐若鳴加入 Meta 後,蘋果大模型團隊將由陳智峰(Zhifeng Chen)負責,不過團隊的管理架構將更加分散。
陳智峰 2000 年本科畢業於復旦大學,後於普林斯頓大學、伊利諾伊大學香檳分校獲得碩士、博士學位。在加入蘋果之前,陳智峰曾在谷歌長期工作,參與過 TensorFlow、Gemini、神經機器翻譯系統、Palm 2 等重要研究。他和龐若鳴、吳永輝均是 Google Brain 早期的重要成員。

參考內容:
https://www.bloomberg.com/news/articles/2025-07-07/apple-loses-its-top-ai-models-executive-to-meta-s-hiring-spree