Google TPU × 遊戲 AI 產業深度報告

01 · 遊戲領域現況

誰在真正用 TPU？
遊戲客戶的實際樣貌

直接操作 TPU 底層的遊戲公司在業界幾乎是透明的存在——不是沒有，而是沒有動機公開。現實是大多數工作室透過 Google Cloud API 間接使用，背後的 TPU 算力由 Google 全權管理。

50%+

遊戲開發公司
已在正式產品流程中使用 AI
GDC 2025 State of the Industry

97%

開發者
使用 AI 輔助資產創作工具
2026 業界調查

$7.2B

NPC AI 市場預估規模
2030 年（CAGR 31%）
Research & Markets 2026

公開的代表案例

10Six Games

YOU vs Zombies · Gemini + Custom LoRA · 2026

創辦人來自 Rockstar、Aardman、2K。採用 Google Gemini 搭配以工作室美術風格微調的 LoRA，讓玩家以自然語言描述英雄（例如「噴火芭蕾舞者」）後即時生成對應美術資產。Inference 運行於 Cloud Functions，全球分發走 Cloud Storage。

關鍵觀察：這是透過 API 間接用 TPU，不是直接操作。Google 反覆搬出這個案例，但遊戲尚未發行，商業驗證仍屬未知。

Inworld AI

NPC Agent Runtime · 雲端推論服務 · 2025–2026

整合超過 20 個 ML 模型（含語音、記憶、情緒、行為協調），提供低延遲的即時角色 AI 服務。多個 AAA 工作室採用其 SDK，背後 inference 基礎設施部分跑在 Google Cloud。

架構特點：將複雜的 orchestration 抽象化，讓遊戲開發者不需要直接面對 TPU/GPU 選擇。

Convai

Unreal / Unity 整合 · 場景感知 NPC · 即時語音

以「對話連結遊戲行動」為核心差異——NPC 不只能對話，還能根據對話內容開門、拿取物品、帶路。支援 Unity + Unreal 原生插件，多語言語音互動。

計費模式：免費方案可起步，Pro 方案按用量計費，企業版詢價。

GDC 2026 整體趨勢

Google Cloud 遊戲部門 Jack Buser

Google 在 GDC 2026 推出大規模遊戲工作室 AI agent 套件，聲稱協助解決開發成本自 2017 年以來暴漲 90% 的問題。約九成受訪開發者表示使用 AI 工具，但多數不公開——業界存在明顯的「隱性採用」現象。

核心結論：遊戲公司幾乎不會「裸用 TPU」。業界的主流路徑是 Vertex AI / Gemini API，或透過 Inworld、Convai 等中間層服務——背後的 TPU 由 Google 代管，開發者對底層硬體無感。真正直接操作 TPU 的案例，目前幾乎限於 Google 合作的頭部研究夥伴或超大型 publisher。

02 · 技術狀態

開源大模型現在
能直接跑在 TPU 上嗎？

可以，且 2025 年是關鍵轉折點。主流推論框架的 TPU 支援度大幅提升，官方 Docker container 已可用，不需要從 CUDA 重寫。

vLLM — 主流推論引擎

從 Berkeley 誕生的開源專案，已有 2,400+ 貢獻者、73,700+ GitHub stars，是目前最廣泛部署的推論引擎。

Llama 3/4 Gemma 4 Qwen 3 DeepSeek V3 Mistral 視覺模型音頻模型 MoE 模型

硬體覆蓋：NVIDIA / AMD ROCm / Intel XPU-Gaudi / Google TPU / AWS Trainium / ARM CPU / IBM Z mainframe
Gemma 4 Day 0 TPU 支援：2026 年首次達到與 AMD GPU、Intel XPU 同步的即時 TPU 支援里程碑
量化支援：GPTQ、AWQ、INT4、INT8、FP8，在 TPU 上可用範圍持續擴大
Google 提供預建 vllm-tpu:gemma4 Docker container，在 GKE 部署即暴露 OpenAI-compatible API

SGLang — 高效能推論引擎

規模：全球部署超過 40 萬張 GPU/TPU
硬體：NVIDIA GB200/B300/H100/A100、AMD MI355/MI300、Intel Xeon、Google TPU、Ascend NPU
採用方：多個前沿模型的 post-training 框架：verl、AReaL、Miles、slime、Tunix 等

Google 官方 GKE 部署路徑

支援 TPU v6e (Trillium) 和 TPU v7 (Ironwood)，同時支援 NVIDIA B200、H100、RTX Pro 6000、L4 GPU
提供 vision / text quickstart tutorial，SGLang-JAX tutorial 持續更新
Cluster Toolkit 可自動化 TPU node pool 的佈建與擴縮

實務意義：如果遊戲公司要自行部署開源模型（Llama、Gemma、Qwen、DeepSeek），現在透過 vLLM + GKE + TPU v6e 這條路可在數小時內完成，不需要深度 XLA 知識。門檻已從「需要 ML infra 工程師」降到「熟悉 k8s 的 DevOps 可操作」。

03 · 市場格局

誰在大量使用 TPU？
2025–2026 格局

TPU 長期是 Google 的內部秘密武器。2026 年起才開始大規模對外銷售，Anthropic 的巨單是一個重要信號。

使用者	主要用途	規模 / 備注
Google 自身	Gemini、Search AI、YouTube 推薦、Ads	最大使用者，TPU 幾乎跑遍所有核心產品
Anthropic	Claude 模型訓練與推論	最多 100 萬顆 TPU，目標 2026 年達 1 GW 算力
Meta	作為 NVIDIA GPU 成本補充	2025 Q4 確認為大型客戶
大學 / 研究機構	學術研究	透過 TPU Research Cloud (TRC) 補貼計畫
遊戲公司	間接使用（API 層）	幾乎無直接 TPU 採購案例，走 Vertex AI 路線

Anthropic 的意義：這是 Google TPU 歷史上最大的外部商業合約。Anthropic 此前主要在 NVIDIA 硬體上訓練，選擇大規模轉移至 TPU，代表 TPU 在 performance/dollar 上已達到對頂級 LLM 廠商有說服力的水準。同期 Anthropic 也在 AWS 上部署數十萬顆 Trainium 2（Project Rainier）——顯示頭部 AI 公司正在有意識地多元化硬體供應鏈，而非全押 NVIDIA。

2016

TPU v1 內部上線——Google 最初為 TensorFlow 推論設計，100% 內部使用。

2017

Cloud TPU 開放——開發者可透過 Google Cloud 使用 TPU 訓練，但 ecosystem 仍以 TensorFlow 為主。

2023–2024

PyTorch/XLA 成熟化，vLLM / SGLang 加入 TPU backend 支援，開源模型可跑 TPU 的門檻大幅下降。

2025 年 4 月

TPU v7 Ironwood 發表——首款推論優先設計的 TPU，192GB HBM3E per chip，效能號稱 TPU v6e 的 4 倍。

2025 年 11 月

Anthropic 簽署百萬顆 TPU 合約，TPU v7 Ironwood GA（一般上市）——Google TPU 大規模對外商業化正式啟動，Broadcom 受益。

2026

vLLM Gemma 4 Day 0 TPU 支援——開源模型部署到 TPU 的操作門檻降至普通 DevOps 可處理。GDC 2026 Google 全面推遊戲 AI 套件。

04 · 成本分析

現行 TPU 價格參考
與 NVIDIA 比較

TPU 在 BF16 transformer inference 上的 performance/dollar 確實有競爭力，但這個數字背後有重要的前提條件。

CP 值首選

TPU v5e

第五代

~$1.2

/ hr / chip

BF16 transformer inference 性價比最高，benchmark 普遍優於 A100。適合大規模 API serving。

TPU v6e

Trillium · 第六代

~$2.7

/ hr / chip

新一代主力，Gemma 4 官方支援，vLLM Day 0。訓練+推論皆可，適合大多數生產場景。

TPU v5p

第五代 · 效能版

~$4.2

/ hr / chip

大規模訓練場景，Pod 最大 8,960 chips。適合需要超大規模 pre-training 的用戶。

TPU v7

Ironwood · 第七代

詢價

GA 2025 Q4

最新旗艦。192GB HBM3E per chip，v6e 的 4 倍效能。需求大於供給，優先分配大客戶。

重要限制：東京及部分 APAC 區域價格高約 15–25%。TPU 的成本優勢高度依賴 workload 類型——BF16 dense transformer 最有利；FP8 quantized 模型、不規則 shape 操作、custom kernel 依賴的 workload 差異大。「比 A100 便宜」不是普遍成立的結論，需要針對具體模型做 benchmark。

生態系護城河：為什麼 NVIDIA 仍然主導

NVIDIA CUDA Ecosystem

CUDA / cuDNN / cuBLAS

TensorRT（推論優化）

FlashAttention 系列

Triton Language

NCCL（多卡通訊）

NVLink / NVSwitch

Nsight 調試工具鏈

180 萬+ HuggingFace 相容模型

Google TPU / XLA Ecosystem

XLA / PJRT

JAX（成熟）

PyTorch/XLA（半成熟）

vLLM TPU backend（2025+）

SGLang TPU（2025+）

GKE + Cluster Toolkit

ICI 互連（內部）

Vertex AI（managed layer）

NVIDIA 的真正護城河不是 GPU 本身，而是整個 CUDA 工具鏈二十年的積累。FlashAttention、量化 kernel、第三方優化庫幾乎全假設 CUDA 環境。這個差距正在縮小，但短期內不會消失。

05 · 決策框架

遊戲公司的
正確決策路徑

絕大多數遊戲公司的 AI 需求落在前兩個象限，根本不需要接觸 TPU 底層。以下是清晰的分類框架。

使用情境

建議技術路線

需自己操 TPU？

NPC 對話 / 劇情生成 / AI 客服

Claude API / Gemini API / GPT API

✕ 完全不用

大規模 cloud agent / MMO NPC

Vertex AI + Gemini，或 Inworld/Convai

✕ Google 代管

自己 fine-tune 遊戲專屬模型

GKE + vLLM TPU container（v6e）

△ 部分操作

超大規模 foundation model 訓練

TPU Pod 直接租用 + JAX/XLA

◎ 完全自己操

端上 / 邊緣 AI（玩家裝置端）

本地推論：NVIDIA RTX / Apple Silicon

✕ TPU 不適用

實務建議：即使要做 fine-tune，也建議先從 GPU 起步，在 CUDA 環境驗證模型品質和業務效果後，如果規模大到需要認真考慮成本，再評估遷移到 TPU。TPU 的遷移成本是真實存在的，不應在商業驗證前就投入。

06 · 技術深度

Porting 到 TPU
真正的挑戰是什麼

把 GPU/CUDA code 改成 TPU/XLA compatible 聽起來像換個 backend，實際上有幾個系統性的挑戰需要正視。

01

CUDA Kernel 不存在

FlashAttention、quantization kernel、fused ops 是 CUDA 專用的效能核心。TPU 有自己的 SparseCore 和矩陣乘法單元，但大量第三方優化 kernel 必須從頭實作或等待 Google 官方支援。這不是移植，是重寫。

難度 ★★★★

02

Dynamic Shape 問題

TPU 的 XLA compiler 偏好 static computation graph 和固定 tensor shape，因為它在編譯期決定記憶體佈局。遊戲 AI 的 variable-length NPC 對話、即時 event 觸發的不定長輸入，在 TPU 上需要 padding 或 bucketing，增加開發和除錯複雜度。

難度 ★★★

03

Debugging Stack 複雜

CUDA 的錯誤相對直觀，Nsight 工具鏈成熟。TPU 的 debug 路徑是 XLA compile → graph lowering → kernel dispatch，錯誤訊息常常在 graph level 出現而不是 Python level，工具鏈遠不如 CUDA 成熟，排查時間成本高。

難度 ★★★

04

Ecosystem 廣度差距

大量 ML 開源 library（訓練框架、模型優化工具、評測工具）的預設假設是 CUDA 環境。每個 third-party dependency 都需要驗證 TPU 相容性。即便大框架（PyTorch/XLA、vLLM）已支援，長尾的 library 問題依然頻繁。

難度 ★★★★

遊戲 AI 的真實狀態
與被誇大的敘事

這個領域充斥著被反覆引用的 demo case 和過度樂觀的預測。以下是更貼近現實的觀察。

⚠ Gameslop 現象：2025 年的重要警示

2025 年 Steam 上有超過 7,000 款遊戲披露使用 AI 工具，佔全年發行量的約三分之一。GDC 2026 的調查顯示 52% 的遊戲開發者對生成式 AI 持負面態度（2025 年為 30%），而 Quantic Foundry 研究顯示 85% 的玩家對遊戲 AI 持負面態度。

「AI 生成遊戲」正面臨信任危機。人工策展的缺失導致品質崩塌，業界的學習是：AI 工具需要人類創意方向的持續把關，而不是替代它。這對 TPU 採購決策的影響是：在商業 ROI 驗證之前，不要把 AI infra 投資放在遊戲 AI 的不確定性上。

NPC AI 的技術瓶頸：延遲才是真正的問題

大量遊戲 AI 討論集中在「能力」（NPC 能不能說出有意義的話），但忽略了「延遲」這個工程瓶頸。Inworld 的工程文件明確指出，當玩家數量擴展時，雲端 API 的延遲會破壞即時感——這正是 TPU/GPU 決策真正重要的地方。

互動式 NPC 對話：需要 100–300ms 的端到端延遲，這在 cloud TPU 上面臨網路往返時間的物理限制，東亞地區特別明顯
背景 AI 任務（世界生成、劇情邏輯）：對延遲不敏感，TPU batch inference 成本優勢最大
端上推論：NVIDIA RTX 系列、Apple Silicon 的 NPU、手機 SoC 的 AI 加速單元才是真正的答案，TPU 根本不在這個賽道

遊戲 AI 的現實落地路徑

ACM 2025 論文的系統分析指出，遊戲 AI 的工程實踐分兩條軸線：非即時任務（程序生成、複雜決策模型）可卸載到後台執行緒或邊緣 inference server，而裝置端推論需要模型剪枝、量化、知識蒸餾來壓縮模型體積降低延遲。

對 A20 / Honghu 的策略含義：遊戲公司客戶短期最大的需求不是「TPU 採購諮詢」，而是「如何以最低成本、最短時間，把 NPC AI 接進現有引擎（Unreal/Unity）」。這條路的答案是 Vertex AI / Gemini API + Inworld/Convai 中間層，而不是 TPU。如果要談 TPU 的生意，目標應是有自訓練需求的大型 publisher（Ubisoft、EA 等），或 AI 遊戲基礎設施服務商，而非一般中小工作室。

08 · 硬體焦點

TPU v7 Ironwood
推論時代的旗艦設計

Google Cloud · TPU 第七代 · GA 2025 Q4

Ironwood：第一款以推論為首要設計目標的 TPU

此前每一代 TPU 都以訓練為主要設計考量，推論是次要。Ironwood 反轉了這個優先順序——專為服務大規模即時 AI 推論請求而設計，是 Google「推論時代」宣言的硬體體現。

192 GB

HBM3E per chip
8 stacks，7.4 TB/s 頻寬

9,216

chips per Pod（最大）
42.5 Exaflops 總算力

4×

效能相較 TPU v6e
10× 相較 TPU v5p

對遊戲 AI 的直接意義

大容量 HBM（192GB per chip）：意味著超大規模模型（700B+）可以在更少的 chip 上部署，降低多 chip 協調的系統複雜度。對 NPC AI 而言，可以服務更大規格的「世界模型」而不需要分片。
推論優先設計：Ironwood 強化了 SparseCore（支援 MoE 模型）和 decode-heavy workload 優化，對 autoregressive 生成型任務有針對性提升。
Pod 規模（9,216 chips）：這個量級是百萬 NPC 並發推論才需要考慮的。對遊戲公司來說，這更像是 Google 提供給 AI 服務商（如 Inworld 背後的 infra）的基礎設施，而不是直接採購標的。
限制：Ironwood 是推論優先設計，訓練任務仍需搭配 Trillium（v6e）。JAX/XLA ecosystem 鎖定依然存在，PyTorch workload 需要非平凡的移植工作。

對比維度	TPU v7 Ironwood	NVIDIA H100 / B200
設計重點	推論優先，decode-heavy	訓練 + 推論通用
記憶體容量	192 GB HBM3E per chip	H100: 80 GB / B200: 192 GB HBM3e
Scale-out	9,216 chips per pod（ICI 互連）	NVLink + InfiniBand，靈活但複雜
Ecosystem	JAX/XLA，PyTorch/XLA 部分支援	CUDA，最廣泛工具鏈
定價	尚未公開，詢價制	H100: ~$2–4/hr（雲端），B200: 更高
適合場景	大規模 LLM 推論，MoE 模型	研發彈性、訓練、custom kernel

整體判斷：Ironwood 是 Google 對「AI 推論即服務」長期佈局的硬體基礎。對遊戲 AI 產業的直接影響是：背後驅動 Gemini API、Vertex AI 的算力將更強、更便宜，間接讓遊戲工作室透過 API 使用到的 AI 服務品質提升。但遊戲公司不太可能直接採購 Ironwood——這個等級的硬體是給 Anthropic、Meta 這類 AI 廠商用的。

Google TPU× 遊戲 AI 產業

誰在真正用 TPU？遊戲客戶的實際樣貌

公開的代表案例

開源大模型現在能直接跑在 TPU 上嗎？

vLLM — 主流推論引擎

SGLang — 高效能推論引擎

Google 官方 GKE 部署路徑

誰在大量使用 TPU？2025–2026 格局

現行 TPU 價格參考與 NVIDIA 比較

生態系護城河：為什麼 NVIDIA 仍然主導

遊戲公司的正確決策路徑

Porting 到 TPU真正的挑戰是什麼

推薦起步路線（按難度排序）

遊戲 AI 的真實狀態與被誇大的敘事

NPC AI 的技術瓶頸：延遲才是真正的問題

遊戲 AI 的現實落地路徑

TPU v7 Ironwood推論時代的旗艦設計

對遊戲 AI 的直接意義

Google TPU
× 遊戲 AI 產業

誰在真正用 TPU？
遊戲客戶的實際樣貌

開源大模型現在
能直接跑在 TPU 上嗎？

誰在大量使用 TPU？
2025–2026 格局

現行 TPU 價格參考
與 NVIDIA 比較

遊戲公司的
正確決策路徑

Porting 到 TPU
真正的挑戰是什麼

遊戲 AI 的真實狀態
與被誇大的敘事

TPU v7 Ironwood
推論時代的旗艦設計