🆚 地端 LLM 部署對比:83(Pro 6000)vs 116(RTX 5090)

honghulabs · 蔡長明 C.M. Tsai · 2026-06-14 實測 · 皆 SGLang + 標準 latest-cu130 image

一、硬體規格

	機台 83(a20ai-a04-004)	機台 116(a20ai-a04-005,台北)
GPU	8× RTX PRO 6000 Blackwell	8× RTX 5090
架構	Blackwell sm_120	Blackwell sm_120(同架構)
每卡 VRAM	96 GB	32 GB
總 VRAM	768 GB	256 GB
系統 RAM	755 GB	378 GB
CPU 核	128	128
磁碟(模型存放)	75G 根碟 → 用 tmpfs(RAM)	2.1TB 可用 → 直接放磁碟

二、本次實測部署

	83 Pro 6000	116 RTX 5090
模型	Qwen3-235B-A22B FP8(235B,frontier)	Qwen3-30B-A3B BF16(30B MoE)
權重大小	221 GB	57 GB
張量平行 TP	4(受 MoE 整除限制)	8(吃滿 8 卡)
單流速度	~18 tok/s	~187 tok/s
適合	高品質策略/長文件生成	即時對話、高頻維運問答
外網 dashboard	cloudflared	pinggy(同 IP 限制改用)

速度差約 10×:30B-A3B 每 token 只激活 3B 參數(MoE 稀疏),235B 則大且受 4 卡 PCIe(無 NVLink)通訊拖累。

三、各自「能跑哪些模型」

模型等級	83(768GB)	116(256GB)
30–70B(Qwen3-30B/32B、Llama-70B)	✅ 飛快	✅ 飛快(主力)
100–235B FP8(Qwen3-235B、GLM)	✅ 可跑	❌ 塞不下
400–700B FP8(DeepSeek-V3.1 671B)	✅ 可跑(TP=4)	❌
DeepSeek V4 Flash(284B 稀疏)	⚠️ 需第三方 patch,且本次三種 bug 未通	❌ 權重需 8 卡但 8 卡 MoE 崩

四、今天學到的硬限制(踩雷紀錄)

DeepSeek V4 Flash @ sm_120:官方 SGLang 的 compressed 注意力後端不支援 sm_120;社群 patch 可補但本次在我們的權重版本上連撞三種 bug(TP=8 MoE narrow、TP=4 張量 32≠128),暫不可用。
大型 FP8 MoE 的 TP 整除限制:Qwen3-235B(頭=64、FP8 區塊=12)→ TP 必須同時整除兩者 → 最高只能 TP=4,吃不滿 8 卡。
解法:小模型用 BF16 版(無 FP8 區塊限制)即可乾淨 TP=8(116 的 30B 就是這樣吃滿 8 卡)。
v4-blackwell image 會強制把任何模型當 DeepseekV4 → 跑別的模型要用標準 image(lmsysorg/sglang:latest-cu130)。
116(vast.ai 主機):docker 被 mask、nvidia runtime 指向失效的 vastai shim → 已修正為 /usr/bin/nvidia-container-runtime。

五、配置建議

83(Pro 6000,768GB)= 「重型大腦」:跑 frontier 大模型(235B / 未來 DeepSeek-V3.1 671B),做深度策略生成、長 context 分析、複雜推理。慢但強。

116(5090,256GB)= 「即時前台」:跑 30–70B,做對話即維運的即時問答、LINE bot 後端、高頻互動。快又省。

分工:日常維運對話走 116(187 tok/s 秒回),需要深度策略/報告時派給 83。兩台都接同一套 dashboard 與(未來)NemoClaw agent 層。

honghulabs · 蔡長明 C.M. Tsai · 數據為 2026-06-14 SGLang 實測 · 對話即維運