🆚 地端 LLM 部署對比:83(Pro 6000)vs 116(RTX 5090)
honghulabs · 蔡長明 C.M. Tsai · 2026-06-14 實測 · 皆 SGLang + 標準 latest-cu130 image
一、硬體規格
| 機台 83(a20ai-a04-004) | 機台 116(a20ai-a04-005,台北) |
| GPU | 8× RTX PRO 6000 Blackwell | 8× RTX 5090 |
| 架構 | Blackwell sm_120 | Blackwell sm_120(同架構) |
| 每卡 VRAM | 96 GB | 32 GB |
| 總 VRAM | 768 GB | 256 GB |
| 系統 RAM | 755 GB | 378 GB |
| CPU 核 | 128 | 128 |
| 磁碟(模型存放) | 75G 根碟 → 用 tmpfs(RAM) | 2.1TB 可用 → 直接放磁碟 |
二、本次實測部署
| 83 Pro 6000 | 116 RTX 5090 |
| 模型 | Qwen3-235B-A22B FP8(235B,frontier) | Qwen3-30B-A3B BF16(30B MoE) |
| 權重大小 | 221 GB | 57 GB |
| 張量平行 TP | 4(受 MoE 整除限制) | 8(吃滿 8 卡) |
| 單流速度 | ~18 tok/s | ~187 tok/s |
| 適合 | 高品質策略/長文件生成 | 即時對話、高頻維運問答 |
| 外網 dashboard | cloudflared | pinggy(同 IP 限制改用) |
速度差約 10×:30B-A3B 每 token 只激活 3B 參數(MoE 稀疏),235B 則大且受 4 卡 PCIe(無 NVLink)通訊拖累。
三、各自「能跑哪些模型」
| 模型等級 | 83(768GB) | 116(256GB) |
| 30–70B(Qwen3-30B/32B、Llama-70B) | ✅ 飛快 | ✅ 飛快(主力) |
| 100–235B FP8(Qwen3-235B、GLM) | ✅ 可跑 | ❌ 塞不下 |
| 400–700B FP8(DeepSeek-V3.1 671B) | ✅ 可跑(TP=4) | ❌ |
| DeepSeek V4 Flash(284B 稀疏) | ⚠️ 需第三方 patch,且本次三種 bug 未通 | ❌ 權重需 8 卡但 8 卡 MoE 崩 |
四、今天學到的硬限制(踩雷紀錄)
- DeepSeek V4 Flash @ sm_120:官方 SGLang 的
compressed 注意力後端不支援 sm_120;社群 patch 可補但本次在我們的權重版本上連撞三種 bug(TP=8 MoE narrow、TP=4 張量 32≠128),暫不可用。
- 大型 FP8 MoE 的 TP 整除限制:Qwen3-235B(頭=64、FP8 區塊=12)→ TP 必須同時整除兩者 → 最高只能 TP=4,吃不滿 8 卡。
- 解法:小模型用 BF16 版(無 FP8 區塊限制)即可乾淨 TP=8(116 的 30B 就是這樣吃滿 8 卡)。
- v4-blackwell image 會強制把任何模型當 DeepseekV4 → 跑別的模型要用標準 image(
lmsysorg/sglang:latest-cu130)。
- 116(vast.ai 主機):docker 被 mask、nvidia runtime 指向失效的 vastai shim → 已修正為
/usr/bin/nvidia-container-runtime。
五、配置建議
83(Pro 6000,768GB)= 「重型大腦」:跑 frontier 大模型(235B / 未來 DeepSeek-V3.1 671B),做深度策略生成、長 context 分析、複雜推理。慢但強。
116(5090,256GB)= 「即時前台」:跑 30–70B,做對話即維運的即時問答、LINE bot 後端、高頻互動。快又省。
分工:日常維運對話走 116(187 tok/s 秒回),需要深度策略/報告時派給 83。兩台都接同一套 dashboard 與(未來)NemoClaw agent 層。