🆚 地端 LLM 部署對比:83(Pro 6000)vs 116(RTX 5090)

honghulabs · 蔡長明 C.M. Tsai · 2026-06-14 實測 · 皆 SGLang + 標準 latest-cu130 image

一、硬體規格

機台 83(a20ai-a04-004)機台 116(a20ai-a04-005,台北)
GPU8× RTX PRO 6000 Blackwell8× RTX 5090
架構Blackwell sm_120Blackwell sm_120(同架構)
每卡 VRAM96 GB32 GB
總 VRAM768 GB256 GB
系統 RAM755 GB378 GB
CPU 核128128
磁碟(模型存放)75G 根碟 → 用 tmpfs(RAM)2.1TB 可用 → 直接放磁碟

二、本次實測部署

83 Pro 6000116 RTX 5090
模型Qwen3-235B-A22B FP8(235B,frontier)Qwen3-30B-A3B BF16(30B MoE)
權重大小221 GB57 GB
張量平行 TP4(受 MoE 整除限制)8(吃滿 8 卡)
單流速度~18 tok/s~187 tok/s
適合高品質策略/長文件生成即時對話、高頻維運問答
外網 dashboardcloudflaredpinggy(同 IP 限制改用)

速度差約 10×:30B-A3B 每 token 只激活 3B 參數(MoE 稀疏),235B 則大且受 4 卡 PCIe(無 NVLink)通訊拖累。

三、各自「能跑哪些模型」

模型等級83(768GB)116(256GB)
30–70B(Qwen3-30B/32B、Llama-70B)✅ 飛快✅ 飛快(主力)
100–235B FP8(Qwen3-235B、GLM)✅ 可跑❌ 塞不下
400–700B FP8(DeepSeek-V3.1 671B)✅ 可跑(TP=4)
DeepSeek V4 Flash(284B 稀疏)⚠️ 需第三方 patch,且本次三種 bug 未通❌ 權重需 8 卡但 8 卡 MoE 崩

四、今天學到的硬限制(踩雷紀錄)

五、配置建議

83(Pro 6000,768GB)= 「重型大腦」:跑 frontier 大模型(235B / 未來 DeepSeek-V3.1 671B),做深度策略生成、長 context 分析、複雜推理。慢但強。

116(5090,256GB)= 「即時前台」:跑 30–70B,做對話即維運的即時問答、LINE bot 後端、高頻互動。快又省。

分工:日常維運對話走 116(187 tok/s 秒回),需要深度策略/報告時派給 83。兩台都接同一套 dashboard 與(未來)NemoClaw agent 層。
honghulabs · 蔡長明 C.M. Tsai · 數據為 2026-06-14 SGLang 實測 · 對話即維運