honghulabs 地端推理 · 機台 83(8×RTX PRO 6000 Blackwell)· 模型 Qwen3-235B-A22B-Instruct FP8 @ SGLang TP=4 · 2026-06-14
| 文件 | 生成 token | 耗時 | 速度 |
|---|---|---|---|
| 01 對話即維運落地策略 | 2,500 | 131s | 19.2 tok/s |
| 02 GPU算力資產動態配置 | 2,465 | 132s | 18.6 tok/s |
| 03 AI-native成熟度路線圖 | 2,500 | 135s | 18.5 tok/s |
| 04 機隊韌性與風險管理 | 2,500 | 143s | 17.5 tok/s |
| 合計 | 9,965 | 541s | 18.4 tok/s |
本機台本次連線累計(含煙霧測試):提示 5,363 + 生成 10,048 = 15,411 tokens(來源:SGLang /metrics)
SGLang TP=4 = 同時用 4 張 RTX PRO 6000。生成視窗 541 秒:
4 卡 × 541s ÷ 3600 = 0.60 GPU-小時(純生成 4 份文件)
| 基準 | 單價假設 | 本次 4 份成本 | 每百萬生成 token |
|---|---|---|---|
| ① 雲端租金市價 機會成本/對標 GPU 雲 | Pro 6000 ≈ US$1.8 / GPU-小時 | ≈ US$1.08 | ≈ US$108 / M |
| ② 實際電費 真實邊際支出 | 4×450W=1.8kW · ×1.4 PUE · 台電工業 ~US$0.105/kWh | ≈ US$0.04 | ≈ US$4.0 / M |
| ③ 商用 API 對照 若改用雲端 API | 同級模型輸出 ~US$0.5–1.0 / M | ≈ US$0.005–0.01 | US$0.5–1.0 / M |
關鍵洞察:單流(batch=1)地端推理「每 token 成本偏高」,不是因為硬體貴,而是利用率低。
這 4 張卡在 batch=1 只跑 18 tok/s;但同樣硬體在批次併發下可達 ~1,500–3,000 tok/s(高 ~100 倍),屆時每百萬 token 租金基準會降到 ~US$1–2 / M,與商用 API 同級甚至更低。
→ 地端的價值不在「少量草稿的單價」,而在:① 資料不出場(隱私/合規)② 大量併發時單價極低 ③ 算力本就自有(邊際電費 ④ 美元/百萬 token 僅 $4)。