📊 Token 使用與成本分析

honghulabs 地端推理 · 機台 83(8×RTX PRO 6000 Blackwell)· 模型 Qwen3-235B-A22B-Instruct FP8 @ SGLang TP=4 · 2026-06-14

一、本次任務:生成 4 份內部策略文件

生成 token(完成)
9,965
提示 token(輸入)
~5,288
生成耗時
541 秒
平均速度
18.4 tok/s
文件生成 token耗時速度
01 對話即維運落地策略2,500131s19.2 tok/s
02 GPU算力資產動態配置2,465132s18.6 tok/s
03 AI-native成熟度路線圖2,500135s18.5 tok/s
04 機隊韌性與風險管理2,500143s17.5 tok/s
合計9,965541s18.4 tok/s

本機台本次連線累計(含煙霧測試):提示 5,363 + 生成 10,048 = 15,411 tokens(來源:SGLang /metrics)

二、GPU 小時

SGLang TP=4 = 同時用 4 張 RTX PRO 6000。生成視窗 541 秒:

4 卡 × 541s ÷ 3600 = 0.60 GPU-小時(純生成 4 份文件)

三、美金成本(三種基準)

基準單價假設本次 4 份成本每百萬生成 token
① 雲端租金市價
機會成本/對標 GPU 雲
Pro 6000 ≈ US$1.8 / GPU-小時≈ US$1.08≈ US$108 / M
② 實際電費
真實邊際支出
4×450W=1.8kW · ×1.4 PUE · 台電工業 ~US$0.105/kWh≈ US$0.04≈ US$4.0 / M
③ 商用 API 對照
若改用雲端 API
同級模型輸出 ~US$0.5–1.0 / M≈ US$0.005–0.01US$0.5–1.0 / M
關鍵洞察:單流(batch=1)地端推理「每 token 成本偏高」,不是因為硬體貴,而是利用率低。
這 4 張卡在 batch=1 只跑 18 tok/s;但同樣硬體在批次併發下可達 ~1,500–3,000 tok/s(高 ~100 倍),屆時每百萬 token 租金基準會降到 ~US$1–2 / M,與商用 API 同級甚至更低。
地端的價值不在「少量草稿的單價」,而在:① 資料不出場(隱私/合規)② 大量併發時單價極低 ③ 算力本就自有(邊際電費 ④ 美元/百萬 token 僅 $4)。

四、結論

honghulabs · 蔡長明 C.M. Tsai · 數據來源:SGLang /metrics 實測 · 電價/租金為公開市場估值,僅供決策參考