📊 Token 使用與成本分析

honghulabs 地端推理 · 機台 83(8×RTX PRO 6000 Blackwell)· 模型 Qwen3-235B-A22B-Instruct FP8 @ SGLang TP=4 · 2026-06-14

一、本次任務:生成 4 份內部策略文件

生成 token(完成)

9,965

提示 token(輸入)

~5,288

生成耗時

541 秒

平均速度

18.4 tok/s

文件	生成 token	耗時	速度
01 對話即維運落地策略	2,500	131s	19.2 tok/s
02 GPU算力資產動態配置	2,465	132s	18.6 tok/s
03 AI-native成熟度路線圖	2,500	135s	18.5 tok/s
04 機隊韌性與風險管理	2,500	143s	17.5 tok/s
合計	9,965	541s	18.4 tok/s

本機台本次連線累計(含煙霧測試):提示 5,363 + 生成 10,048 = 15,411 tokens(來源:SGLang /metrics)

二、GPU 小時

SGLang TP=4 = 同時用 4 張 RTX PRO 6000。生成視窗 541 秒:

4 卡 × 541s ÷ 3600 = 0.60 GPU-小時(純生成 4 份文件)

三、美金成本(三種基準)

基準	單價假設	本次 4 份成本	每百萬生成 token
① 雲端租金市價機會成本/對標 GPU 雲	Pro 6000 ≈ US$1.8 / GPU-小時	≈ US$1.08	≈ US$108 / M
② 實際電費真實邊際支出	4×450W=1.8kW · ×1.4 PUE · 台電工業 ~US$0.105/kWh	≈ US$0.04	≈ US$4.0 / M
③ 商用 API 對照若改用雲端 API	同級模型輸出 ~US$0.5–1.0 / M	≈ US$0.005–0.01	US$0.5–1.0 / M

關鍵洞察:單流(batch=1)地端推理「每 token 成本偏高」,不是因為硬體貴,而是利用率低。
這 4 張卡在 batch=1 只跑 18 tok/s;但同樣硬體在批次併發下可達 ~1,500–3,000 tok/s(高 ~100 倍),屆時每百萬 token 租金基準會降到 ~US$1–2 / M,與商用 API 同級甚至更低。
→ 地端的價值不在「少量草稿的單價」,而在:① 資料不出場(隱私/合規)② 大量併發時單價極低 ③ 算力本就自有(邊際電費 ④ 美元/百萬 token 僅 $4)。

四、結論

這 4 份策略文件的真實邊際成本約 US$0.04(電費),GPU 小時 0.60。
以雲端租金市價計約 US$1.08 —— 仍遠低於一位顧問寫 4 份策略文件的人力成本。
少量任務用 API 更便宜;但機房維運資料、客戶資料、內部策略這類敏感內容,地端自主推理的「不出場」價值無法用單價衡量。
下一步把吞吐拉滿(併發批次)後,地端每百萬 token 成本可壓到與 API 同級 —— 屆時「自有算力 + 地端推理」在成本與隱私上雙贏。

honghulabs · 蔡長明 C.M. Tsai · 數據來源:SGLang /metrics 實測 · 電價/租金為公開市場估值,僅供決策參考