honghulabs 內部策略文件 · 由本地大模型 Qwen3-235B-A22B 生成(8×RTX PRO 6000 @ SGLang)· 草稿待校

GPU 算力資產動態配置策略

文件編號:HHL-STRAT-2025-04-05

擬定單位:honghulabs 戰略辦公室

負責人:蔡長明 C.M. Tsai

首席策略顧問建議案


一、核心目標

最大化 單位 GPU 每日邊際貢獻毛利(Unit GPU Daily Contribution Margin, UGDCM),並納入 機會成本、維運風險與戰略價值,實現三種負載(挖礦 / AI 出租 / 內部推理)的動態、可量化、自動化切換


二、負載類型經濟模型(基於 2025 Q2 數據)

項目挖礦(PRL@LuckyPool)AI 出租(vLLM/SGLang)內部推理(DeepSeek V4 Flash)
單卡日均收入(USD)$1.80(RTX 5090)<br>$1.10(RTX 5060)$3.20(RTX PRO 6000)<br>$2.00(RTX 5090)$0(內部使用)
運行成本(電+網+折舊)$0.65/卡/天$0.90/卡/天(高頻寬+冷卻)$1.50/卡/天(8卡整機均攤)
毛利率(貢獻邊際)64%(5090)72%(PRO 6000)-100%(純成本)
切換成本(分鐘/卡)3(重啟+切礦機參數)15(重裝 image + 驅動校準)30(部署模型+驗證 API)
風險等級(1-5)2(礦池中斷、難度波動)3(租戶 SLA、資料外洩)4(資安暴露、模型偏移)
戰略價值(1-5)2(現金流)4(客戶驗證)5(維運升級、產品化基礎)
💡 關鍵洞察
- PRO 6000 做 AI 出租 UGDCM 最高($2.30/卡/天),但內部推理無直接收益。
- 挖礦毛利穩定但受外部控制(如 LuckyPool 穩定性)。
- 內部推理是「戰略性虧損」,目標非盈利,而是實現「對話即維運」與維運能力產品化。

三、動態切換決策框架(Decision Matrix)

✅ 切換條件:依「邊際收益 vs. 戰略門檻」雙軸判斷

觸發條件動作執行者
1. 挖礦 UGDCM < $1.20/卡/天(難度上升或幣價下跌)將 RTX 5090 機轉為 AI 出租自動腳本 + 人工覆核
2. AI 租戶需求 > 80% 可用算力,且報價 ≥ $3.00/PRO6000/天暫停挖礦,釋出 1~2 台 5090 機支援出租自動排程
3. 內部推理模型需驗證新功能(如自動診斷 GSP 卡死)強制保留 1 台 PRO 6000 專用,不得切出蔡長明核准
4. 礦池中斷 > 2 小時 或 Xid 154 故障率 > 15%暫停該機挖礦,轉入「觀察模式」或修復BMC 自動重啟 + 報警
5. DeepSeek V4 Flash 連續 7 天 tok/s 提升 ≥ 15%啟動「維運 AI 化」第二階段:開放租戶用自然語言下單戰略會議決議

四、切換摩擦與成本控制

切換類型摩擦點解法(已驗證)
挖礦 ↔ AI 出租vLLM 不支援 sm_120(PRO 6000)改用 SGLang + --attention-backend compressed + Blackwell 專用 image
AI 出租 → 內部推理模型部署耗時、CUDA graph 崩潰腳本化部署流程 + --disable-cuda-graph
任何切換IPMI 對應錯誤導致誤重啟MAC + ForceOff 驗證 BMC 對應表(每週更新一次)
安全風險cloudflared 公開模型 API加入 API key 鎖 + rate limit(已部署)
⚠️ 切換原則
- 所有操作必須 可逆、非破壞性、日誌可追蹤
- 使用 vastai-monitor 與輕量儀表板做切換前後對照。

五、每週調度規則(SOP-UGS-001)

每週一 09:00(UTC+8)執行:

步驟行動負責人
1匯出過去 7 天各機器 UGDCM 數據(挖礦收入、AI 租金、電費)自動腳本(ugdc-report.py
2檢查 LuckyPool 過去 7 天穩定性(stratum 中斷次數)運維工程師
3檢查 PRO 6000 機 DeepSeek V4 Flash 的 tok/s 與對話量成長率AI 工程師
4判斷是否觸發切換條件(見第三節)蔡長明 + 策略顧問
5執行切換(最多調整 2 台機器用途)自動化腳本 + 人工監控
6更新 gpu-status-dashboard 並推送通知至蔡負責人手機cloudflared + Line Bot
📌 限制
- 每週最多切換 2 台機器,避免系統震盪。
- PRO 6000 機 至少保留 50% 時間用於內部推理(戰略底線)。
- RTX 5060 維運中樞 永不參與挖礦或出租

六、風險緩解策略

風險對策
礦池單點故障多池備援(LuckyPool + HeroMiners 雙配置,自動 failover)
GSP firmware 卡死每日 03:00 自動巡檢 Xid 154,異常即 BMC 冷重啟
硬體 RMA 延遲備用卡庫存:至少 2 張 RTX 5090、1 張 PRO 6000
租戶資料外洩所有租機使用 container 隔離,租期結束自動 wipe(docker system prune -f
cloudflared 資安漏洞每週自動 rotate tunnel token,API 加入 HMAC 驗證

七、戰略升級路徑(L0 → L4)

等級目標達成指標
L0(現狀)手動切換 + SSH 維運已達成
L1(Q2 2025)自動化切換 + 儀表板監控本策略即為 L1 SOP
L2(Q3 2025)AI 自動診斷 GSP 卡死 + 建議切換DeepSeek V4 Flash 輸出診斷報告
L3(Q4 2025)自主執行修復(BMC 重啟 + 切負載)Claude + Shell Agent 連動
L4(2026)維運能力產品化輸出(Ops-as-a-Service)對外提供「AI-native GPU 維運 API」

八、結論與建議

  1. 立即執行
  2. 部署 ugdc-report.py 腳本,下週一啟用每週調度 SOP。
  3. 將 PRO 6000 機標為「戰略保留機」,禁止自動切出。
  1. 技術優先
  2. 投入 1 人週工時優化 SGLang + sm_120 相容性,目標提升 tok/s 20%。
  3. 開發「切換影響模擬器」(Switch Simulator),預測切換後 7 天 UGDCM 變化。
  1. 戰略押注
  2. 內部推理不是成本,是研發投資
  3. 2025 年底前,讓「對話即維運」能自動處理 80% 的 GSP/Xid 事件。
  4. 將維運 AI 化能力包裝為 A20 OpsAI,2026 年對外授權。

簽核

蔡長明(負責人)___________

首席策略顧問 ___________

日期:2025 年 4 月 5 日


附件gpu-status-dashboard 網址、ugdc-report.py 範本、BMC 對應表自動生成腳本

honghulabs · 蔡長明 C.M. Tsai · 對話即維運 · 本文件由地端 GPU 自主生成,未經外部 API