文件編號:HHL-STRAT-2025-04-05
擬定單位:honghulabs 戰略辦公室
負責人:蔡長明 C.M. Tsai
首席策略顧問建議案
最大化 單位 GPU 每日邊際貢獻毛利(Unit GPU Daily Contribution Margin, UGDCM),並納入 機會成本、維運風險與戰略價值,實現三種負載(挖礦 / AI 出租 / 內部推理)的動態、可量化、自動化切換。
| 項目 | 挖礦(PRL@LuckyPool) | AI 出租(vLLM/SGLang) | 內部推理(DeepSeek V4 Flash) |
|---|---|---|---|
| 單卡日均收入(USD) | $1.80(RTX 5090)<br>$1.10(RTX 5060) | $3.20(RTX PRO 6000)<br>$2.00(RTX 5090) | $0(內部使用) |
| 運行成本(電+網+折舊) | $0.65/卡/天 | $0.90/卡/天(高頻寬+冷卻) | $1.50/卡/天(8卡整機均攤) |
| 毛利率(貢獻邊際) | 64%(5090) | 72%(PRO 6000) | -100%(純成本) |
| 切換成本(分鐘/卡) | 3(重啟+切礦機參數) | 15(重裝 image + 驅動校準) | 30(部署模型+驗證 API) |
| 風險等級(1-5) | 2(礦池中斷、難度波動) | 3(租戶 SLA、資料外洩) | 4(資安暴露、模型偏移) |
| 戰略價值(1-5) | 2(現金流) | 4(客戶驗證) | 5(維運升級、產品化基礎) |
💡 關鍵洞察:
- PRO 6000 做 AI 出租 UGDCM 最高($2.30/卡/天),但內部推理無直接收益。
- 挖礦毛利穩定但受外部控制(如 LuckyPool 穩定性)。
- 內部推理是「戰略性虧損」,目標非盈利,而是實現「對話即維運」與維運能力產品化。
| 觸發條件 | 動作 | 執行者 |
|---|---|---|
| 1. 挖礦 UGDCM < $1.20/卡/天(難度上升或幣價下跌) | 將 RTX 5090 機轉為 AI 出租 | 自動腳本 + 人工覆核 |
| 2. AI 租戶需求 > 80% 可用算力,且報價 ≥ $3.00/PRO6000/天 | 暫停挖礦,釋出 1~2 台 5090 機支援出租 | 自動排程 |
| 3. 內部推理模型需驗證新功能(如自動診斷 GSP 卡死) | 強制保留 1 台 PRO 6000 專用,不得切出 | 蔡長明核准 |
| 4. 礦池中斷 > 2 小時 或 Xid 154 故障率 > 15% | 暫停該機挖礦,轉入「觀察模式」或修復 | BMC 自動重啟 + 報警 |
| 5. DeepSeek V4 Flash 連續 7 天 tok/s 提升 ≥ 15% | 啟動「維運 AI 化」第二階段:開放租戶用自然語言下單 | 戰略會議決議 |
| 切換類型 | 摩擦點 | 解法(已驗證) |
|---|---|---|
| 挖礦 ↔ AI 出租 | vLLM 不支援 sm_120(PRO 6000) | 改用 SGLang + --attention-backend compressed + Blackwell 專用 image |
| AI 出租 → 內部推理 | 模型部署耗時、CUDA graph 崩潰 | 腳本化部署流程 + --disable-cuda-graph |
| 任何切換 | IPMI 對應錯誤導致誤重啟 | MAC + ForceOff 驗證 BMC 對應表(每週更新一次) |
| 安全風險 | cloudflared 公開模型 API | 加入 API key 鎖 + rate limit(已部署) |
⚠️ 切換原則:
- 所有操作必須 可逆、非破壞性、日誌可追蹤。
- 使用vastai-monitor與輕量儀表板做切換前後對照。
| 步驟 | 行動 | 負責人 |
|---|---|---|
| 1 | 匯出過去 7 天各機器 UGDCM 數據(挖礦收入、AI 租金、電費) | 自動腳本(ugdc-report.py) |
| 2 | 檢查 LuckyPool 過去 7 天穩定性(stratum 中斷次數) | 運維工程師 |
| 3 | 檢查 PRO 6000 機 DeepSeek V4 Flash 的 tok/s 與對話量成長率 | AI 工程師 |
| 4 | 判斷是否觸發切換條件(見第三節) | 蔡長明 + 策略顧問 |
| 5 | 執行切換(最多調整 2 台機器用途) | 自動化腳本 + 人工監控 |
| 6 | 更新 gpu-status-dashboard 並推送通知至蔡負責人手機 | cloudflared + Line Bot |
📌 限制:
- 每週最多切換 2 台機器,避免系統震盪。
- PRO 6000 機 至少保留 50% 時間用於內部推理(戰略底線)。
- RTX 5060 維運中樞 永不參與挖礦或出租。
| 風險 | 對策 |
|---|---|
| 礦池單點故障 | 多池備援(LuckyPool + HeroMiners 雙配置,自動 failover) |
| GSP firmware 卡死 | 每日 03:00 自動巡檢 Xid 154,異常即 BMC 冷重啟 |
| 硬體 RMA 延遲 | 備用卡庫存:至少 2 張 RTX 5090、1 張 PRO 6000 |
| 租戶資料外洩 | 所有租機使用 container 隔離,租期結束自動 wipe(docker system prune -f) |
| cloudflared 資安漏洞 | 每週自動 rotate tunnel token,API 加入 HMAC 驗證 |
| 等級 | 目標 | 達成指標 |
|---|---|---|
| L0(現狀) | 手動切換 + SSH 維運 | 已達成 |
| L1(Q2 2025) | 自動化切換 + 儀表板監控 | 本策略即為 L1 SOP |
| L2(Q3 2025) | AI 自動診斷 GSP 卡死 + 建議切換 | DeepSeek V4 Flash 輸出診斷報告 |
| L3(Q4 2025) | 自主執行修復(BMC 重啟 + 切負載) | Claude + Shell Agent 連動 |
| L4(2026) | 維運能力產品化輸出(Ops-as-a-Service) | 對外提供「AI-native GPU 維運 API」 |
ugdc-report.py 腳本,下週一啟用每週調度 SOP。 A20 OpsAI,2026 年對外授權。簽核:
蔡長明(負責人)___________
首席策略顧問 ___________
日期:2025 年 4 月 5 日
附件:gpu-status-dashboard 網址、ugdc-report.py 範本、BMC 對應表自動生成腳本