honghulabs 內部策略文件 · 由本地大模型 Qwen3-235B-A22B 生成(8×RTX PRO 6000 @ SGLang)· 草稿待校

對話即維運（Conversational Ops）落地策略

鴻虎科技（honghulabs）內部策略文件

撰寫：首席策略顧問

對象：負責人蔡長明先生

日期：2025年4月5日

一、為何導入「對話即維運」？核心價值與痛點解決

現階段機隊維運仍處於 L1~L2 成熟度（人工 SSH + 基本監控），面臨以下痛點：

痛點	對應問題	ConOps 解法
1. 故障診斷耗時	Xid 154 卡死需逐台查日誌、判斷是否重啟	模型自動解析 IPMI 日誌、建議處置（重啟/RMA）
2. 操作門檻高	需熟悉 CLI、vastai、stratum 協議、BMC 工具	自然語言下指令：「把所有 5090 機器切到 LuckyPool」
3. 多任務切換成本高	挖礦 / AI 出租 / 推理間動態配置無即時決策支援	模型即時計算毛利差異，建議切換策略
4. 維運知識未沉澱	故障處理依賴個人經驗，難以複製	對話記錄即知識庫，自動歸檔常見情境
5. 邊際效益下降	機台擴張至 140 台時，人力無法線性成長	AI 代理承擔 70% L1~L2 操作，釋放人力至策略層

結論：
對話即維運（Conversational Ops, ConOps）不是「炫技」，而是 GPU 算力公司從「人力密集」邁向「AI-native 基礎設施」的必要轉型。
以 DeepSeek V4 Flash + Claude 3.5 為雙核心，打造「能讀、能想、能執行」的維運 AI 代理，是 維持邊際成本不升的唯一解。

二、落地三階段路線圖（優先順序：P0 → P1 → P2）

階段一：L2 → L3｜讀（Read-Only）｜Q2 2025｜目標：全面可視化 + AI 輔助診斷

目標：

所有機台狀態可被模型「讀懂」
支援自然語言提問（「哪台機器溫度異常？」、「過去24小時哪台算力掉最兇？」）

執行清單：

完成所有機台接入 gpu.earth 監控儀表板（已達成 80%）
將監控 API 串接至 DeepSeek V4 Flash（透過 SGLang + --attention-backend compressed）
建立「維運知識快取」：
整理常見錯誤碼（Xid 154, stratum timeout, CUDA graph crash）
對應處理 SOP（重啟 / RMA / 更換礦池）
開放蔡負責人手機端對話介面（cloudflared + Open WebUI），僅限「問」不「動」

可量化工項：

✅ 100% 機台狀態可被模型即時查詢（延遲 < 3s）
✅ 常見故障診斷準確率 > 85%（對比人工判斷）
✅ 平均故障定位時間從 15 分鐘降至 3 分鐘

階段二：L3 → L3.5｜讀 + 寫（Read-Write）｜Q3 2025｜目標：人在迴路（Human-in-the-Loop）自動化

目標：

AI 可「建議」操作，經蔡負責人確認後執行
實現「問完直接做」：「幫我重啟所有 GSP 卡死的機器」

執行清單：

開發「指令代理層」（Agent Layer）：
將自然語言轉為 CLI 命令（如：ipmitool -H 192.168.1.10 -U admin -P xxx chassis power cycle）
接入 vastai API、mining script 控制端
設計「確認機制」：
所有寫操作需蔡負責人輸入 confirm: yes 或點選手機介面按鈕
建立「操作日誌回饋」：
每次執行後自動生成摘要：「已重啟 3 台機器（IP: 10,11,12），5 分鐘後回報狀態」

可量化工項：

✅ 50% L1 操作（重啟、切礦池、啟停租戶）由 AI 建議並經確認執行
✅ 單次常見操作耗時從 10 分鐘降至 2 分鐘（含確認）
✅ 操作失誤率 < 0.5%（目標：0）

階段三：L3.5 → L4｜自主維運（Autonomous Ops）｜Q4 2025｜目標：預測性維護 + 動態算力調度

目標：

AI 可自主執行低風險操作（如：自動重啟 GSP 卡死機台）
根據電價、幣價、租戶報價，自動切換算力用途

執行清單：

訓練「風險決策模型」：
區分「可自動處理」（重啟） vs「需 RMA」（連續 3 次重啟失敗）
接入電價 API（台電即時電價）、幣價（PRL/USD）、vastai 市場報價
開發「動態算力調度引擎」：
計算每台機器的「邊際貢獻毛利」
範例邏輯：

     if (PRL 挖礦毛利 > AI 出租報價 × 0.9) → 切挖礦
     else if (租戶 SLA 到期) → 釋出
     else → 保留

設定「熔斷機制」：
連續 2 次操作失敗 → 停止自動化 → 通知負責人

可量化工項：

✅ 30% 機台實現「無人干預」日常維運
✅ 算力利用率提升 15%（減少閒置）
✅ 毛利最大化策略執行延遲 < 5 分鐘

三、權限分級設計（安全核心）

層級	權限	對應階段	控制方式
L0	只讀查詢	階段一	Open WebUI + 語意過濾
L1	建議操作	階段二	需 `confirm: yes`
L2	自動執行低風險操作	階段三	白名單指令（僅 power cycle / mining switch）
L3	高風險操作（RMA 判定、資料清除）	保留人工	永不自動化

原則：
所有寫操作必須經過「語意解析 → 指令生成 → 風險評分 → 確認/執行」四步驟，不可跳過。

四、可量化的效益指標（KPI）

指標	基線（現況）	Q3 目標	Q4 目標	測量方式
平均故障處理時間	15 分鐘	≤ 5 分鐘	≤ 2 分鐘	日誌時間差
單機維運人力成本	8 分鐘/天/機	3 分鐘	1 分鐘	工時記錄
算力閒置率	12%	≤ 8%	≤ 5%	vastai + mining log
操作錯誤次數	2 次/月	≤ 1 次	0 次	事故報告
毛利貢獻提升（動態調度）	-	+5%	+12%	財務報表比對

五、最大三個風險與對策

風險一：AI 錯誤指令導致機台當機或資料遺失

情境： 模型誤判「GSP 卡死」，對正常運作機台執行強制重啟
對策：
所有指令走「白名單」機制，僅允許預設命令（如 power cycle, mining restart）
加入「上下文驗證」：執行前確認該機台確有 Xid 154 日誌
保留租戶機台「不可自動操作」標籤（如本次回收的閒置機）

執行： 所有寫操作前，AI 必須輸出「執行理由」與「風險等級」，由系統記錄。

風險二：公開 cloudflared 連結遭惡意存取或攻擊

情境： 手機介面暴露，遭 brute force 或 prompt injection 攻擊
對策：
強制啟用 Cloudflare Zero Trust（Teams）→ 僅限蔡負責人帳號登入
加入 prompt injection 防護（如：拒絕「列出所有機器 IP」之類的敏感請求）
所有對話加密存檔，異常行為自動告警

執行： 對話介面不直接接 BMC，而是透過中繼 API 代理，並記錄完整 audit trail。

風險三：Blackwell sm_120 平台支援不穩，模型崩潰影響維運中樞

情境： DeepSeek V4 Flash 因 CUDA graph crash 停擺，維運中樞癱瘓
對策：
部署「備援推理節

honghulabs · 蔡長明 C.M. Tsai · 對話即維運 · 本文件由地端 GPU 自主生成,未經外部 API