honghulabs 內部策略文件 · 由本地大模型 Qwen3-235B-A22B 生成(8×RTX PRO 6000 @ SGLang)· 草稿待校

對話即維運(Conversational Ops)落地策略

鴻虎科技(honghulabs)內部策略文件

撰寫:首席策略顧問

對象:負責人 蔡長明 先生

日期:2025年4月5日


一、為何導入「對話即維運」?核心價值與痛點解決

現階段機隊維運仍處於 L1~L2 成熟度(人工 SSH + 基本監控),面臨以下痛點:

痛點對應問題ConOps 解法
1. 故障診斷耗時Xid 154 卡死需逐台查日誌、判斷是否重啟模型自動解析 IPMI 日誌、建議處置(重啟/RMA)
2. 操作門檻高需熟悉 CLI、vastai、stratum 協議、BMC 工具自然語言下指令:「把所有 5090 機器切到 LuckyPool」
3. 多任務切換成本高挖礦 / AI 出租 / 推理間動態配置無即時決策支援模型即時計算毛利差異,建議切換策略
4. 維運知識未沉澱故障處理依賴個人經驗,難以複製對話記錄即知識庫,自動歸檔常見情境
5. 邊際效益下降機台擴張至 140 台時,人力無法線性成長AI 代理承擔 70% L1~L2 操作,釋放人力至策略層
結論:
對話即維運(Conversational Ops, ConOps)不是「炫技」,而是 GPU 算力公司從「人力密集」邁向「AI-native 基礎設施」的必要轉型
以 DeepSeek V4 Flash + Claude 3.5 為雙核心,打造「能讀、能想、能執行」的維運 AI 代理,是 維持邊際成本不升的唯一解

二、落地三階段路線圖(優先順序:P0 → P1 → P2)

階段一:L2 → L3|讀(Read-Only)|Q2 2025|目標:全面可視化 + AI 輔助診斷

目標:

執行清單:

  1. 完成所有機台接入 gpu.earth 監控儀表板(已達成 80%)
  2. 將監控 API 串接至 DeepSeek V4 Flash(透過 SGLang + --attention-backend compressed
  3. 建立「維運知識快取」:
  4. 整理常見錯誤碼(Xid 154, stratum timeout, CUDA graph crash)
  5. 對應處理 SOP(重啟 / RMA / 更換礦池)
  6. 開放蔡負責人手機端對話介面(cloudflared + Open WebUI),僅限「問」不「動」

可量化工項:


階段二:L3 → L3.5|讀 + 寫(Read-Write)|Q3 2025|目標:人在迴路(Human-in-the-Loop)自動化

目標:

執行清單:

  1. 開發「指令代理層」(Agent Layer):
  2. 將自然語言轉為 CLI 命令(如:ipmitool -H 192.168.1.10 -U admin -P xxx chassis power cycle
  3. 接入 vastai API、mining script 控制端
  4. 設計「確認機制」:
  5. 所有寫操作需蔡負責人輸入 confirm: yes 或點選手機介面按鈕
  6. 建立「操作日誌回饋」:
  7. 每次執行後自動生成摘要:「已重啟 3 台機器(IP: 10,11,12),5 分鐘後回報狀態」

可量化工項:


階段三:L3.5 → L4|自主維運(Autonomous Ops)|Q4 2025|目標:預測性維護 + 動態算力調度

目標:

執行清單:

  1. 訓練「風險決策模型」:
  2. 區分「可自動處理」(重啟) vs「需 RMA」(連續 3 次重啟失敗)
  3. 接入電價 API(台電即時電價)、幣價(PRL/USD)、vastai 市場報價
  4. 開發「動態算力調度引擎」:
  5. 計算每台機器的「邊際貢獻毛利」
  6. 範例邏輯:
     if (PRL 挖礦毛利 > AI 出租報價 × 0.9) → 切挖礦
     else if (租戶 SLA 到期) → 釋出
     else → 保留
  1. 設定「熔斷機制」:
  2. 連續 2 次操作失敗 → 停止自動化 → 通知負責人

可量化工項:


三、權限分級設計(安全核心)

層級權限對應階段控制方式
L0只讀查詢階段一Open WebUI + 語意過濾
L1建議操作階段二confirm: yes
L2自動執行低風險操作階段三白名單指令(僅 power cycle / mining switch)
L3高風險操作(RMA 判定、資料清除)保留人工永不自動化
原則:
所有寫操作必須經過「語意解析 → 指令生成 → 風險評分 → 確認/執行」四步驟,不可跳過。

四、可量化的效益指標(KPI)

指標基線(現況)Q3 目標Q4 目標測量方式
平均故障處理時間15 分鐘≤ 5 分鐘≤ 2 分鐘日誌時間差
單機維運人力成本8 分鐘/天/機3 分鐘1 分鐘工時記錄
算力閒置率12%≤ 8%≤ 5%vastai + mining log
操作錯誤次數2 次/月≤ 1 次0 次事故報告
毛利貢獻提升(動態調度)-+5%+12%財務報表比對

五、最大三個風險與對策

風險一:AI 錯誤指令導致機台當機或資料遺失

執行: 所有寫操作前,AI 必須輸出「執行理由」與「風險等級」,由系統記錄。

風險二:公開 cloudflared 連結遭惡意存取或攻擊

執行: 對話介面不直接接 BMC,而是透過中繼 API 代理,並記錄完整 audit trail。

風險三:Blackwell sm_120 平台支援不穩,模型崩潰影響維運中樞

honghulabs · 蔡長明 C.M. Tsai · 對話即維運 · 本文件由地端 GPU 自主生成,未經外部 API