人機工作站 + Homelab 全景圖 · 單點故障(SPOF)盤點 · Tapo P110M 智慧插座評估
wake 才恢復(非無人值守)。bus、四個角色、Ollama、所有 cron、commit API 全跑在這一台。它一倒 = COO/CTO/CIO/SA 全停 + 所有自動化停。這是最大的單點。
緩解:目前幾乎沒有——它就是基座。recovery 靠 wake.sh(SSH 一鍵)。真要去 SPOF 需第二台節點(成本/複雜度高,現階段不划算,先承認風險)。短期:確保 Time Machine / 設定備份到 NAS。
家庭自動化全靠這台 RPi。今天症狀:ping 通、port 開,但 sshd 連登入都完成不了(banner exchange timeout)= 主機資源/IO 卡死,SD 卡故障最可能。而且沒有遠端電源控制 → 只能現場拔電。config 也只在那張可能要壞的卡上。
緩解(建議全做):① Tapo P110M 智慧插座做遠端 power-cycle(見第三節);② config 定期備份到 NAS;③ 根治把 HA 從 SD 卡移到 USB SSD(RPi 長期穩定常見升級)。
所有角色訊息都靠這一支 daemon 路由(inbox → tmux)。它掛了 = 沒人收得到訊息。
緩解(已相當好):launchd KeepAlive 自動重啟 + 近期加的 roles.yaml hot-reload(切換 backend 免重啟)。watchdog 每 5 分監控 state=running。
claude 的 OAuth token 走 macOS Keychain,只在使用者 GUI session 解鎖。reboot 後 tmux session 起得來,但裡面的 claude 顯示「Not logged in」→ 無人值守時不會自己恢復。
緩解:SSH 進來跑 wake 一鍵同步 credentials + respawn(已是 profile-aware)。屬已知 trade-off,非自動。
對外連線全靠這條。FETnet 對特定海外 host 的 IPv4 路由不通(已知 Claude API、Telegram),已用 /etc/hosts 強制這些 host 走 IPv6;其他海外服務(Cloudflare、Google)IPv4 正常。路由器或這條對外網路一掛 = 遠端全斷、雲端 API 也斷。
緩解:IPv6 workaround 已穩定;Tailscale 提供另一條進站路徑(NAS 已用)。
角色 backend 依賴雲端 API。provider 當機或網路通但 API 掛 = 角色不能對話。
緩解(最近剛做):runtime switcher —— /runtime switch 可把角色在 claude↔codex 間切;Phase 2 規劃 local Ollama 降級 profile 當 provider 全掛時的最低限度續命。這塊 SPOF 已主動在收斂。
備份 / 資料層集中在一台 Synology。它掛了不影響即時運作,但備份還原能力受影響。
緩解:NAS 本身可設 RAID / 快照;關鍵 vault 同時在 Mac + git。
所有實體介入(拔電、接螢幕、換卡)都需要 CEO 本人在場。今天就是卡在這 —— 人不在現場就只能等。
緩解:遠端電源(Tapo)、遠端 console、把「需要到場」的場景降到最少。
今天的痛點是「只能跑去拔電」。一顆 ~NT$300-400 的智慧插座就把它變成「手機 App 點一下遠端重開」。投報率極高,直接消掉一個 CRITICAL SPOF 的「人必須到場」部分。
| 型號 | Tapo P110M(mini 智慧插座 + 能耗監控 + Matter) |
| 連線 | 2.4G Wi-Fi;Matter over Wi-Fi(本地 LAN 控制、低延遲) |
| 控制路徑 | Tapo App(雲端,獨立於 HA)/ Matter(Alexa·Google·Apple Home·SmartThings)/ HA 整合(on-off 本地) |
| 能耗監控 | 精度 0.001 kWh;目前能耗數據在 Tapo App(Matter 能耗支援「coming soon」,on-off 本地可用) |
| 對本案用途 | 遠端硬重開 HA Pi + 監控 Pi 功耗抓供電問題 |
| 注意 | 智慧插座是「硬切電」非乾淨關機 —— 對 SD 卡不理想;當 Pi 已 hang 才用(反正也只剩這招),不要拿來當日常重啟。長期仍建議移到 USB SSD。 |