====== K3s Cluster Nodes 重啟管理 Script ======
* Script - https://github.com/tryweb/k3s/blob/main/systools/k3s-reboot-manager.sh
* 這 Script 可以讓 K3s Cluster Nodes 需要重新開機 Exp. Linux kernel 更新 時, 安全重開, 降低 Downtime 時間.
===== 重開機順序 =====
==== 情境 1:1 個 Server + 2 個 Agent(最常見)====
* 順序:Server 節點 → Agent 節點 1 → Agent 節點 2
- 先重開 Server 節點 - 等待完全啟動(etcd + API server 就緒)
- 再依序重開 Agent 節點
- Agent 1
- Agent 2
* 原因:Agent 節點啟動時需要連接到 Server 的 API server,如果 Server 還沒準備好,Agent 會一直重試連接。
* {{:tech:k3s:gemini_generated_image_hsery9hsery9hser.png?400|}}
==== 情境 2:3 個 Server(HA 高可用)====
* 順序:依序重開 Server 節點,最後重開 Agent 節點
- Server 1 重開 - 等待加入叢集(可以看到其他 2 個 server)
- Server 2 重開 - 等待加入叢集(可以看到其他 2 個 server)
- Server 3 重開 - 等待叢集穩定(可以看到其他 3 個 server)
- 所有 Agent 節點依序重開
* 關鍵:確保至少有 2 個 Server 節點在線上(etcd quorum),才重開第 3 個。
* {{:tech:k3s:gemini_generated_image_x5khi9x5khi9x5kh.png?400|}}
===== 使用 k3s-reboot-manager.sh 方式 =====
==== 環境準備 ====
* k3s-reboot-manager.sh 可在 Server 上執行, 但要先設定好 Server 可以使用 ssh 免密碼連上所有 Nodes
- 設定 SSH 免密碼登入 (在主要的 Server 上執行)
# 生成 SSH key(如果還沒有)
sudo ssh-keygen -t rsa -b 4096 -N "" -f /root/.ssh/id_rsa
# 複製 key 到 Agent 節點(Exp. 使用 jonathan 帳號)
sudo ssh-copy-id jonathan@192.168.11.172
# 測試連線
sudo ssh jonathan@192.168.11.172 "echo SSH OK"
- 在 Agent 節點設定 sudo 免密碼
- SSH 到 Agent 節點:sudo ssh jonathan@192.168.11.172
- 在 Agent 節點上執行:
# 設定 jonathan 使用者 sudo 免密碼
echo 'jonathan ALL=(ALL) NOPASSWD: ALL' | sudo tee /etc/sudoers.d/jonathan
sudo chmod 440 /etc/sudoers.d/jonathan
# 測試 sudo 免密碼
sudo -n true && echo "Sudo OK"
# 登出
exit
- 從 Server 測試完整流程
# 測試 SSH + sudo reboot
sudo ssh jonathan@192.168.11.172 "sudo -n reboot --help"
# 如果上面的命令成功,表示設定正確
==== 使用腳本對 K3s Nodes 重新開機 ====
- 下載 k3s-reboot-manager.sh
sudo curl -o /usr/local/bin/k3s-reboot-manager.sh https://raw.githubusercontent.com/tryweb/k3s/refs/heads/main/systools/k3s-reboot-manager.sh
sudo chmod a+x /usr/local/bin/k3s-reboot-manager.sh
**環境需要安裝 jq 套件**sudo apt-get update && sudo apt-get install -y jq
- 互動式模式
jonathan@k3s-master-171:~$ sudo k3s-reboot-manager.sh
[INFO] === K3s Server 遠端節點重開機管理工具 ===
[INFO] 當前叢集節點狀態:
NAME STATUS ROLES AGE VERSION INTERNAL-IP EXTERNAL-IP OS-IMAGE KERNEL-VERSION CONTAINER-RUNTIME
k3s-master-171 Ready control-plane,master 18d v1.33.6+k3s1 192.168.11.171 Ubuntu 24.04.3 LTS 6.8.0-90-generic containerd://2.1.5-k3s1.33
k3s-worker-172 Ready 18d v1.33.6+k3s1 192.168.11.172 Ubuntu 24.04.3 LTS 6.8.0-90-generic containerd://2.1.5-k3s1.33
k3s-worker-173 Ready 18d v1.33.6+k3s1 192.168.11.173 Ubuntu 24.04.3 LTS 6.8.0-90-generic containerd://2.1.5-k3s1.33
請選擇操作:
1) 重開單一 Agent 節點
2) 重開所有 Agent 節點(依序)
3) 重開本地 Server 節點
4) 顯示節點狀態
5) 驗證叢集狀態
0) 退出
請選擇 [0-5]:
- 命令列模式
# 重開單一節點
sudo /usr/local/bin/k3s-reboot-manager.sh --reboot-agent k3s-worker-172 jonathan
===== FAQ =====
- Server(Master) 出現 Uncordon 狀態, Exp. k3s-master-171 可以手動恢復 kubectl uncordon k3s-master-171
{{tag>k3s reboot}}