🧩 Tổng quan
Trong quá trình vận hành hệ thống sử dụng Proxmox VE Cluster, mình thường nhận được câu hỏi như sau:
“Mình muốn tách tạm thời một node khỏi cluster để bảo trì, sau đó kết nối lại mà không cần dùng lệnh pvecm add
– có được không?”
Câu hỏi này nghe có vẻ hợp lý và cũng xuất phát từ nhu cầu thực tế: bạn muốn tạm ngừng một node, làm gì đó (thay RAM, upgrade OS, kiểm tra phần cứng…), rồi sau đó “kết nối lại” mà không phải join cluster lại từ đầu. Tuy nhiên, câu trả lời chính xác là: KHÔNG THỂ tách node tạm thời theo cách đó nếu bạn gỡ node khỏi cluster.
🔍 Phân tích câu hỏi: “Tách tạm thời” nghĩa là gì?
Nhiều người khi nói “tách tạm thời” thường hiểu theo 2 cách:
- Shutdown node, bảo trì, sau đó bật lại → tự động kết nối lại cluster
✅ Cách này được hỗ trợ, không có vấn đề. - Remove node khỏi cluster → làm gì đó → add lại mà không cần join
❌ Cách này sai hoàn toàn về nguyên tắc hoạt động của cluster Proxmox.
✅ Cách đúng để bảo trì một node
🛠️ Bạn nên làm gì khi cần bảo trì?
Thay vì “tách”, Proxmox cho phép bạn shutdown hoặc stop dịch vụ cluster tạm thời, nhưng node vẫn còn là thành viên của cluster.
Các bước đề xuất:
- Migrate VM/LXC khỏi node:
qm migrate <vmid> pve02
pct migrate <ctid> pve02
- Dừng node để bảo trì:
shutdown now
# hoặc
systemctl stop pve-cluster
systemctl stop corosync
- Sau khi bảo trì xong, khởi động lại node:
reboot
Node sẽ tự động kết nối lại vào cluster (nếu file config corosync.conf
còn nguyên).
❌ Việc không nên làm nếu chỉ muốn bảo trì
Sai lầm phổ biến | Tác hại xảy ra |
---|---|
Xóa /etc/pve/corosync.conf | Node bị mất kết nối với cluster vĩnh viễn |
Gõ pvecm delnode <node> | Cluster xóa vĩnh viễn thông tin node đó |
Dùng pmxcfs -l và xóa config | Node trở thành standalone, phải join lại từ đầu |
Xóa thư mục /etc/pve/nodes/<node> | GUI lỗi, node vẫn hiện “ghost” hoặc treo trạng thái |
📊 So sánh: Shutdown vs Remove node
Tiêu chí | Shutdown để bảo trì | Remove node khỏi cluster |
---|---|---|
Trạng thái node | Offline tạm thời | Không còn là thành viên |
Cluster có nhận lại? | Có, tự động | Không, phải pvecm add lại |
Mất cấu hình? | Không | Có thể mất (nếu xóa nhầm) |
Dễ thực hiện | Dễ | Phức tạp, rủi ro |
📘 Ví dụ thực tế
Bạn có 3 node: pve01
, pve02
, pve03
.
Bạn muốn thay ổ cứng trên pve03
và bảo trì 2 tiếng.
✅ Cách đúng:
# Trên pve03:
migrate VM/LXC sang node khác
shutdown now
# hoặc nếu bảo trì không liên quan điện:
systemctl stop pve-cluster
systemctl stop corosync
# Sau bảo trì:
reboot
Node pve03
sẽ tự động kết nối lại cluster như chưa từng rời đi.
🔧 Sơ đồ ASCII mô tả
Trước bảo trì:
+---------+ +---------+ +---------+
| pve01 |<--->| pve02 |<--->| pve03 |
+---------+ +---------+ +---------+
Trong lúc bảo trì:
+---------+ +---------+ [ pve03 OFF ]
| pve01 |<--->| pve02 |
+---------+ +---------+
Sau bảo trì (reboot):
+---------+ +---------+ +---------+
| pve01 |<--->| pve02 |<--->| pve03 |
+---------+ +---------+ +---------+
💡 Lời khuyên dành cho bạn
- Chỉ remove node khi chắc chắn node đó không còn dùng nữa.
- Nếu chỉ bảo trì hoặc nâng cấp, hãy giữ nguyên cấu hình cluster và chỉ shutdown node.
- Tránh nhầm lẫn giữa việc “ngắt kết nối tạm thời” và “xóa node khỏi cluster”.
- Cluster sẽ tự đồng bộ lại nếu node giữ được cấu hình
corosync
vàpmxcfs
.
🧾 Kết luận
Bạn KHÔNG THỂ tách node tạm thời ra khỏi Proxmox Cluster rồi kết nối lại mà không join lại.
👉 Cách đúng là: giữ node trong cluster, migrate VM/LXC, shutdown node để bảo trì, rồi bật lại.
Nếu bạn remove node thật sự bằng lệnh pvecm delnode
, thì khi muốn kết nối lại, bạn phải sử dụng pvecm add
và làm lại từ đầu như khi join node mới.
Hy vọng chia sẻ này sẽ giúp bạn hiểu rõ hơn về cách hoạt động của cluster Proxmox và tránh được những rủi ro không đáng có khi bảo trì hệ thống!
Nếu bạn có thêm thắc mắc, đừng ngại để lại bình luận hoặc inbox riêng nhé.