Xóa node Ceph/Proxmox bị bóng ma

1. Tổng quan

Trong quá trình vận hành cluster Proxmox kèm Ceph, đôi khi một node bị lỗi hoặc đã gỡ bỏ nhưng vẫn còn hiển thị trong interface Proxmox (thường thấy trạng thái stopped ở mục Ceph → Monitor). Đây là hiện tượng bóng ma do cấu hình còn sót lại trong Proxmox cluster filesystem (/etc/pve/nodes/). Nếu không xử lý dứt điểm, GUI sẽ gây nhầm lẫn, báo lỗi và làm quản trị viên khó kiểm soát trạng thái thực tế của cluster.

Ví dụ hình ảnh dưới đây cho ta thấy Node 83 đã bị remove khỏi cluster tuy nhiên chúng ta không thể xóa nó ở phần Ceph Mon cũng như Ceph MGR.

Dưới đây là thông báo lỗi khi xóa.

Bài viết này trình bày quy trình từng bước để xóa hẳn node bóng ma ra khỏi Proxmox và Ceph.

2. Quy trình xử lý

2.1. Kiểm tra Corosync

pvecm nodes
pvecm status
  • Nếu node còn trong danh sách, thử gỡ bằng: pvecm delnode node83
  • Nếu gặp lỗi CS_ERR_NOT_EXIST nghĩa là node không còn trong ring, chỉ còn file config rác.

2.2. Xóa thư mục node còn sót trong Proxmox

rm -rf /etc/pve/nodes/node83

2.3. Xóa mọi cấu hình Ceph liên quan (nếu có)

rm -rf /etc/pve/nodes/node83/ceph

2.4. Làm mới dịch vụ Proxmox và kiểm tra, một số trường hợp bạn không cần restart pveproxy pvedaemon.

systemctl restart pveproxy pvedaemon 
pveceph status
ceph mon dump
pvesh get /nodes --output-format yaml

3. Kiểm tra sau khi xoá

Interface GUI Proxmox → Ceph → Monitor: không còn thấy mon.node83.

Lệnh ceph mon dump: chỉ còn các MON thực sự đang chạy (ví dụ node81, node82, node84).

Lệnh pvesh get /nodes | grep -w node83: không còn trả kết quả.

Lệnh pvecm nodes: không liệt kê node83.

4. Lời khuyên

  • Thứ tự an toàn khi dọn một node chết:
    • Gỡ trên Ceph (ceph mon remove, ceph orch host rm)
    • Gỡ trong Proxmox (pvecm delnode)
    • Nếu còn rác → xóa thư mục /etc/pve/nodes/<node>
  • Luôn duy trì tối thiểu 3 MON để đảm bảo quorum ổn định.
  • Trước khi xóa tay, cần chắc chắn rằng node không còn chứa VM, storage hay tham chiếu replication/HA nào.

5. Kết luận

Khi gặp tình huống node đã biến mất khỏi Corosync và Ceph nhưng vẫn hiển thị trong Proxmox, giải pháp cuối cùng là xóa tay thư mục /etc/pve/nodes/<node>. Đây là bước dọn rác cần thiết, sau đó chỉ việc restart dịch vụ Proxmox và kiểm tra lại để đảm bảo cluster đã sạch dấu vết node cũ.

Bài viết gần đây

spot_img

Related Stories

Leave A Reply

Please enter your comment!
Please enter your name here

Đăng ký nhận thông tin bài viết qua email