Trong quá trình vận hành hệ thống Ceph Cluster, bạn có thể gặp cảnh báo dạng:
HEALTH_WARN 2 mgr modules have recently crashed
Cụ thể, lỗi này thường là do module Dashboard trong Ceph Manager bị crash gần đây. Trong bài viết này, mình sẽ chia sẻ cách xác định, xử lý tạm thời, giải thích nguyên nhân và đưa ra hướng khắc phục lâu dài.

Triệu chứng, bạn chạy lệnh sau trên một node trong cluster và nhận được thông báo:
shell> ceph health detail
HEALTH_WARN 2 mgr modules have recently crashed
[WRN] RECENT_MGR_MODULE_CRASH: 2 mgr modules have recently crashed
mgr module dashboard crashed in daemon mgr.pve01 on host pve01 at 2025-06-04T17:57:20.792503Z
mgr module dashboard crashed in daemon mgr.pve01 on host pve01 at 2025-06-04T16:57:10.667501Z
Khi xem trạng thái tổng quát của cluster bằng ceph -s
:
shell> ceph -s
cluster:
id: 37a599e4-599e-4aef-ac0d-ab9e788de377
health: HEALTH_WARN
2 mgr modules have recently crashed
services:
mon: 5 daemons, quorum pve01,pve02,pve03,pve04,pve05 (age 32m)
mgr: pve05(active, since 5m), standbys: pve04, pve02, pve01, pve03
osd: 40 osds: 40 up (since 29m), 40 in (since 3h)
data:
pools: 2 pools, 1025 pgs
objects: 1.52M objects, 5.8 TiB
usage: 17 TiB used, 122 TiB / 140 TiB avail
pgs: 1025 active+clean
Module dashboard
trong mgr
node pve01
đã crash hai lần gần đây. Tuy nhiên, cluster vẫn đang hoạt động bình thường với một mgr
active mới là pve05
.
✅ Cách xử lý tạm thời – Dọn dẹp cảnh báo
Bước 1: Xoá các bản ghi crash đã quá hạn
Chạy lệnh:
ceph crash prune 3
3
là số ngày giữ lại các bản ghi crash.- Sau khi xoá, kiểm tra lại:
ceph crash ls
→ Nếu không còn gì hiển thị, tức là các crash cũ đã bị xoá.
Kết quả:
ceph crash prune 3
ceph crash ls
Sau đó:
ceph health detail
→ Thông báo HEALTH_WARN đã biến mất.
❓ Vậy vấn đề thực sự là gì?
Mặc dù cảnh báo đã biến mất, lỗi thật sự chưa được giải quyết triệt để. Module dashboard
vẫn có thể crash lần nữa nếu không điều tra nguyên nhân gốc rễ.
⚙ Ceph MGR là gì?
+----------------------+
| Ceph Manager (MGR)|
+----------------------+
| Modules: |
| - dashboard |
| - prometheus |
| - iostat |
+----------------------+
- Mỗi cluster Ceph có một MGR daemon, có thể chạy trên nhiều node.
- MGR cung cấp các chức năng giám sát, báo cáo, interface web (Dashboard), v.v.
- Module
dashboard
là phần cho phép truy cập web GUI của Ceph.
💥 Nguyên nhân thường gặp khiến dashboard bị crash
Lỗi phần mềm
- Có thể do bug trong Ceph version đang dùng.
- Module
dashboard
có vấn đề khi khởi tạo hoặc hoạt động.
Cấu hình sai
- Dashboard yêu cầu SSL cert hoặc cổng không bị chiếm dụng.
- Nếu cấu hình SSL không hợp lệ hoặc bị thiếu file
.crt
,.key
, dashboard sẽ crash.
Thiếu tài nguyên
- RAM, CPU không đủ khi nhiều module chạy cùng lúc.
🛠 Hướng khắc phục triệt để
🔎 Kiểm tra log của MGR
Trên node bị crash (ví dụ pve01
), kiểm tra log:
journalctl -u ceph-mgr@pve01 -n 100
Hoặc:
cat /var/log/ceph/ceph-mgr.pve01.log
Tìm kiếm các dòng như:
Module 'dashboard' crashed due to...
💡 Khởi động lại dashboard module
Tắt rồi bật lại module dashboard:
ceph mgr module disable dashboard
ceph mgr module enable dashboard
Nếu cần cấu hình lại:
ceph dashboard create-self-signed-cert
ceph config set mgr mgr/dashboard/server_port 8443
Sau đó kiểm tra lại:
ceph -s
ceph mgr module ls
🔄 Tổng kết
Bước | Mô tả |
---|---|
1 | Phát hiện cảnh báo bằng ceph health detail |
2 | Dọn cảnh báo tạm thời với ceph crash prune |
3 | Kiểm tra nguyên nhân trong log |
4 | Tắt/bật lại module dashboard |
5 | Đảm bảo cấu hình SSL đúng và cổng không bị chiếm dụng |
📌 Ghi chú
- Việc dọn
crash prune
chỉ xoá dấu vết, không xử lý lỗi gốc. - Luôn kiểm tra log chi tiết và backup cấu hình Ceph trước khi thay đổi module.
- Hãy cân nhắc cập nhật Ceph lên bản ổn định hơn nếu lỗi xảy ra thường xuyên.
Hy vọng bài chia sẻ này giúp bạn hiểu rõ hơn về lỗi mgr module dashboard crashed
trong Ceph và cách khắc phục hiệu quả. Nếu có câu hỏi, hãy để lại bình luận phía dưới nhé! 🚀