Trong quá trình vận hành hệ thống Ceph Cluster, bạn có thể gặp cảnh báo dạng:
HEALTH_WARN 2 mgr modules have recently crashedCụ thể, lỗi này thường là do module Dashboard trong Ceph Manager bị crash gần đây. Trong bài viết này, mình sẽ chia sẻ cách xác định, xử lý tạm thời, giải thích nguyên nhân và đưa ra hướng khắc phục lâu dài.

Triệu chứng, bạn chạy lệnh sau trên một node trong cluster và nhận được thông báo:
shell> ceph health detail
HEALTH_WARN 2 mgr modules have recently crashed
[WRN] RECENT_MGR_MODULE_CRASH: 2 mgr modules have recently crashed
mgr module dashboard crashed in daemon mgr.pve01 on host pve01 at 2025-06-04T17:57:20.792503Z
mgr module dashboard crashed in daemon mgr.pve01 on host pve01 at 2025-06-04T16:57:10.667501ZKhi xem trạng thái tổng quát của cluster bằng ceph -s:
shell> ceph -s
cluster:
id: 37a599e4-599e-4aef-ac0d-ab9e788de377
health: HEALTH_WARN
2 mgr modules have recently crashed
services:
mon: 5 daemons, quorum pve01,pve02,pve03,pve04,pve05 (age 32m)
mgr: pve05(active, since 5m), standbys: pve04, pve02, pve01, pve03
osd: 40 osds: 40 up (since 29m), 40 in (since 3h)
data:
pools: 2 pools, 1025 pgs
objects: 1.52M objects, 5.8 TiB
usage: 17 TiB used, 122 TiB / 140 TiB avail
pgs: 1025 active+cleanModule dashboard trong mgr node pve01 đã crash hai lần gần đây. Tuy nhiên, cluster vẫn đang hoạt động bình thường với một mgr active mới là pve05.
✅ Cách xử lý tạm thời – Dọn dẹp cảnh báo
Bước 1: Xoá các bản ghi crash đã quá hạn
Chạy lệnh:
ceph crash prune 33là số ngày giữ lại các bản ghi crash.- Sau khi xoá, kiểm tra lại:
ceph crash ls→ Nếu không còn gì hiển thị, tức là các crash cũ đã bị xoá.
Kết quả:
ceph crash prune 3
ceph crash ls
Sau đó:
ceph health detail
→ Thông báo HEALTH_WARN đã biến mất.
❓ Vậy vấn đề thực sự là gì?
Mặc dù cảnh báo đã biến mất, lỗi thật sự chưa được giải quyết triệt để. Module dashboard vẫn có thể crash lần nữa nếu không điều tra nguyên nhân gốc rễ.
⚙ Ceph MGR là gì?
+----------------------+
| Ceph Manager (MGR)|
+----------------------+
| Modules: |
| - dashboard |
| - prometheus |
| - iostat |
+----------------------+
- Mỗi cluster Ceph có một MGR daemon, có thể chạy trên nhiều node.
- MGR cung cấp các chức năng giám sát, báo cáo, interface web (Dashboard), v.v.
- Module
dashboardlà phần cho phép truy cập web GUI của Ceph.
💥 Nguyên nhân thường gặp khiến dashboard bị crash
Lỗi phần mềm
- Có thể do bug trong Ceph version đang dùng.
- Module
dashboardcó vấn đề khi khởi tạo hoặc hoạt động.
Cấu hình sai
- Dashboard yêu cầu SSL cert hoặc cổng không bị chiếm dụng.
- Nếu cấu hình SSL không hợp lệ hoặc bị thiếu file
.crt,.key, dashboard sẽ crash.
Thiếu tài nguyên
- RAM, CPU không đủ khi nhiều module chạy cùng lúc.
🛠 Hướng khắc phục triệt để
🔎 Kiểm tra log của MGR
Trên node bị crash (ví dụ pve01), kiểm tra log:
journalctl -u ceph-mgr@pve01 -n 100Hoặc:
cat /var/log/ceph/ceph-mgr.pve01.logTìm kiếm các dòng như:
Module 'dashboard' crashed due to...💡 Khởi động lại dashboard module
Tắt rồi bật lại module dashboard:
ceph mgr module disable dashboard
ceph mgr module enable dashboardNếu cần cấu hình lại:
ceph dashboard create-self-signed-cert
ceph config set mgr mgr/dashboard/server_port 8443Sau đó kiểm tra lại:
ceph -s
ceph mgr module ls🔄 Tổng kết
| Bước | Mô tả |
|---|---|
| 1 | Phát hiện cảnh báo bằng ceph health detail |
| 2 | Dọn cảnh báo tạm thời với ceph crash prune |
| 3 | Kiểm tra nguyên nhân trong log |
| 4 | Tắt/bật lại module dashboard |
| 5 | Đảm bảo cấu hình SSL đúng và cổng không bị chiếm dụng |
📌 Ghi chú
- Việc dọn
crash prunechỉ xoá dấu vết, không xử lý lỗi gốc. - Luôn kiểm tra log chi tiết và backup cấu hình Ceph trước khi thay đổi module.
- Hãy cân nhắc cập nhật Ceph lên bản ổn định hơn nếu lỗi xảy ra thường xuyên.
Hy vọng bài chia sẻ này giúp bạn hiểu rõ hơn về lỗi mgr module dashboard crashed trong Ceph và cách khắc phục hiệu quả. Nếu có câu hỏi, hãy để lại bình luận phía dưới nhé! 🚀
