Khắc phục lỗi mgr module dashboard crashed trong Ceph

Trong quá trình vận hành hệ thống Ceph Cluster, bạn có thể gặp cảnh báo dạng:

HEALTH_WARN 2 mgr modules have recently crashed

Cụ thể, lỗi này thường là do module Dashboard trong Ceph Manager bị crash gần đây. Trong bài viết này, mình sẽ chia sẻ cách xác định, xử lý tạm thời, giải thích nguyên nhân và đưa ra hướng khắc phục lâu dài.

Triệu chứng, bạn chạy lệnh sau trên một node trong cluster và nhận được thông báo:

shell> ceph health detail
HEALTH_WARN 2 mgr modules have recently crashed
[WRN] RECENT_MGR_MODULE_CRASH: 2 mgr modules have recently crashed
    mgr module dashboard crashed in daemon mgr.pve01 on host pve01 at 2025-06-04T17:57:20.792503Z
    mgr module dashboard crashed in daemon mgr.pve01 on host pve01 at 2025-06-04T16:57:10.667501Z

Khi xem trạng thái tổng quát của cluster bằng ceph -s:

shell> ceph -s
  cluster:
    id:     37a599e4-599e-4aef-ac0d-ab9e788de377
    health: HEALTH_WARN
            2 mgr modules have recently crashed

  services:
    mon: 5 daemons, quorum pve01,pve02,pve03,pve04,pve05 (age 32m)
    mgr: pve05(active, since 5m), standbys: pve04, pve02, pve01, pve03
    osd: 40 osds: 40 up (since 29m), 40 in (since 3h)

  data:
    pools:   2 pools, 1025 pgs
    objects: 1.52M objects, 5.8 TiB
    usage:   17 TiB used, 122 TiB / 140 TiB avail
    pgs:     1025 active+clean

Module dashboard trong mgr node pve01 đã crash hai lần gần đây. Tuy nhiên, cluster vẫn đang hoạt động bình thường với một mgr active mới là pve05.

✅ Cách xử lý tạm thời – Dọn dẹp cảnh báo

Bước 1: Xoá các bản ghi crash đã quá hạn

Chạy lệnh:

ceph crash prune 3

3 là số ngày giữ lại các bản ghi crash.
Sau khi xoá, kiểm tra lại:

ceph crash ls

→ Nếu không còn gì hiển thị, tức là các crash cũ đã bị xoá.

Kết quả:

ceph crash prune 3
ceph crash ls

Sau đó:

ceph health detail

→ Thông báo HEALTH_WARN đã biến mất.

❓ Vậy vấn đề thực sự là gì?

Mặc dù cảnh báo đã biến mất, lỗi thật sự chưa được giải quyết triệt để. Module dashboard vẫn có thể crash lần nữa nếu không điều tra nguyên nhân gốc rễ.

⚙ Ceph MGR là gì?

         +----------------------+
         |   Ceph Manager (MGR)|
         +----------------------+
         | Modules:            |
         |  - dashboard        |
         |  - prometheus       |
         |  - iostat           |
         +----------------------+

Mỗi cluster Ceph có một MGR daemon, có thể chạy trên nhiều node.
MGR cung cấp các chức năng giám sát, báo cáo, interface web (Dashboard), v.v.
Module dashboard là phần cho phép truy cập web GUI của Ceph.

💥 Nguyên nhân thường gặp khiến dashboard bị crash

Lỗi phần mềm

Có thể do bug trong Ceph version đang dùng.
Module dashboard có vấn đề khi khởi tạo hoặc hoạt động.

Cấu hình sai

Dashboard yêu cầu SSL cert hoặc cổng không bị chiếm dụng.
Nếu cấu hình SSL không hợp lệ hoặc bị thiếu file .crt, .key, dashboard sẽ crash.

Thiếu tài nguyên

RAM, CPU không đủ khi nhiều module chạy cùng lúc.

🛠 Hướng khắc phục triệt để

🔎 Kiểm tra log của MGR

Trên node bị crash (ví dụ pve01), kiểm tra log:

journalctl -u ceph-mgr@pve01 -n 100

Hoặc:

cat /var/log/ceph/ceph-mgr.pve01.log

Tìm kiếm các dòng như:

Module 'dashboard' crashed due to...

💡 Khởi động lại dashboard module

Tắt rồi bật lại module dashboard:

ceph mgr module disable dashboard
ceph mgr module enable dashboard

Nếu cần cấu hình lại:

ceph dashboard create-self-signed-cert
ceph config set mgr mgr/dashboard/server_port 8443

Sau đó kiểm tra lại:

ceph -s
ceph mgr module ls

🔄 Tổng kết

Bước	Mô tả
1	Phát hiện cảnh báo bằng `ceph health detail`
2	Dọn cảnh báo tạm thời với `ceph crash prune`
3	Kiểm tra nguyên nhân trong log
4	Tắt/bật lại module dashboard
5	Đảm bảo cấu hình SSL đúng và cổng không bị chiếm dụng

📌 Ghi chú

Việc dọn crash prune chỉ xoá dấu vết, không xử lý lỗi gốc.
Luôn kiểm tra log chi tiết và backup cấu hình Ceph trước khi thay đổi module.
Hãy cân nhắc cập nhật Ceph lên bản ổn định hơn nếu lỗi xảy ra thường xuyên.

Hy vọng bài chia sẻ này giúp bạn hiểu rõ hơn về lỗi mgr module dashboard crashed trong Ceph và cách khắc phục hiệu quả. Nếu có câu hỏi, hãy để lại bình luận phía dưới nhé! 🚀

Bài viết gần đây

Tổng quan về Sector, Block, Chunk, Offset, Group Block trong Raid

[Ceph Turning] – Phân tích trạng thái tiến trình trong Linux

[Ceph Turning] – Phân tích nguyên nhân CPU SoftIRQ tăng cao

Vấn đề gỡ bỏ runtime override của injectargs khi daemon đang chạy trong Ceph

[Ceph Turning] – Điều chỉnh tham số recovery cho Ceph khi dùng mClock

Related Stories

Leave A Reply Cancel reply

Đăng ký nhận thông tin bài viết qua email