千家信息网

Ceph monitor故障恢复的示例分析

发表于:2025-12-03 作者:千家信息网编辑
千家信息网最后更新 2025年12月03日,小编给大家分享一下Ceph monitor故障恢复的示例分析,相信大部分人都还不怎么了解,因此分享这篇文章给大家参考一下,希望大家阅读完这篇文章后大有收获,下面让我们一起去了解一下吧!1 问题一般来说
千家信息网最后更新 2025年12月03日Ceph monitor故障恢复的示例分析

小编给大家分享一下Ceph monitor故障恢复的示例分析,相信大部分人都还不怎么了解,因此分享这篇文章给大家参考一下,希望大家阅读完这篇文章后大有收获,下面让我们一起去了解一下吧!

1 问题

一般来说,在实际运行中,ceph monitor的个数是2n+1(n>=0)个,在线上至少3个,只要正常的节点数>=n+1,ceph的paxos算法能保证系统的正常运行。所以,对于3个节点,同时只能挂掉一个。一般来说,同时挂掉2个节点的概率比较小,但是万一挂掉2个呢?

如果ceph的monitor节点超过半数挂掉,paxos算法就无法正常进行仲裁(quorum),此时,ceph集群会阻塞对集群的操作,直到超过半数的monitor节点恢复。

If there are not enough monitors to form a quorum, the ceph command will block trying to reach the cluster. In this situation, you need to get enough ceph-mon daemons running to form a quorum before doing anything else with the cluster.

所以,

(1)如果挂掉的2个节点至少有一个可以恢复,也就是monitor的元数据还是OK的,那么只需要重启ceph-mon进程即可。所以,对于monitor,最好运行在RAID的机器上。这样,即使机器出现故障,恢复也比较容易。

(2)如果挂掉的2个节点的元数据都损坏了呢?出现这种情况,说明人品不行,2台机器的RAID磁盘同时损坏,这得多背?肯定是管理员嫌工资太低,把机器砸了。如何恢复呢?

2 恢复

其实,也没有其它办法,只能想办法将故障的节点恢复,但元数据已经损坏。幸好还有一个元数据正常的节点,通过它可以恢复。

添加monitor的步骤:

$ ceph mon getmap -o /tmp/monmap # provides fsid and existing monitor addrs

$ ceph auth export mon. -o /tmp/monkey # mon. auth key

$ ceph-mon -i newname --mkfs --monmap /tmp/monmap --keyring /tmp/monkey

所以,只要得到monmap,就可以恢复monitor了。

为了模拟,考虑2个monitor节点,挂掉一个,此时通过网络访问ceph的所有操作都会被阻塞,但monitor的本地socket还是可以通信的。

但是,让人蛋疼的是通过socket不能进行monmap的导出。不过,幸好有monmaptool工具,通过它,我们可以手动生成(注意fsid):

# monmaptool --create --add vm2 172.16.213.134:6789 --add vm3 172.16.213.135:6789 --fsid eb295a51-ec22-4971-86ef-58f6d2bea3bf --clobber monmap

monmaptool: monmap file monmap

monmaptool: set fsid to eb295a51-ec22-4971-86ef-58f6d2bea3bf

monmaptool: writing epoch 0 to monmap (2 monitors)

将正常monitor节点的mon key拷贝过来:

# cat /var/lib/ceph/mon/cluster1-vm2/keyring

[mon.]

key = AQDZQ8VTAAAAABAAX9HqE0NITrUt7j1w0YadvA==

caps mon = "allow *"

然后初始化:

# ceph-mon --cluster cluster1 -i vm3 --mkfs --monmap /root/monmap --keyring /tmp/keyring

ceph-mon: set fsid to eb295a51-ec22-4971-86ef-58f6d2bea3bf

ceph-mon: created monfs at /var/lib/ceph/mon/cluster1-vm3 for mon.vm3

最后,启动故障节点:

# ceph-mon --cluster cluster1 -i vm3 --public-addr 172.16.213.135:6789

一切OK!

以上是"Ceph monitor故障恢复的示例分析"这篇文章的所有内容,感谢各位的阅读!相信大家都有了一定的了解,希望分享的内容对大家有所帮助,如果还想学习更多知识,欢迎关注行业资讯频道!

节点 故障 数据 机器 同时 篇文章 运行 示例 分析 一般来说 内容 办法 算法 还是 集群 阻塞 不行 不怎么 个数 也就是 数据库的安全要保护哪些东西 数据库安全各自的含义是什么 生产安全数据库录入 数据库的安全性及管理 数据库安全策略包含哪些 海淀数据库安全审计系统 建立农村房屋安全信息数据库 易用的数据库客户端支持安全管理 连接数据库失败ssl安全错误 数据库的锁怎样保障安全 计算机网络技术对我的帮助 花都专业网络安全服务 软件开发费与技术费 未转变者连接不上服务器怎么办 怎样新建数据库在E盘 数据库实用教程中国电力课后习题 阳江自主可控软件开发价目表 服务器主机能不能给别人用 文件服务器的管理与配置总结 深圳市富思泰网络技术有限公司 保护计算机网络安全技术有哪些 浙江项目软件开发哪家可靠 想编程软件学什么软件开发 ipmi服务器管理系统 网络安全属于专业硕士吗 国家网络安全周认识 河南服务器电源哪种好 计算机网络技术单词 小米 服务器失败 党员干部谈网络安全 江南大学网络教育数据库考试 学编程先学数据库还是学语言 从0开始开发关系型数据库 高要区网络安全吗 软件开发要评职称吗 网络安全技术的未来的发展 数据库冗余概念 安卓软件开发语言有哪些 安仁电脑软件开发培训班 应用软件开发成本估算方法
0