按照proxmox集群雪崩进行处理:将pve节点从集群中退出,然后登录浏览器控制台进行启动。
具体过程如下:
-
在待隔离节点上停止 pve-cluster 服务的命令
systemctl stop pve-cluster.service systemctl stop corosync.service
-
上一步执行成功后,执行将待隔离节点的集群文件系统设置为本地模式的命令
pmxcfs -l
-
上一步执行成功后,执行删除 corosync 配置文件的命令
rm /etc/pve/corosync.conf rm -rf /etc/corosync/*
-
前3步都执行成功后,执行重新启动集群文件系统服务的命令
killall pmxcfs systemctl start pve-cluster.service
-
删除故障节点node文件
d /etc/pve/nodes m -rf <node_name>
-
清理集群残留信息
vecm delnode <node_name>
-
登录浏览器控制台查看pve状态,并重新启动VM并监控结果
注意:有时候可能需要重启一次才行