按照proxmox集群雪崩进行处理:将pve节点从集群中退出,然后登录浏览器控制台进行启动。

具体过程如下:

  1. 在待隔离节点上停止 pve-cluster 服务的命令

    systemctl stop pve-cluster.service
    systemctl stop corosync.service
    
  2. 上一步执行成功后,执行将待隔离节点的集群文件系统设置为本地模式的命令

    pmxcfs  -l
    
  3. 上一步执行成功后,执行删除 corosync 配置文件的命令

    rm /etc/pve/corosync.conf
    rm -rf /etc/corosync/*
    
  4. 前3步都执行成功后,执行重新启动集群文件系统服务的命令

    killall pmxcfs
    systemctl start pve-cluster.service
    
  5. 删除故障节点node文件

    d /etc/pve/nodes
    m -rf <node_name>
    
  6. 清理集群残留信息

    vecm delnode <node_name>
    
  7. 登录浏览器控制台查看pve状态,并重新启动VM并监控结果

注意:有时候可能需要重启一次才行

参考资料