Proxmox VE 集群节点删除问题排查步骤
这是一期记录PVE节点退出集群的步骤
我的E3拆机下线了问题描述
在删除PVE集群中的一个节点后,仍然能看到该节点,并出现以下错误:
hostname lookup 'E3' failed - failed to get address info for: E3: Name or service not known (500)
这里的 E3
是我之前 PVE 集群中的一个节点名称。
解决步骤
1. 检查 /etc/pve/corosync.conf
配置文件
确保文件中没有 E3
节点的相关配置条目。如果有,删除这些配置条目。
nano /etc/pve/corosync.conf
2. 检查 /etc/pve/nodes
目录
确认 AMD5600
和 pve
节点存在且没有 E3
节点。确保没有隐藏文件或目录:
ls -a /etc/pve/nodes
3. 检查集群的 /etc/hosts
文件
确保 /etc/hosts
文件中没有 E3
相关条目。
nano /etc/hosts
4. 检查 corosync
状态和配置
确保没有 E3
节点的残留信息。
corosync-cfgtool -s
corosync-quorumtool
5. 检查 rrdcached
的数据库
确保 /var/lib/rrdcached/db/pve2-node
和 /var/lib/rrdcached/db/pve2-storage
目录下没有与 E3
节点相关的任何文件。
ls /var/lib/rrdcached/db/pve2-node
ls /var/lib/rrdcached/db/pve2-storage
6. 重新启动相关服务
在完成上述清理后,重新启动相关服务:
systemctl restart corosync
systemctl restart pve-cluster
7. 再次检查集群状态
确认节点删除成功,集群状态正常:
pvecm status
pvecm nodes
8. 检查系统日志
如果问题仍然存在,请检查系统日志以获取更多详细信息:
journalctl -xe
9.完成
已经成功完成对于E3节点的移除示例
以下是一个具体操作示例:
ssh root@192.168.1.100
nano /etc/pve/corosync.conf
ls -a /etc/pve/nodes
nano /etc/hosts
corosync-cfgtool -s
corosync-quorumtool
ls /var/lib/rrdcached/db/pve2-node
ls /var/lib/rrdcached/db/pve2-storage
systemctl restart corosync
systemctl restart pve-cluster
pvecm status
pvecm nodes
journalctl -xe
通过上述步骤,可以有效排查并解决 hostname lookup 'E3' failed
错误。
作者声明本文无利益相关,欢迎值友理性交流,和谐讨论~