ESXi主机集成故障诊断与解决方案
事件概述
因客户业务组织架构调整,运维职责由传统网络维护转向虚拟化平台管理。部门现有三台ESXi主机(IP:10.70.*.*),需集成至vCenter Server Appliance(VCSA)进行统一管理。
现有VCSA实例(10.69.*.*)无法添加目标主机,任务执行至80%进度停滞,最终报错:"无法访问指定的主机(X.X.X.X)。此主机在网络上不可用、网络配置有问题或主机上的管理服务无响应"。
核心问题: 现有vCenter Server Appliance无法将三台ESXi主机纳入管理集群,需进行根本原因分析及故障排除。
故障诊断过程
1. 网络连通性验证
初始诊断表明网络层存在异常:
· 本地至ESXi主机ICMP测试成功
· VCSA至ESXi主机ICMP测试成功
· ESXi主机至VCSA ICMP测试失败(单向通信中断)
通过traceroute诊断工具分析:
· 源端至目标路径包含三层网络设备
· ESXi端traceroute在第二跳终止
网络拓扑分析
VCSA (10.69.*.*)
核心交换机
TAC系统
防火墙
ESXi主机 (10.70.*.*)
经网络团队确认:
· OSPF动态路由协议运行正常
· 安全策略未限制相关网段通信
· 华为ENSP模拟环境验证路由配置正确
2. TAC准入系统排查
发现网络路径中存在TAC(终端准入控制系统):
· 将ESXi主机IP加入TAC例外策略
· 双向ICMP测试恢复成功
· 主机添加任务仍失败(相同错误)
3. vpxuser凭证分析
任务日志显示认证异常:
· VCSA添加主机时需创建vpxuser系统账户
· ESXI主机已存在遗留vpxuser账户(历史管理记录)
· 通过/etc/passwd及/etc/shadow手动清除账户
· 账户重建成功但主机添加仍失败
4. vCenter高级配置检查
对比新旧VCSA实例:
· 新建VCSA可成功添加主机C(ESXI-A/B失败)
· ESXI-A/B重启后成功加入新VCSA
· 检查vpxd.certmgmt.mode参数配置(vmca/thumbprint)
· 通过PostgreSQL数据库修改参数值
· 参数调整未解决故障
5. 网络报文分析
使用tcpdump进行双向抓包:
· VCSA与ESXI主机执行:tcpdump host X.X.X.X -w test.cap
· 对比新旧VCSA添加主机过程
· 故障实例存在TCP重传(目标端口902)
· 正常通信应获得TCP ACK响应
关键发现: 防火墙策略阻断TCP 902端口通信,该端口用于vCenter与ESXi主机间的心跳检测与管理通信。
解决方案实施
1
网络策略调整
防火墙添加ESXi主机TCP 902端口放行策略
已实施
2
准入系统配置
TAC系统添加ESXi主机IP例外规则
已实施
3
凭证管理
清除ESXi遗留vpxuser账户
已实施
4
服务验证
成功添加所有ESXi主机至VCSA管理平台
已验证
技术要点总结
· vCenter添加ESXi主机需双向网络可达(ICMP+TCP 902)
· TAC系统可能拦截管理流量需配置例外规则
· vpxuser账户冲突可通过ESXi系统文件手动清除
· tcpdump是诊断虚拟化管理通信的有效工具
· 完整网络拓扑文档对故障排除至关重要
经验总结
知识收获
深化理解OSPF动态路由协议实现原理
掌握Linux系统账户管理机制(/etc/passwd, /etc/shadow)
熟悉vCenter-ESXi管理通信协议及端口要求
实践PostgreSQL数据库配置管理操作
精通tcpdump网络诊断工具高级应用
流程优化
建立虚拟化环境网络拓扑文档标准
制定防火墙策略变更审核流程
创建主机集成前预检清单
最佳实践
变更前获取完整网络架构信息
采用分层隔离法进行故障诊断
维护标准化的系统配置基线
故障环节 | 根本原因 | 解决措施 | 预防方案 |
网络通信 | 防火墙阻断TCP 902端口 | 添加端口放行策略 | 维护网络设备策略文档 |
准入控制 | TAC系统拦截管理流量 | 配置IP例外规则 | 建立设备白名单机制 |
凭证管理 | vpxuser账户冲突 | 清除遗留系统账户 | 主机退出时执行标准化清理 |
配置管理 | vCenter高级参数不一致 | 参数标准化配置 | 建立配置审计流程 |