北方的春天,漫天的黄尘吹的人心乱。开学刚一个月,同事们刚从新年的氛围中走出,学校的故障报修电话一个接一个的就打进来了。初步诊断这些学校都是大学路机房S6506R交换机下连的学校。
现场排查
首先从我们中心机房测试与大学路机房的连通情况,ping不通。于是中心机房留守一人,去大学路机房一人。来到大学路机房一看,交换机光纤模块工作指示正常,与对端进行插拨测试,说明光纤链路没有问题。接上配置线仔细查看,交换机配置正常,然后查看路由情况(display ip routing-table),显示没有任何路由。
查到这里,初步确定为光模块问题。通知同事带一备用光模块替换测试。测试结果并不如人所愿,故障依旧。于是求助厂家技术支持。
查完现场,听后我们的处理过程,华三工程师初步诊断,怀疑光纤链路损耗大导致无法传输数据。于是又用光纤测线仪测试光纤损耗情况,测试结果是-6DB,应该在正常的损耗范围,而且这两个机房也不是很远(大概两公里)。所有的怀疑都排除了,故障依旧,最后陷入无奈,华三工程师请求研发人员,要求对交换机进行抓包分析。抓完包后,时至中午,我们这边关机出去吃饭,那边研发人员给分析抓包数据。一个小时后,当我们返回机房,重新开机,交换机正常了!众人一头雾水,满脸欣喜。
追因溯果
将整个事件过程告诉研发人员,他仔细分析抓包数据,设备主板温度虽没达到报警阀值,但也高达72度,最后得出结论是设备主板温度太高导致主引擎板工作进入自保护状态,不能进行数据转发。
查看现场,机房温度也不高,室外环境甚至还有些发冷,设备怎么会过热呢?原来该机房空间太小,当时不能安装华为交换机柜,所以临时裸机安放在室内一角。尽管每年华三也进行设备巡检,对设备进行除尘,但时隔不到四个月,交换机上面可见一层厚厚的黄尘。想想最近一个月来的沙尘暴,大家不禁相对一笑,赶紧除尘!拆下交换机内部的防尘网,网面上已布满灰尘,哪还有空气可以对流?设备除尘后,再运行display environment查看设备情况,温度已降到42度,运行几天,设备也一直正常。
经验总结
经过此次故障解决,有以下几点感想与大家分享:
1、重视机房环境。机房环境是设备正常运行的基本保障,安装设备初期要考虑机房温度、湿度,还有防火、防盗。建设好后要注意保持机房卫生。
2、定期设备除尘。不管是网络设备还是服务器、终端,要注意定期进行开壳除尘,北方地区干燥,最少半年除一次。特殊情况如沙尘暴频发时,可及时清除。
3、无法确诊故障可以先断电重启尝试。所有正常原因排除之外考虑先对设备进行断电重启,很多时候一些莫名故障可得到排除。但排除后一定要查找原因。

文章如转载,请注明转载自:http://www.5iadmin.com/post/605.html