自己亲手引发运维事故是一种什么样的体验?

2周前 (02-05) 0 点赞 0 收藏 0 评论 1 已阅读

某运营商的监控专员,某天的凌晨接集团通知上海贝尔设备某个100G的通道出现误码,业务已中断,查看对接为设备为诺基亚西门子的设备(简称诺西)出现LOL告警(业务模式不匹配

迅速电话指挥机房值守人员将两端设备client端口进行环回,查看贝尔设备单波无误码,LOL告警消除。环回10分钟后从网管上查看两家单板无问题,还原之后故障依旧。电话指挥人员对设备连接的局内尾纤进行逐段环回排查。让人难绷的是逐段环回都是正常的。

诺西厂家是有备件的,更换后告警没消除。

然后贝尔厂家找别的省核实了有个100G的通道没有流量,然后就把这个当作空余单板挪走了,拆东墙补西墙。

结果没过多久收到通知,是有业务的,妈的,拖到白天,他们厂家的办事处开门,立马就拿到了备件送到机房,换上去了。然后当天晚上又有单板出问题。

厂家拿过来的单板client口没有模块,无奈把原来换下来的有问题的单板模块拆下来,换上去,还是不行。厂家又跑回办事处去取模块换上去了。

1个100G的通道断了很长时间,不知道要赔多少钱。不过还好不是什么腾讯、阿里巴巴、字节跳动的业务,这些都是集团的大客户。

这件事后我作为甲方的人,被口头警告,以后挪用单板,一定要确认清楚。

厂家的人被扣绩效。然后过了一段时间厂家那个项目把他开除了…

跨省骨干网系统有的能承载 96个100G或者80个100G,运营商根本就不会拿多余的通道出来给每个业务都做保护,但是捏一般系统很少出现满配的情况,即使满配,也会留下冗余通道在紧急情况下使用。

运营商省内跨市的骨干网已经在逐步开通120个200G的系统。现在还没有企业用上


本文收录在
0评论

登录

忘记密码 ?

切换登录

注册