华为AR路由定时断网,原因是alg配置问题引发超负载。
老样子,为免啰嗦,先说结论和解决方案(注意,解决方案不一定适合所有人)
原因和解决方案
原因是公司的在用的华为AR路由的,cpu超负载(80-90%)。导致不能正常工作,进而使dns不能解析才打不开网站。 关掉alg里面的ftp和dns服务之后,近几天没再发生断网问题,cpu占用也很低。 参考资料:https://support.huawei.com/enterprise/zh/knowledge/EKB1001919859
问题排查简述
- 这个问题最早发生于7月份的时候,表现为网站打不开,钉钉QQ等软件能正常使用。于是最早怀疑的是dns问题,但是手动设置dns也无果。等过了9-10点网络又开始正常正常了。
- 而后过了几天后,又连续几天出现同样的问题。于是一翻排查,看到路由的cpu占用过高,认为是设备性能低,不足于处理dhcp和dns的问题。于是公司采购了一台核心交换机,将网关下沉到这台设备上。
- 安稳了一周之后,本以为万事大吉之的时候,问题又出现了,这次又怀疑是运营那边的问题,经过联系运营技术之后,对方表示,我们的网络状态是正常的,而dns服务器也是正常的,并没有其他人出现相同的问题。(基本排除了dns的问题,是其他原因引起的问题)
- 这之后到8月份,期间,依然好几次发生同样的问题,并且时间点也都是在9点左右开始。期间,疯狂的查资料,怀疑过内网电脑中毒,dos攻击,arp欺骗等等可能性,都是徒劳无功,或者说是找不到足够的证据支持。
- 终于在前两天,在华为的案例库里面找到类似的案例,并用案例提供的方法解决了问题。