智客公社

标题: 关于一份重大通信故障报告,发人深省 [打印本页]

作者: 岁月如歌    时间: 2022-12-26 22:53
标题: 关于一份重大通信故障报告,发人深省

搞通信的伙伴们都知道,核心路由器位于络核心位置,是整个络的“交通枢纽”,不仅性能强悍、价格昂贵,且需时时刻刻保持稳定运行,否则,一旦出现问题,动辄可能影响全数百万甚至数千万用户。?当地时间7月2日凌晨1点35分开始,日本运营商KDDI的移动络发生大规模通信故障,导致全日本范围内法拨打、法收发短信、数据通信变慢。域名IP查询的具体问题可以到我们网站了解一下,也有业内领域专业的客服为您解答问题,为成功合作打下一个良好的开端!https://www.ip133.com/




此次事故影响范围大,持续时间长,影响用户数量达3915万,故障一直持续到7月4日下午才基本完全恢复,给日本全社会造成了极大的不便和损失,也是KDDI有史以来遭遇的比较大一次络系统故障。



故障发生后,KDDI高层及时召开新闻发布会,向广大深受影响的个人和企业用户鞠躬致歉,并表示考虑赔偿损失。



那究竟是什么原因造成了此次大规模通信故障看完KDDI的报告后,发人深省。





故障原因一:核心路由器割接失败



7月2日凌晨,KDDI组织工程师对连接全国移动核心和中继络的一个核心路由器进行割接,将老旧的核心路由器更换为新产品。



不幸的是,通信人比较担心的噩梦发生了——割接失败了。在更换核心路由器的过程中,新的核心路由器出现了不明原因的故障。





搞通信的伙伴们都知道,核心路由器位于络核心位置,是整个络的“交通枢纽”,不仅性能强悍、价格昂贵,且需时时刻刻保持稳定运行,否则,一旦出现问题,动辄可能影响全数百万甚至数千万用户。



正因如此,核心路由器割接好比为活人换“心脏”,是一项极具挑战的工作,也对要更换的新产品的成熟性、稳定性、互联互通性等能力要求极高。



但KDDI偏偏在这项要求极其谨慎的工作上掉了链子,接下来的后果当然就相当严重了——



由于新核心路由器法将语音流量正确路由到VLTE交换节点,直接导致部分VLTE语音业务中断15分钟。





故障原因二:信令风暴击溃VLTE络



核心路由器割接失败,这场景简直不敢想象,隔着屏幕都能吓出冷汗!



怎么办赶紧回退呗。KDDI的工程师们速启动了回退操作,于7月2日凌晨1点50分将连接重新切换回旧的核心路由器。



但更大的问题发生了。





回退后,“由于VLTE终端每50分钟进行一次位置注册”,大量终端向VLTE交换节点发起位置注册信令,以重新连接至络。海量信令集中突发,很引发VLTE交换节点拥塞,致使大量用户法进行VLTE通信。



同时,移动络中有一个“用户数据库”,负责存储用户的签约数据和位置信息,由于VLTE交换节点拥塞,“注册在用户数据库的位置信息法反映在VLTE交换机上”,出现数据不匹配问题,也导致很多用户法通信和拨打。



针对此情况,KDDI于7月2日凌晨3:00后开始从线侧、VLTE核心侧同时施流量控制策略,以及通过断开PGW的方式减轻用户数据库负荷,以缓解络拥塞,并在PGW采用“会话重置”措施解决用户数据库中的数据不一致问题。







因为施流量控制,接下来导致了全国范围内的数据通信和语音通话难以连接。



接下来,KDDI开始紧张的络恢复工作。7月3日上午11点,KDDI宣布日本西部基本完成络修复工作。下午5点30分,日本东部基本完成。但仍然有一些用户难以进行数据通信和语音通话。





直到7月4日下午4点,距离故障发生62个小时后,KDDI表示已在全国范围内基本恢复。





发人深省



类似的重大络故障在日本并不是头一次。



2022年10月14日,日本另一家运营商NTTDCM的移动络也发生过全国性的重大通信事故,导致大量手机用户法进行通话和数据通信。



此次事故同样因为割接失败后回退操作,引发信令流量大爆发,导致络大拥塞。



具体情况是,NTTDCM在替换用于存储物联终端设备的用户和位置信息的络设备时出现了问题,然后立即启动回退操作,重新倒回到旧设备。



但这一回退操作,引发了大量物联终端向旧设备重新发起位置注册信息,汹涌而来的“信令风暴”速引发了络拥塞,并波及3G4G5G络的语音和数据分组核心设备,导致大量用户法通话和数据通信。



与NTTDCM不同的是,KDDI此次是因为核心路由器割接失败引起,而且故障持续时间要长很多。



但值得一提的是,KDDI似乎并非没有吸取DCM的教训。



KDDI在全日本范围内拥有6个交换中心,共18个VLTE交换节点,且交换中心内的VLTE交换节点是相互冗余备份的。而本次因核心路由器割接导致VLTE业务中断的只是其中一个交换中心的VLTE交换节点。



“我们做过压力测试,因为有冗余备份,即使一个交换中心范围内的所有终端同时发起重新连接请求,也不会发生拥塞。”



KDDI表示,“但不知道什么原因,结果还是发生了拥塞,我们还没有完全搞清楚到底是哪里出了问题。”



但愿KDDI比较终能彻底找出此次事故的所有原因。也希望通信业再也不要重蹈覆辙。因为,重大络故障,这六个大字,对于通信业而言,在太可怕了。?




欢迎光临 智客公社 (http://bbs.cnaiplus.com/) Powered by Discuz! X3.4