vlambda博客
学习文章列表

基于二叉树算法的5G承载网故障定位方法及实践

点击上方“蓝字”,关注我们










基于二叉树算法的5G承载网故障定位方法及实践
原文刊发于《移动通信》2020年第10期



基于二叉树算法的5G承载网故障定位方法及实践

文帅川,周波,秦海燕

(中国电信股份有限公司湖北传输局,湖北 武汉 430000)


【摘  要】2019年运营商提出移动及光网业务的“双提升”专项行动要求,围绕高质量发展主线,贯彻落实“事先化、主动化、自动化”工作要求,持续提升移动网质量和端到端运营能力。采用机器学习中二叉决策树的方法,根据5G承载网的层级关系,自动建立链路、收集告警,梳理告警关系建立决策树模型,按不同的告警设计了对应的推理树,并以此开发推理机,最终实现对故障的快速诊断定位与归并,并在湖北现场予以了正式使用,应用效果良好。

【关键词】机器学习;二叉决策树;承载网;故障诊断


doi:10.3969/j.issn.1006-1010.2020.10.005        

中图分类号:TN913.23        文献标志码:A        

文章编号:1006-1010(2020)10-0025-09

引用格式:文帅川,周波,秦海燕. 基于二叉树算法的5G承载网故障定位方法及实践[J]. 移动通信, 2020,44(10): 25-33.




基于二叉树算法的5G承载网故障定位方法及实践



0   引言



虽然IPRAN网络通过环状组网、100%成环的方式,可以避免单点故障对网络业务的影响,但从网络维护部门的角度来看,当出现单点故障导致不成环时会造成网络风险急剧加大,同时环路变为单路也会导致网络带宽利用率激增,加大网络拥塞概率,因此当承载网络出现告警时需要尽快定位出故障点并予以解决。目前IPRAN承载大量的LTE基站业务,但缺乏端到端质量监控、评估及诊断手段,维护成本高[4]


由于IPRAN网络的环状组网,以及网络分层规划的特点(从上到下分为核心、汇聚、接入多级环网),因此当出现一个故障点时,往往会伴随多个网元、多种类型的衍生性告警。例如,链路故障Link Down、设备故障Node Down是最常见的,而由于关键设备的Node Down告警造成周边其它设备产生很多衍生性告警,大量的告警又导致后端维护人员需要花费一定的时间周期予以分析确认后才能精准定位出最核心的故障点,从而影响到告警修复的及时性。


5G是面向移动互联网以及物联网的,各大运营商从业务需求及体验感出发,在异构网络中向用户提供更好的体验和感知,融合多层次覆盖、多接入技术、多业务系统等5G重要特征[5]。随着5G网络在国内三大运营商的落地试用,以及中国5G网络技术、建设、运营整体领先于全球,国内运营商已经开始对其客户服务支撑层面的相关系统进行智能化改造,如5G承载网络的故障精准定位,也需要引入AI(Artificial Intelligence,人工智能)的方法。


为此,我们通过现网海量告警数据的积累分析,梳理了现场各类告警的修复案例并建立知识库,通过机器学习中的二叉决策树方法来设计故障推理树和推理机,最终建立起故障精准定位的算法模型,并开发相应的诊断功能予以实现。


1   机器学习:二叉决策树方法简介


5G承载网络故障智能诊断能力要求做到,当系统自动采集到5G承载网络告警后,可以在30 s内完成智能的问题诊断,不管是2G业务、3G业务、4G业务、5G业务,都可以给出提示性的诊断结论和解决建议。


故障智能诊断能力是基于AI技术中的一个分支——BDT(Binary Decision Tree,二叉决策树)技术来实现的。


人工智能是一个很庞大的体系,包括有很多种方法,如分类(包括决策树、贝叶斯模型Bayesian Mode等)、回归(包括线性回归Linear Regression、最小二乘法OrdinaryLeast Square等)、聚类(包括K-Means聚类、期望最大化算法Expectation Maximization等)、降维(包括主成份分析PrincipleComponent Analysis等)、人工神经网络(包括感知器神经网络PerceptronNeural Network)和深度学习(包括受限波尔兹曼机RestrictedBoltzmann Machine、卷积网络Convolutional Network等)。


决策树与人工智能的关系是:人工智能->机器学习->监督学习->决策树。


而在进行5G承载网络故障精准定位时,有很多的历史故障处理案例可以参考,并且决策树具备易于理解和实现、可通过专家知识库模型进行构建、可通过静态测试来对模型进行评测等优点,因此,引入二叉决策树方法来设计推理机,从而实现故障精准定位。


决策树是一种树形结构,其中每个内部节点表示一个属性上的测试,每个分支代表一个测试输出,每个叶节点代表一种类别。决策树是一种监管学习,所谓监管学习就是给定一堆样本,每个样本都有一组属性和一个类别,这些类别是事先确定的,那么通过学习得到一个分类器,这个分类器能够对新出现的对象给出正确的分类。这样的机器学习就被称之为监督学习。


引入决策树进行故障定位时,可以根本历史样本、通过故障处理案例和专家意见,确定出样本的一组属性和一个类别,从而得到一个推理树(二叉决策树),对于新出现的告警样本就可以通过推理机的实现、依据这个二叉决策树实现正确的分类。


2   基于二叉决策树的5G承载网故障精准定位方法详述


基于二叉树算法的5G承载网故障定位方法及实践


图1是基于二叉决策树的5G承载网故障精准定位方法,详细说明如下:

网络结构:最下方为5G网络示意图,5G网络分为无线网、承载网、核心网三部分。根据站点覆盖模拟推算,未来5G网络宏基站、室内和微站加起来的接入点部署密度将达到现有部署密度的10倍以上[6]。由于承载网的层级最多、结构最复杂,采用全环网方式组网,因此承载网的故障精准定位的要求最高。


网络控制及数据采集:该模块是系统的采集服务,通过SNMP、Netconf、SSH等接口方式,从网络侧轮询采集相关的资源、告警、性能数据,也可以通过原子能力方式实时去网络设备上采集当前时刻的数据。


网络能力与数据交互模块:该模型是系统的数据库服务,将统一存储与故障精准定位相关的资源、告警、性能阈值告警、性能KPI、拓扑关系等数据。


故障精准定位方法:目前的方法步骤包括“网络自动建链→告警自动收集→告警归一化→梳理告警关系,建立推理树→设计推理机→自动告警归并”,下文中予以详细说明。


2.1  网络自动建链

5G承载网络层级,从高到低分为以下几类设备:5GC CE-省级ER-城域ER-B设备-A设备。其中,5GC CE与5G核心网相连,而A设备则下挂5G基站设备。现有IPRAN对接入光缆网的消耗非常大,所以主要采用无源DWDM技术。无源DWDM主要是将原有波分系统中的波长转换模块安装在DU-AAU的对端,而波分系统中仅保留的D/W合分波板完成WDM功能[7]。由于承载网设备是环状组网,并且设备数量众多(一般一个省的设备数量在3万台以上),因此需要采用自动的拓扑发现和关系识别方法。我们采用LLDP算法来实现。


LLDP(Link Layer Discovery Protocol,链路层发现协议)是一个厂商无关的二层协议,它允许网络设备在本地子网中通告自己的设备标识和性能。因此,在IPRAN网络结构中,基于LLDP协议的方法,可以准确、实时、自动地得到网络设备的资源拓扑结构树。


基于二叉树算法的5G承载网故障定位方法及实践

LLDP数据分析方法如图2所示。

每台设备上采集到的LLDP信息包括:本端主机名、本端设备MAC、本端设备IP、本端端口、邻居主机名、邻居设备MAC、邻居设备IP、邻居端口。如图3所示,多台设备的这些数据结合在一起,通过本端与邻居端信息之间的匹配连接,可以得到全网各设备之间的链路连接关系,通过这种对应关系,可以自动生成实时拓扑资源树。


基于二叉树算法的5G承载网故障定位方法及实践


2.2  告警自动收集

网管系统采集网元告警的方法有多种,包括:

SNMP Trap:由网元实时上报,因此告警及时性高,一般在5 s内完成告警的收集和处理。

SNMP Get:由网管系统定时轮询设备状态,因此告警时延取决于轮询周期的设置,考虑到SNMP Get操作太频繁会对网元设备的负荷造成影响,因此轮询周期一般设置为5分钟。

阈值告警:由性能指标超过一定阈值后产生的告警,如CPU利用率告警、光功率异常告警等,由于需要对性能指标进行一定时间的观察,因此告警延时一般在5分钟左右。

隐性测量告警:前面三类告警一般都可以及时采集到,还有一些网元问题是需要通过测量来实现隐性告警采集的,如网络的端到端Ping测、基于RFC2544的性能测量、Y.1731测量等。


系统会根据上述方法,采集IPRAN网络的大量告警数据和其它数据,包括:

◆设备、板卡、端口的资源数据;

◆网络链路关系;

◆设备告警,如设备掉电、单板异常、温度异常等;

◆链路告警,如收发光功率、CRC误码、R_LOS、流量突降等;

◆协议告警,如OSPF状态、LDP状态、ISIS邻居状态、BGP状态等;

◆其它告警,如光模块异常、接口环回等。

系统的采集服务获取到上述告警数据后,入库进行统一的告警归一化。


2.3  告警归一化

网管系统将按照统一的告警模型,对采集到的告警数据进行归一化,归一化的告警格式表如表1所示。告警归一化后,将便于系统提取关键特征并设计推理树(即二叉决策树)。

基于二叉树算法的5G承载网故障定位方法及实践


2.4  梳理告警关系,建立推理树(二叉决策树)

(1)5G承载网告警信息特点

5G承载网络的分层结构特点,决定了其产生的告警信息有以下特点:

1)告警信息分层次

告警信息从大到小,可以分为以下几个层次:

①第一层是设备在网络中的角色层级,如核心设备ER、汇聚设备B、接入设备A等;

②第二层是设备级别,如设备Node Down等;

③第三层是板卡级别,如设备主控板CPU利用率等;

④第四层是端口级别,如端口链路状态DOWN等。


2)每一层次告警都可以分为原生告警和衍生告警

原生告警是指由该层次设备的故障产生的告警,而衍生告警是指由本设备或其它设备的原生告警引起的告警。如设备甲的断电引起的Node Down告警即为原生告警,而与该设备甲直接相连的对端设备乙的端口链路状态DOWN即为衍生告警,当设备甲的断电故障修复后,设备乙的端口告警就会直接恢复。


针对5G承载网的告警特点,我们梳理了需要推理树建模的所有告警,如表2所示:


基于二叉树算法的5G承载网故障定位方法及实践


(2)推理树(二叉决策树)构建原则

本文采用二叉决策树来设计故障精准定位的推理树,主要的构建原则是:

1)告警重要性从最高层往最低层报,上层设备告警优先于下层设备告警,设备告警优先于板卡告警,板卡告警优先于端口告警;

2)原生告警重要性优先于衍生告警;

3)越能明确定位的告警,就越先判定;

4)物理告警重要性优先于逻辑告警。


(3)推理树(二叉决策树)建模示例及说明

机器学习中,决策树是一个预测模型,他代表的是对象属性与对象值之间的一种映射关系。树中每个节点表示某个对象,而每个分叉路径则代表的某个可能的属性值,而每个叶结点则对应从根节点到该叶节点所经历的路径所表示的对象的值。数据挖掘中决策树是一种经常要用到的技术,可以用于分析数据,同样也可以用来作预测。


从数据产生决策树的机器学习技术叫做决策树学习,通俗说就是决策树。一个决策树包含三种类型的节点:

1)决策节点:通常用矩形框来表示;

2)机会节点:通常用圆圈来表示;

3)终结点:通常用三角形来表示。

在本文,考虑到5G承载网的告警决策节点、机会节点、终结点的文字内容比较多,因此分别用椭圆框、菱形框、矩形框来表示决策节点、机会节点、终结点。


以5G承载网络中最常见的一种告警“NODE DOWN”为例,图4为A设备“NODE DOWN”告警对应的二叉决策树。


如顶层的入参为“A设备NodeDown告警”时,推理树会对“设备所属的接入环是否整体成环?”的机会节点进行判定,当结论为“是”与“否”时,分别进入2条不同的支叉,并进入下一级的机会节点判定;以此类推,最终通过多级的循环判定,得到对应的结论(如图4中矩形框)。


基于二叉树算法的5G承载网故障定位方法及实践


5G承载网所有需诊断定位的告警(如表2梳理后的5G承载网告警清单示例),都有类似图4这样的二叉决策树作为其故障诊断的推理树,整个监督学习的过程就是基于二叉决策树的模型展开的。


2.5  设计推理机、自动告警归并、代码开发实现

一般推理过程有三种实现方式:

(1)半人工方式:给出特征→推理机→结论→验证→发出结果;

(2)简单机器学习方式:自主收集特征→推理机→结论→验证→发出结果;

(3)智能机器学习方式:数据→根据特征设计的推理机→结论→验证→发出结果。


考虑到5G承载网的告警在进行推理树设计时,需要参考专家经验,以及人工排障处理后的历史案例,因此前期建立的推理树模型都是以方式1“半人工方式”给出的。而当模型建立并上线后,可以通过诊断并派发工单的回单信息,从而来对半人工方式的推理树进行数据积累,从而做到方式2“简单机器学习方式”,主要是对已有模型数据进行验证核对,并可进行自主的特征收集。


因此,我们的推理机设计时,将按照每类告警的二叉决策树模型(该模型在系统的数据库中进行建模与定义),编定对应的原子能力类微服务来实现推理过程。这种原子能力是可以复用的,如上图的二叉决策树中,出现了三次“设备存在掉电告警?”的机会节点,并对应有各自的终结点,像这种决策树中的一个二叉树,就对应于一个原子能力,从而可以实现原子能力复用和原子能力编排。


基于二叉决策树设计的推理机,可以实现5G承载网络告警的自动根因定位,从而把下层设备的告警、衍生告警归并到上层设备、原生告警中去,达到两个核心目标:

(1)将故障所产生的所有告警信息整合为一条信息,减少告警量;

(2)智能定位出故障点,减少工程师排查问题的时间,并引入自动化处理。

按照上述模型算法、二叉决策树,我们开发了相应的功能代码,实现这些数据的清洗、算法逻辑、诊断流程、原子能力前置、页面呈现,并把这些已经总结出来的经验固化下来,用于更好地指导运营商的5G承载网络运维工作。


3   现网故障实例


以湖北电信2020年发生一起基站断站群障事件为例,通过推理机的二叉决策树实现群障故障根因定位,并在后续网络优化工作中消除了该接入环存在的安全隐患。


3.1  故障现象及影响范围


基于二叉树算法的5G承载网故障定位方法及实践


3.2  推理机精准分析

在确认脱网网元信息后,将脱网网元信息带入到推理机中,通过推理树分析实现故障精准定位的推演计算,如图6所示(红色虚线即为这次诊断的二叉决策树路径)。


基于二叉树算法的5G承载网故障定位方法及实践


故障定位过程如下:

(1)4台脱网A设备为环形组网,满足整体成环条件;

(2)接入环归属的主备B设备均未出现脱网;

(3)环上A设备脱网数量大于1(涉及4台设备);

(4)接入环中未离线设备类型不为A1;

(5)接入环中设备主控板未出现离线告警;

(6)接入环中设备电源板未出现离线告警;

(7)B设备下行口所属的单板未出现离线告警;

(8)B设备下行口光模块未出现异常告警;

(9)B设备下行口光模块发送光功率未出现异常告警;

(10)B设备下行口OSPF邻居状态告警时间差小于10 s。


通过推理树的分析,初步定位出此次群障故障为线路故障(疑似同路由)或接入环中的网元所属机房电源故障,但通过设备的机房属性分析出4台网元不属于同一机房,因此此次群障根因为线路故障(疑似同路由)。光缆资源作为光传送网最基础的资源之一,其安全性直接关系到整个网络的安全[8]


3.3  故障准确性分析

在推理机精准分析第10步中,网管通过解析设备产生的OSPF邻居状态改变的SNMP Trap告警,得出主B与备B产生的时间分别为2020-01-06 00:12:49(图7)、2020-01-06 00:12:48(图8),产生相差1 s,并由此最终分析出本次故障为接入环存在同路由风险。


基于二叉树算法的5G承载网故障定位方法及实践


主B设备原始OSPF告警信息如图9所示。

备B设备原始OSPF告警信息如图10所示。


基于二叉树算法的5G承载网故障定位方法及实践


除针对常见问题、典型问题取样分析外,还根据以上的模型和算法对现网数据进行全面分析,对现网的故障和隐患问题诊断定位,从2019年9月至今诊断出接入环整体脱网、部分脱网等严重故障十余次,A设备脱网、光模块故障、链路故障等一般故障上百次,准确率达90%以上。


3.4  后续网优工作

在推理机得出该接入环为疑似同路由接入后,一线工作人员在现场核查光纤线路的连接,发现该接入环确实存在同路由安全隐患。


同路由安全隐患是指:环状组网的接入环是为了避免单点故障,当某台设备或链路故障时不影响业务运行,但如果设备上联的2条光路为同路由光路,即同属于一条光缆时,如果该条光缆故障就会直接导致业务中断。


为此,在此之后针对该接入环上的4台A设备进行网络割接,确保A设备上联的2条光纤是分属于不同光缆的,从而提高了网络的稳定性及业务可用性。


从这个现网故障实例可以看到,基于二叉决策树算法,可以自动、精准地把5G承载网的故障进行智能归并、诊断定位,通过运营商的电子运维派单系统快速派工单给一线处理人员,从而极大地提高网络运维的智能化程度,提升故障处理效率,确保5G网络的整体质量和用户体验。


4   结束语


根据以上的模型和算法自动进行告警采集、告警诊断定位,可以精准快速地诊断出承载网的故障和隐患问题,然后通过短信、邮件等方式通知相关人员,这将有利于5G承载网业务的大力拓展,也符合运营商“能远程不现场、能自动不人工”的集约化工作思路。但同时也存在一定的不足,由于现在数据取样有限,针对模型和算法的准确性校验可能没办法全面覆盖到所有的业务场景和问题,会存在一些,例如上行疑似同路由、离线设备所属机房同时掉电、光衰恶化等实际维护中容易被忽视或者发生概率较小的问题,以及部分问题的故障原因只能是疑似、部分诊断条件的阈值取值是否真的合理等当前模型存在不完善的地方。因此下阶段的工作重点是进一步校验和完善目前的模型和算法,以大量的数据来验证,进一步提升准确性和完善程度。







★原文发表于《移动通信》2020年第10期★

doi:10.3969/j.issn.1006-1010.2020.10.005        

中图分类号:TN913.23       文献标志码:A       

文章编号:1006-1010(2020)10-0025-09

引用格式:文帅川,周波,秦海燕. 基于二叉树算法的5G承载网故障定位方法及实践[J]. 移动通信, 2020,44(10): 25-33.



作者简介


文帅川(orcid.org/0000-0002-8079-7317):中级工程师,硕士毕业于南京邮电大学光纤通信专业,现任职于中国电信股份有限公司湖北传输局,主要研究方向为4G/5G承载网关键技术和组网结构。

秦海燕:中级工程师,现任职于中国电信股份有限公司湖北传输局,主要研究方向为4G/5G承载网关键技术和组网结构,拥有丰富的通信线路工程和应用经验。

周波:中级工程师,本科毕业于湖北大学通信专业,现任职于中国电信股份有限公司湖北传输局,主要研究方向为4G/5G承载网关键技术和组网结构,拥有丰富的通信工程设计经验。






《移动通信》投稿方式为在线投稿

请您登录网页投稿系统


基于二叉树算法的5G承载网故障定位方法及实践

扫码关注最新动态

《移动通信》



往期精彩回顾





《移动通信》杂志由中国电子科技集团公司主管,中国电子科技集团公司第七研究所主办,是中国科技核心期刊、中国期刊方阵“双效期刊”、工业和信息化部精品电子期刊、广东省优秀期刊、中国科技论文统计源刊。国内连续出版物号:CN44-1301/TN,国际连续出版物号:ISSN1006-1010,邮发代号:46-181。