分享
异常值检测算法在网络性能劣化识别中的研究与应用 (1).pdf
下载文档

ID:3350176

大小:1.97MB

页数:7页

格式:PDF

时间:2024-03-06

收藏 分享赚钱
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
异常值检测算法在网络性能劣化识别中的研究与应用 1 异常 检测 算法 网络 性能 识别 中的 研究 应用
572023.06无线通信0 引言面对“网、云、数、智、边、端、链”不断深度融合、新的业务形态不断发展对网络运维提出的新挑战,中国移动提出“零等待、零故障、零接触”“自配置、自修复、自优化”的自智网络1。自智网络对故障管理能力提出了更高的要求,而故障识别作为故障管理的起点,是监控排障领域最重要的能力之一。除了设备自身故障告警以外,性能指标也是表征设备、业务受损情况的重要数据,关键性能指标的波动性会导致网络与业务质量潜在的不稳定,甚至会引发用户直接投诉或潜在贬损。因此对性能劣化的准确识别可以及时地发现网络中的异常情况,尤其在无设备原始告警表征的情况下,性能告警是故障识别最为有效的补充手段。1 网络性能劣化识别现状1.1 单指标静态门限识别方法的局限性随着集中监控改革不断深化,中国移动已建立起较为成熟的性能监控体系,已将面向网络的 137 项指标和面向业务的194 项指标进行标准化定义、分级和监测,仅江苏一省,性能劣化的月均派单量已接近 4000 张。然而,当前性能劣化类故障的识别方法仍然是依靠专家经验为单个指标设定静态门限,通过判断该指标是否触及静态门限进行识别,这种方法的局限性在于静态的门限值无法随着网络状态和业务量变化而动态更新,导致性能劣化类故障识别不够精确,例如,2022 年 5月 27 日凌晨,ISBG15 进行应急倒换演练,在 0:30-0:45 时段,其接通率和初始注册成功率相较于同 pool 的其他网元因倒换操作存在轻度劣化,性能指标见表 1。虽然如图 1 所示,XXISBG15 已有明显离群特征,但由于没有达到设定门限,并未触发告警。如果网元处于非工程状态,此类性能劣化故障就极易被忽略。异常值检测算法在网络性能劣化识别中的研究与应用尤 龙 纪应天 李 岩中国移动通信集团江苏有限公司摘要:随着网络规模的不断扩大,业务形态的复杂度不断增加,单点故障极易造成较大业务影响,因此在设备告警之外,运营商必须具备网络性能劣化的提前感知手段,力求先于投诉发现问题,保障客户感知。但目前性能劣化识别主要依赖单指标静态阈值判断,这种方法无法根据网络状态动态调整阈值,导致网络性能劣化识别率不高。针对此问题,本文基于 PyOD 算法库完成多个 AI 异常检测模型的参数调优,对多维指标进行联合检测。较之单指标静态阈值的识别方法,本文提出的异常检测模型对性能劣化更为敏感,即使单个指标未达到告警阈值,仍然能够通过多维指标的细微变化识别异常,有效提升了性能劣化故障识别的准确率。关键词:自智网络;网络性能;异常值检测;PyOD;SUOD表 1 苏北 ISBG 设备性能指标时间段网元名称接通率(%)初始注册成功率(%)2022/5/27 0:45-1:00XXISBG1086.2997.902022/5/27 0:45-1:00XXISBG1186.1198.232022/5/27 0:45-1:00XXISBG1285.3398.01无线通信582023.06时间段网元名称接通率(%)初始注册成功率(%)2022/5/27 0:45-1:00XXISBG1387.1998.092022/5/27 0:45-1:00XXISBG1487.7398.092022/5/27 0:45-1:00XXISBG1584.2794.37二级门限75.0085.00一级门限60.0080.001.2 引入异常值检测算法的必要性异常值检测(又称离群值检测)是一种识别异常情况与挖掘非逻辑数据的技术,可以在“零”阈值的条件下找到与“主要数据分布”不同的异常值。因此,为了解决单指标静态门限检测法存在的问题,有必要通过异常值检测算法构建性能指标异常检测模型,对性能指标进行多维检测,规避因单指标静态门限而产生的漏检和虚警问题,提前发现网络问题,缩短故障发现时长,从而减少业务损失。目前,异常检测算法发展较为成熟,但在网络运维领域中,多用于异常攻击流量的检测,在故障识别中的应用较少,本文将选取若干异常值检测算法,采用现网运行数据进行单算法异常检测模型和联合检测模型的构建。2 异常值检测算法介绍本文研究的算法包括基于角度的异常检测2(Angle-Based Outlier Detection,ABOD)、孤 立 森 林3(Isolation Forest,IForest)、主 成 分 分 析4(Principal Component Analysis,PCA)、K 最 近 邻5(K-Nearest Neighbor,KNN)以 及 基于连接函数的异常检测6(Copula-Based Outlier Detection,COPOD)等五种算法,简介如下。2.1 ABODABOD 是一种基于角度的离群值检测算法,该算法原理如图 2 所示,样本点距离聚类簇中心点越远,与其他样本点形成的向量之间夹角的方差就越小,该样本为异常值的概率也就越大。假设点集 S Rd,|S|=n,点 p S,对任意两点 a,b S/p,apd表示差异向量 a-p 和 b-p 的夹角。夹角 apd的方差定义为离群因子 VOA(p):VOA(p)=Varapd=MOA2(p)-(MOA1(p)2(1)其中,MOA1和 MOA2分别为:(2)(3)ABOD 原型算法计算每个数据点的 VOA,并将 VOA 最小的 m 个点作为离群点输出。2.2 IForestIForest 模型由大量判别树组成,利用群体决策原则进行异常点表决。其算法流程分为两个阶段,第一阶段构建由 N棵树形成的孤立森林,第二阶段计算每个样本的异常得分。(1)构建 IForest针对单个树,首先从样本中随机选择 个样本对象构成该树的样本集,随机选定一个或多个变量维度作为树的分裂基础,在指定变量值中随机产生一个分界点,大于分界点的值划分在当前节点的左分支,小于分界点的值划分在当前节图 1 ISBG15 性能劣化示意图图 2 基于角度的离群点检测原理示意图592023.06无线通信点的右分支。如果各分支中包含的样本中有相同样本或树的分裂次数已达 log2,则终止分裂,否则继续划分,全部节点终止分裂后一棵树构建完成。设置树的数量并重复执行上述步骤最终构建出孤立森林。(2)计算异常得分异常样本数量较少且特征值与正常数据差别很大,因此,异常样本被划分出来需要的次数更少,即离根节点更近。遍历孤立森林中的所有树,计算样本最终在所有树的平均深度,通过进一步变换得到样本的异常得分,得分越接近 1 表示样本为异常点的概率越大。样本的异常分数如公式(4)所示:(4)其中,h(x)为样本的节点深度,E 表示取平均值,c()表示 个样本点构建的二叉树路径长度的平均值。(5)(6)2.3 PCAPCA 将原数据进行线性变化,保留数据中信息含量比较大的成分,去除信息量较低的成分,常用于高维数据降维。首先将样本矩阵 X 去均值化、方差归一化,计算矩阵 X 的协方差矩阵 C。求解的特征值和特征向量,并按照特征值从大到小的顺序,选取前 k 个特征值对应的特征向量构成矩阵 Pk,最后得到降维后的新数据集 Y=PTk。PCA 方法用于异常检测,有根据投影长度判别和根据重构误差判别两种思路。根据投影长度判别时,由于异常样本在残差子空间的投影值的长度很长,当长度大于某个阈值时,即判别为异常数据。对于数据样本 x,它投影在残差子空间的投影向量 xr=x-PkPTkx,长度可计算为|xr|2,根据其与设定阈值比较即可判定该样本是否异常。根据重构误差判别时,由于 PCA 方法提取了数据的主要特征,如果一个样本不能被重构,说明该样本特征与主要数据特征差别较大,即判别为异常样本。假设由Y重构后的矩阵X=(PkYT)T。对于数据样本 xi,该样本异常得分表示为:(7)其中,。若 score 大于某个阈值,则判断为异常数据。2.4 KNN由于异常点在样本空间内与其他样本距离较远,近邻算法依据样本与其 k 个最近邻样本的距离判断自身是否异常。对于样本 xi,计算 xi与其他样本的欧氏距离,取与最近的 k 个样本之间的平均距离作为判别依据,当平均距离大于某一阈值时该样本点被判别为异常点。2.5 COPODCOPOD 是一种基于 copula 函数的无参异常检测方法,其主要思想是通过经验累积分布来得到经验连接函数,进而估算所有维度上联合分布的尾端概率,即评估样本分布在极端位置的可能性。样本的尾端概率越大,异常分数越高。3 异常值检测算法实验3.1 实验方案本文实验采集了 83 个在网 MME 网元不同时段寻呼成功率、切换成功率等 7 个维度性能指标构成数据集,其中包括训练样本 1017399 个,测试样本 2200 个。整体方案如图 3 所示,包括单模型参数寻优和联合算法模型建立两个阶段,并使用准确率、漏检率、虚警率、受试者工作特性曲线(ROC)及曲线下面积(AUC)指标对异常检测模型效果进行评估。单算法模型参数主要通过 PyOD 算法库7进行寻优,PyOD 算法库集成了数十种异常值检测算法,并提供了统一易用的模型训练、算法评估的 API。单算法模型参数调优的主要步骤如下:(1)对训练和测试数据集进行预处理,剔除包含空值的样本;(2)将 训 练 数 据 分 别 输 入 ABOD、IForest、PCA、KNN、COPOD 算法,针对关键参数的不同取值训练对应的模型;(3)将测试数据分别输入上述算法,计算每种算法不同参数下模型的分类准确率,绘制 ROC 曲线并计算 AUC 值;(4)结合(3)中得到的结果选定每种算法的最优参数模型。联合算法模型主要通过大规模无监督异常检测加速系统(Scalable Unsupervised Outlier Detection,SUOD)8建 立,SUOD 从系统、数据、模型三个层面加速训练与预测的过程,解决了在高维大数据上训练多个无监督异常检测模型无法收敛或耗时过长的问题,加速训练的同时不牺牲训练和预测效果,建立步骤如下:(1)选取单算法最优参数模型,针对不同的单算法联合模型训练;(2)将测试数据输入联合模型,得到不同组合模型的分类准确率、漏检率、虚警率及 AUC 等结果。如图 3 所示。3.2 单算法模型无线通信602023.06ABOD 算法计算每个样本与所有其他样本所形成的夹角的方差,根据方差变化识别异常点,本实验中采用ABOD算法,利用个近邻点进行近似,选取 n 为 5、10、20、30 时分别训练模型,得到测试样本的准确率及 ROC 曲线如图 4 所示。从结果可以看出,在该范围内,准确率随近邻点数量的增加而增大,AUC 值也与近邻点数量呈正相关。由于计算每个样本与其他样本的夹角方差时选取的近邻点数量越少,近邻点落在被检测点相似方向的概率越大,因此使用的近邻点数量越多,模型的效果越好。考虑到模型性能与复杂度的平衡,本研究中近邻点个数 n 取 30。图 3 网络性能异常检测研究实验方案示意图图 4 FastABOD 算法不同参数下准确率及 ROC 曲线IForest 算法由多个孤立的二叉树组成,每棵树根据随机选择的属性及样本在该属性的值进行样本切分,实验表明,随机选择的属性数量越少,异常点的识别效果越差。考虑到本研究中样本属性数量适中,因此采用样本的全部 7 个属性构建孤立二叉树。每棵树随机采样一定数量或一定比例的样本进行训练,因此需要集成多个二叉树以覆盖更多的样本,本研究中默认子采样数量为 256 个,集成不同数量的二叉树构建孤立森林,得到测试样本的准确率及 ROC 曲线如图 5 所示。从结果中可以看出,使用 10 个二叉树集成的模型效果最差,说明无论是否考虑采样随机性的情况,10 个二叉树覆盖的样本数量较少,模型不能很好地捕捉到数据特征,模型存在欠拟合;树的数量取 100 时,准确率出现谷值,而 AUC 却没有明显下降,准确率较低可能是随机采样重合率较高或分类阈值选取不合理导致,在不考虑样本均衡和分类阈值选取的情况下得到的综合性结果波动较小,因此AUC值并未明显降低;集成树的数量取20时,模型的分类准确率和AUC值均为最高,说明 20 棵树已经能学习本研究中大部分甚至全量样本的属性值分布。该模型性能并非与树的数量呈正相关,集成树的数图 5 IForest 算法不同参数下准确率及 ROC 曲线612023.06无线通信量越多,造成模型过拟合的可能性越大,反而使测试样本中异常值的识别率越低。因此本研究中使用 20 棵二叉树构建孤立森林模型。PCA 在做特征值分解之后得到的特征向量反映了原始数据方差变化程度的不同方向。当数据投影在低维空间,样本如果在多维度投影长度的平均值超过某一阈值,则被判定为异常样本。本研究中将数据投影到不同维度,得到测试样本的准确率及 ROC 曲线如图 6 所示。从图中可以看出数据投影维度 n 为 27 时,准确率整体随n 的增加而增大,n 为 1 和 5 时分别出现峰值和谷值,但 AUC并没有相同的趋势,说明所选取的阈值不甚合理。综合评估模型性能,发现 n 取 2 时 AUC 值最高,说明在排除阈值选取的影响前提下,将样本投影到两维能够获得最优的模型性能,因此本研究中样本投影维度取 2。图 6 PCA 算法不同参数下准确率及 ROC 曲线使用 KNN 算法进行异常检测,如果某一样本与其距离最近的 n 个样本平均距离大于某一阈值,则被判别为异常样本。本研究中取不同的最近邻样本数量进行实验,得到测试样本的准确率及 ROC 曲线如图 7 所示。从结果中可以看出,在 n 较小时,识别准确率随最近邻样本数的增加而增大,当 n 达到一定数量时准确率则没有较大变化;而观察 ROC 曲线发现,AUC 值则与 n 值呈正相关。结果表明将更多的最近邻点考虑在内时,异常样本的识别率更高,同时计算量也会大大增加;综合考虑模型性能与开销,图 7 KNN 算法不同参数下准确率及 ROC 曲线本研究中最近邻点个数取 50。3.3 联合算法模型用集成学习的方法合并多个基学习器可以在无监督学习任务中获得更优的结果。在本研究的联合模型建立阶段,采用 SUOD 对上述算法进行联合训练,其中基学习器包括无参模型 COPOD 以及 3.2 中获得了最优参数的 4 个算法模型,最后验证测试样本的准确率、漏检率、虚警率、AUC 结果,以及与单指标静态门限检测法的比较,如表 2 所示。结果中可以看出,联合训练的模型均比单模型 COPOD 具有更优性能。从基分类器的异常检测原理分析,COPOD 与ABOD 同属于基于概率统计的方法,而 IForest 属于基于集成学习的模型。两种组合方式对比发现,基于不同原理集成的无线通信622023.06模型效果更好,说明多种类型信息对异常样本的识别均有一定的贡献。因而在此基础上联合了基于距离度量的 KNN 算法后,模型的各项评价指标均达到最高。当联合训练的模型达到4 个以上时,性能有所下降,可能是由于复杂度提升使得模型过拟合所致。表 2 SUOD 联合模型性能指标算法组合准确率(%)漏检率(%)虚警率(%)AUCCOPOD92.912.8210.840.9636COPOD+ABOD92.952.7210.830.9637COPOD+IForest93.182.6310.490.9545COPOD+KNN+IForest94.50010.320.9854COPOD+ABOD+PCA+IForest94.32010.670.9791COPOD+ABOD+PCA+KNN+IForest94.18010.920.9740单指标静态门限识别法81.7312.2724.27从漏检率和虚警率两个指标分析发现,无论是单算法还是各种组合的联合模型,均具有较低的漏检率,识别错误的样本多数为虚警,即将正常样本识别为异常。说明所选取的算法模型与实际应用场景较为适配。在实际场景中,将正常样本判别为异常会出现误告警,而异常样本漏检则会忽略性能劣化告警,难以在第一时间响应和处理,可能影响客户感知。3.4 与单指标静态阈值方法的对比从表 2 可以看出,无论是单算法模型还是联合算法模型,相较于单指标静态门限识别法,在性能劣化识别上都具备更优越的性能,基本能够在维持较低虚警率的同时,无遗漏地识别性能劣化。目前,大部分性能异常持续时间较短,且多为业务闲时的网络操作引起,无需过度关注,所以传统的单指标静态门限识别法由于其简单易用,仍然具备一定实用性。但是,对于“零故障”,“自修复”的自智网络愿景,异常值检测算法在网络风险的预测预防方面有着相当大的应用前景。4 结束语本文针对异常值检测算法在网络性能劣化识别中的应用开展了研究工作。结果表明,本文选取的异常值检测算法经过参数寻优后,相较于单指标静态门限识别方法,均具有更好的性能。进一步使用 SUOD 加速系统建立联合模型可以在一定程度上获得更高的识别准确率,不同类型的算法组合通常表现更优,但在虚警率方面,仍有一定提升空间。为了异常值检测算法能够在实际生产中得到体系化的落地应用,未来还需要进行以下工作:(1)对异常点持续时长再进行二次异常检测,进一步降低虚警率;(2)对算法参数和算法组合的选择需进一步标准化、规范化。参考文献:1Richard A.Autonomous Networks:Empowering Digital Transformation for Telecoms IndustryZ/OL.https:/www.tmforum.org/wp-content/uploads/2019/05/22553-Autonomous-Networks-whitepaper.pdf.2021.2Kriegel H P,Schubert M,Zimek A.Angle-based outlier detection in high-dimensional dataC/Proceedings of the 14th ACM SIGKDD international conference on Knowledge discovery and data mining.2008:444-452.3Liu F T,Ting K M,Zhou Z H.Isolation forestC/2008 eighth ieee international conference on data mining.IEEE,2008:413-422.4Shyu M L,Chen S C,Sarinnapakorn K,et al.A novel anomaly detection scheme based on principal component classifierR.Miami Univ Coral Gables Fl Dept of Electrical and Computer Engineering,2003.5Angiulli F,Pizzuti C.Fast outlier detection in high dimensional spacesC/Principles of Data Mining and Knowledge Discovery:6th European Conference,PKDD 2002 Helsinki,Finland,August 1923,2002 Proceedings 6.Springer Berlin Heidelberg,2002:15-27.6Li Z,Zhao Y,Botta N,et al.COPOD:copula-based outlier detectionC/2020 IEEE international conference on data(下转第 76 页)762023.06(1)明确投资目标投资方应基于国家宏观政策导向、市场需求预测及企业投资强度,明确近远期数据中心的建设规模和投产运行时间。快速推进以突出时间价值。(2)组建联合团队前期策划推进的联合团队最好由三部分人员组成,一是投资建设方对前期与政府部门管理流程较熟悉的人员;二是委托一家专业的咨询单位,派驻咨询团队配合投资建设方与政府部门进行技术对接;三是寻求政府支持,对纳入政府年度重点项目清单的项目,可与政府相关部门成立工作专班,提高沟通效果。(3)择多地块比选选址时应在多个地块中进行比选,不要仅找一个地块进行分析,避免发现此地块存在明显问题时再换地而耽误时间。多个地块、多个方案比较、才能对比选出最优的用地方案。(4)明确任务清单建立相关工作推进台账,对前面所提的关注要点及风险点,均需针对性地进行工作细分,明确任务清单、限定完成时间,责任到人、同步推进、相辅相成。(5)定期开会解决疑难问题定期召开周例会、月度会,重点提出工作推进中的疑难问题,对有的地块存在明显限制性因素且短期无法解决的,应及时反馈决策层,取舍利弊、尽早定夺。(6)前期策划过程中除解决前面提到的关注重点、风险点以外,项目前期联合团队还应注意以下方面:1)选址宜选择与数据中心产业环境类似的信息化产业园区。2)尽早与项目所在地政府进行沟通,尽早委托能评单位编写能评报告,以便早些获得能耗指标。3)在项目前期,积极与项目所在地供电部门协调、沟通,确定市电接入方案,论证及早接入的可能性。4)各类专项设计的初步建设方案要到位,提前与相关审批部门沟通获批的可行性,如人防、绿建、装配式、海绵城市、停车位等,避免一项不满足审批要求而使项目反复论证耽误时间。5 结束语以上各环节因素在前期策划中解决好,才能保证数据中心项目后续顺利推进。项目投产前时间拉得越长,对项目的收益影响就越大,甚至会带来项目实施到一半而做不下去的严重后果。加强重视前期工作、成立专项策划联合团队,在选址和规划阶段尽早规避掉硬伤,规避投资方不可控的外部因素,减少前期工作的迂回。从而使前期策划推进工作快速、有序、有效,为项目顺利实现“快、好、省”的目标奠定扎实基础。参考文献:1国家互联网信息办公室.数字中国发展报告(2021年)R.中国网信网,2022 年 8 月:第 5 页.作者简介:李晓红(1972),女,江苏南京人,高级建筑师,本科;研究方向:数据中心咨询设计,数据中心建设管理流程。(收稿日期:2023-04-26;责任编辑:韩菁菁)mining(ICDM).IEEE,2020:1118-1123.7Zhao Y,Nasrullah Z,Li Z.Pyod:A python toolbox for scalable outlier detectionJ.arXiv preprint arXiv:1901.01588,2019.8Zhao Y,Hu X,Cheng C,et al.Suod:A scalable unsupervised outlier detection frameworkJ.arXiv preprint arXiv:2003.05731,2020.作者简介:尤龙(1976-),男,江苏南京人,高级工程师,硕士;研究方向:软件工程,移动通信原理算法。(收稿日期:2023-02-27;责任编辑:韩菁菁)(上接第 62 页)

此文档下载收益归作者所有

下载文档
收起
展开