AI深度学习在移动网异常小区检测分类中的应用

2019-12-10滕祖伟周杰华中国联合网络通信集团有限公司北京00033中国联通湖北分公司湖北武汉43000

邮电设计技术 2019年11期

王勇，滕祖伟，周杰华，肖波，赵根（.中国联合网络通信集团有限公司，北京 00033；.中国联通湖北分公司，湖北武汉 43000）

1 应用背景

当今移动网络复杂多变，特别随着5G和物联网的引入，其复杂性将进一步增加。采用深度学习算法的人工智能解决方案，可以适应复杂的环境，在用户和流量行为不断变化时，将优于任何人工驱动的解决方案。

移动网异常小区问题类型涉及无线覆盖、干扰、容量等多个方面，传统的网络优化方法是先采集PM和配置等数据，网优工程师再根据专家知识和经验，对各项指标分别设置阈值，来诊断网元是否存在高负荷、高干扰、覆盖差等异常问题。管理增加了网络复杂性，如何在网络动态变化的情况下，快速发现网络问题，提升运维效率，是目前亟待研究的课题。

基于AI 深度学习的移动网异常小区检测分类方案应运而生，它实现了原始数据入库解析自动化，问题分类智能化，诊断结果精准化，管控流程标准化，显著提升日常优化的生产效率和工作效果，起到了降本增效的作用。

2 基于AI深度学习的移动网异常小区检测分类

2.1 总体方案

基于AI 深度学习的移动网异常小区检测分类方案由3部分组成，分别是智能建模、深度学习以及智能应用。基于AI 深度学习的移动网异常小区检测分类方案如图1所示。

图1 基于AI深度学习的移动网异常小区检测分类方案

a）智能建模。首先是原始数据收集、数据准备和预处理；然后将预处理好的小区性能数据输入异常检测模块，将输出的结果进行降维聚类处理，并安排有经验的网优工程师对问题进行分类标注，固化专家知识和经验，从而得到带标签的异常小区问题数据集。

b）深度学习。把带标签的异常小区问题数据集输入搭建好的神经网络深度学习模型进行调优，经过多次迭代和评估，最终得到训练好的神经网络模型及参数。

c）智能应用。将训练好的神经网络模型部署到实际网络后，每日自动执行移动网异常小区问题类型检测和分类。

2.2 智能建模

智能建模流程分为3个主要阶段：异常小区检测、异常小区分类以及专家分类标注。

2.2.1 异常小区检测

一般说来，在机器学习领域，不平衡的训练样本会导致训练模型侧重样本数目较多的类别，而“轻视”样本数目较少类别。在异常小区检测场景中，普遍存在的现象是正常样本数量远远大于异常样本数量，因此，当把不平衡的正常样本和异常样本都输入机器学习算法进行训练时，就能把异常样本检测出来。

变分自编码器（VAE—variational autoencoder）是一类在半监督学习和非监督学习中使用的人工神经网络，其架构分为编码器和解码器2部分。其中，编码器神经网络将输入数据转化为隐含空间中更小更紧凑的编码表达，而解码器则将这一编码表达重新恢复为原始输入数据。由于变分自编码器的隐含空间被设计为连续的分布以便进行随机采样和插值，因此可以有类似正则化防止过拟合的作用。

在样本不平衡的情况下，通过设定不同的重构误差门限，统计VAE 所检测出的异常小区数，从而验证检测准确率，如表1所示。

表1 基于VAE的异常小区检测准确率统计

2.2.2 异常小区分类

由于移动网小区数据是高维KPI 数据，而传统的聚类算法只适用于低维数据。因此，需要将检测出来的高维异常小区数据进行降维，然后再利用传统的已经成熟有效的聚类算法对降维后的低维异常小区数据进行聚类，获得多种不同类型的异常小区。

综合考虑算法有效性和性能，采用LLE降维和KMeans 聚类的组合方案。其中，LLE（Locally Linear Embedding）是一种非监督的非线性降维方法，它通过组合数据点的局部属性得到数据的全局结构，而构成这个局部属性的是数据点及它的近邻点的线性组合。其主要思想是利用线性的局部结构来表示全局的非线性结构，通过数据点的局部邻域的相互重叠来近似地表示数据的整体的几何结构。K-Means聚类算法随机选取K个对象作为初始的聚类中心，然后计算每个对象与各个种子聚类中心之间的距离，把每个对象分配给距离它最近的聚类中心。聚类中心以及分配给它们的对象就代表一个聚类。每分配一个样本，聚类的聚类中心会根据聚类中现有的对象被重新计算。这个过程将不断重复直到满足某个终止条件。

将采用上述降维聚类算法处理后的异常小区高维数据进行2D降维可视化呈现，异常小区分类效果较好，如图2所示。

2.2.3 专家分类标注

图2 异常小区分类效果可视化

将聚类后的异常小区高维KPI 数据转换成KPI 热力图，其中，横轴是时间轴，范围是0～23 h，共24 个时间点；纵轴是KPI 指标。当某个时间点的KPI 取值是正常范围时，对应的小方格颜色是绿色，否则对应的小方格颜色是红色。如果KPI 取值由正常逐步恶化时，则颜色由绿色逐步变淡，并向红色慢慢演化。KPI热力图如图3所示。

根据KPI 热力图，由有经验的网优工程师手工标注已区分开的异常小区问题类型（例如高负荷、上行干扰等），从而将专家的大量经验进行固化，并最终得到带有标签的移动网异常小区检测数据集。

2.3 深度学习

由于卷积神经网络（CNN —Convolutional Neural Network）在准确性和健壮性上的优势，将带有标签的移动网异常小区检测集作为训练数据输入到卷积神经网络进行训练，学习正常小区和异常小区在容量、干扰、覆盖上的特征差异，从而得到预测模型。

具体通过TensorFlow 来搭建卷积神经网络实现。首先，设定好卷积神经网络结构（见图4）。然后，将带有标注的异常小区检测数据集划分为训练集和测试集，之后，输入训练集，对卷积神经网络模型进行训练。当模型训练达到一定的准确率后，再次利用测试集对模型进行评估，当模型达到预期标准则输出预测模型。具体的训练和验证阶段的准确度以及损失曲线如图5所示。

图3 KPI热力图

图4 卷积神经网络结构示意图

图5 训练和验证阶段的准确度以及损失曲线

2.4 智能应用

2.4.1 准确性验证

采集武汉联通2019 年3 月7 日4G 网络的KPI 数据，输入已调测完毕的卷积神经网络模块进行诊断，得到Cell_load、High_DL_utilization、PUCCH_Interference、DTX_Coverage 等问题类型的诊断概率大于50%的小区，并按各个问题类型数量的20%进行随机采样验证。

针对每类问题类型呈现最相关的2～3 类KPI，通过散点图分布特征，判断输出结果是否符合日常优化经验。经验证：异常小区问题检测分类的准确率可达88.37%。异常小区问题检测分类的验证准确率如表2所示。

2.4.2 现网部署

采用Docker 在Kubernetes 上部署深度学习模型。由于深度学习模型的应用组件及所依赖的组件非常多，封装成容器Docker，可实现更轻量级的虚拟化，方便快速部署，从而显著减少部署的时间成本和人力成本。AI部署组件图如图6所示。