APP下载

基于机器学习的LTE-MR定位算法研究与应用范例

2021-06-03刘旭峰贾元启史文祥何丹萍

北京交通大学学报 2021年2期
关键词:经纬度定位精度重构

王 宁,刘旭峰,贾元启,史文祥,郭 新,何丹萍

(1.郑州大学 信息工程学院,郑州 450001;2.河南省智能网络和数据分析国际联合实验室,郑州 450001;3.中讯邮电咨询设计院有限公司郑州分公司,郑州 450007;4.北京交通大学 轨道交通控制与安全国家重点实验室,北京 100044)

随着移动通信技术的持续高速发展,当前移动通信网络规模空前扩大、网络结构异常复杂,为提升网络质量、改善用户体验,移动运营商对基于地理信息的网络覆盖分析与网络质量评估的需求不断增长.同时,随着移动网络技术的更新迭代,新业务范式不断涌现,用户及垂直行业对终端定位服务的需求亦随之增长,运营商可以根据定位为不同用户提供定制化的服务,如寻机寻人定位、紧急救援搜救定位、智能交通与导航等[1].

测量报告(Measurement Report,MR)是指UE根据下发的测量配置,按照周期性触发或事件性触发的方式,通过RRC连接,将测量结果上报至E-UTRAN侧的过程[2].3GPP TS 25.331 RRC规范中,将UE在PHY、RLC等层的测量分为6个类型:频率内测量、频率间测量、系统间测量、业务量测量、质量测量、内部测量.根据中国联通测量报告技术标准,MR报告共含有54个字段,根据工程实践需要分为基本信息类、覆盖类、空间类、用户感知类等四类,可以通过对原始MRO数据的解析获得.

LTE用户向网络反馈的测量报告,可以为无线网络分析与优化提供海量基础数据,并避免了进行全面网络测试而消耗大量的时间和运维成本[3].在终端开启GPS定位功能的情况下,MR数据中包含有终端的经纬度信息字段,网络便可直接获得终端经纬度并将地理信息与信号测量信息匹配,用于覆盖分析与网络质量评估.然而,在终端GPS不可用的情况下(功能关闭、定位信号弱等),大量MR数据中的用户定位信息字段缺失,为基于MR数据进行移动网络分析与评估设置了障碍,开发高精度的用户定位算法在此应用中至关重要.3GPP在R9版本后加入了标准的网络定位技术方案,但实际应用中定位精度低,仅达到百米级别[4];传统的基于无线网络的终端定位算法,普遍存在定位精度和可靠性问题,提高定位精度一般需要进行基站硬件升级[5].

在当前人工智能浪潮下,机器学习理论与算法实践得到不断发展,越来越多先进的机器学习算法被应用于工业与信息领域,为海量数据的分析和使用提供了便利.MR数据分析在移动网络质量评估和网络优化应用中,具有离线性和数据海量性特点.目前 LTE 网络具备MR 周期性测量功能,并由网管系统对数据进行定期收集.每个小区每小时接收到的MR数据量一般在数千条,对MR数据进行离线分析时,需提取数周甚至数月的数据,对于一个拥有1 000余个小区的中等规模本地网,数据量在百万条量级以上.如此海量的数据,为采用机器学习的方法进行大数据分析,对缺失的定位信息进行重构,进而基于地理信息与测量信息匹配进行智能化的多维度数据关联分析及网络运行数据拓展应用,提供了大数据基础.

本文作者提出一种基于海量MR测量报告机器学习大数据分析的高精度移动用户定位算法.通过训练包含A-GPS字段的MR数据,学习并建立MR数据中信号测量字段与定位信息的隐式关系,进而实现对定位信息缺失MR数据的地理信息“修复”.该算法将集成应用于中国联通RNExp无线网络专家系统中,实现更全面的网络覆盖分析和网络质量评估.

1 移动网定位算法简介

传统的移动网无线定位技术,主要通过对场强、电波传输时间、到达角等无线电信号物理特性的测量,对目标的位置信息进行估计[5-6].其中,移动网定位算法主要有场强定位法[7]、电波传播时间/传播时间差定位法[6]、基于电波入射角的定位法[8]、GPS辅助定位法[9]、混合定位法[7]等.如何在移动网定位算法中充分、有效地利用不同维度的信号测量信息,针对具体情况将不同定位算法以“扬长避短”的方式进行组合,是采用该方法提高定位精度的关键.机器学习的方法,通过对海量已配对数据的训练学习,建立多维特征(信号测量信息)与输出结果(终端定位)之间隐式的模型,从而自适应地实现对不同维度信号测量信息和定位方法的最优化组合利用,为移动网定位算法的设计提供了全新的思路.

2 LTE-MR定位重构与算法设计

2.1 MR定位信息重构问题及解决策略分析

LTE移动通信系统中,终端通过发送MR测量报告向网络上报其主服务小区及邻区信号强度、信号质量-位置等测量结果,海量的MR数据可以作为网络优化的重要数据来源[10].LTE网络通过其MR周期性测量功能搜集的无线网络运行大数据,可用于挖掘并发现潜在的网络覆盖和质量问题,为日常网规网优工作提供依据.该技术既实现了对网络运行情况的日常监测与管理,又避免了频繁进行全面网络测试而消耗大量的时间和运维成本.

由于无线接入网的规划优化高度依赖于地理信息,对MR无线大数据进行分析,首先需要为终端测量数据匹配上准确的地理信息.理论上讲,对于大多数具备主动A-GPS功能的终端,MR数据直接携带经纬度信息.然而,通过对中国联通某省分公司各本地网提取的连续3个月MR数据进行观察,发现其中含有经纬度信息的MR数据仅占总数据量的5%~10%,其原因主要包括终端功能关闭、定位信号弱等.若无法对不含经纬度信息的MR数据进行定位信息重构,则原始MR数据中大量有用细节信息将无法被利用.依赖于文献中传统算法,利用单个MR数据中的信号测量信息对终端定位,对模型精确性依赖度高.虽然现有文献中提出的一些方法针对特定仿真模型的仿真性能尚可,但在实际应用中由于通用模型对不同小区/区域泛化性差,实测平均定位误差一般在100 m以上(网规网优应用一般要求定位误差20~50 m),定位精度低势必严重影响对数据的分析及相应的网络评估结果和网优方案.

与传统孤立测量信息的终端定位问题相比,基于MR大数据分析的定位问题具有以下两个特点:

1)MR数据之间存在关联性,这种关联性体现在同一小区/区域的MR数据,其信号测量值和位置之间的模型具有较高程度的相关性.

2)容易提取到一定数量具有定位信息的MR数据,利用这些数据对小区/区域训练专有模型较容易,而传统方法则需进行大量的模型校正测试和数据分析来提高模型精度.

基于上述原因,文献中提出了基于指纹库的定位技术来解决MR定位信息重构问题.通过将原始测量报告(MRO)数据和信令平台OTT数据关联,并自适应调整不同特征(测量数据)在模型中的权重,达到提高定位精度的效果[11].但该方案实现的定位精度差强人意,且由于需要对海量MRO数据和OTT数据进行跨平台关联匹配和联合处理,方案整体复杂度高,对电磁波信号物理特性测量数据的挖掘不充分,在数据分析方法和算法设计上有待进一步改进.

本文作者以基于机器学习的混合定位方法为技术出发点,提出对MR大数据进行机器学习分析,通过分区域训练包含A-GPS字段的配对数据,建立MR数据中信号测量特征字段与定位信息的隐式关系,对缺失定位信息的MR数据进行定位信息重构.

2.2 算法设计思路与数据预处理

基于机器学习的LTE-MR定位算法设计流程包含数据的提取、特征选择与提取、数据预处理、算法设计(包括算法选择,模型训练,模型测试).

2.2.1 数据提取

本文定位算法设计所用的MRO数据,来自中国联通某省分公司FDD-LTE网络的OMC(操作维护中心)平台.

2.2.2 特征选择与提取

1)从定位问题本质出发,MR消息的信号测量数据中与终端位置密切相关的是终端接收到基站信号的强度、信号质量、到达角以及基站位置等,机器学习算法将使用这些测量信息作为特征数据.

2)MR数据中包含服务小区和临小区的信号测量信息,虽然大量MR数据中显示可观测到的临小区数大于2个,但是使用过多的临小区数据会导致算法计算量增加,还可能加重模型过拟合问题.本文根据最基本的三点定位原则,在算法设计中仅采用主服务小区和2个临小区的特征.

中国联通某省分公司为此次研究提供的MRO数据,由于系统原因不含AOA字段.此次在采用机器学习方法分析和使用MRO数据时所使用的特征字段如表1所示,共包含10个特征.输出数据标签为终端位置的经度和纬度.

表1 MR数据特征和输出数据标签Tab.1 MR data features and output labels

2.2.3 数据预处理

为提高定位精度,同时避免过拟合导致算法对训练集外数据定位精度严重下降的问题,算法在进行训练前,需要对已配对历史数据进行如下预处理:

1)为减小越区覆盖、直放站等因素产生的离群数据(Outlier)对模型训练结果的影响,首先根据基站所属区域类型(密集城区、城区、郊区等)和周边站距,按照距离筛选出疑似离群数据,并在训练集中将其剔除.例如,本文用于算法演示的数据来源于某省会城市一般城区,在进行离群数据筛选时,将小区的合理覆盖范围定为500 m;距离基站500 m以上的已配对历史数据,作为疑似离群数据被剔除.

2)为评估训练模型的泛化性能,已配对数据集分为训练集和测试集,其中训练集占总数据集的80%,测试集占20%.考虑到按时序提取的MRO数据中,相邻数据间可能因为来自同一终端等原因而具有较大相关性.因此,在分割训练集和测试集之前,先将数据进行随机重排,以削弱训练集和测试集数据间的相关性.然后将输入特征数据分别做线性归一化处理,以改善算法求解的精度和速度.

2.2.4 算法设计

1)由于各小区无线传播特性的多样性,很难基于基础测量数据得到一个泛化性强且定位精度高的模型.因此,为保证重构MR位置信息的准确性,本文提出在算法设计时应以较小的地理区域(小区或紧邻的同质化区域)为单位进行模型训练,即采用专属模型而非通用模型的方式.

2)用机器学习的方法进行MR位置信息重构,本质上是一个预测数值型问题.本文所针对的应用(辅助网规网优),对定位结果精度要求高,而对算法运行速度没有特别要求.因此,在采用的机器学习算法方面,有神经网络(Neural Network)、随机森林(Random Forest)、集成提升(Boosting)等类型的算法可供选择.

基于上述算法设计思想,采取分小区的MR数据分析和模型训练方法.通过对一个小区大量有经纬度信息(已配对)历史数据进行训练,得到该小区基于表1特征的经纬度预测模型,缺失经纬度信息的MR数据即可使用该模型进行位置信息重构.

2.3 基于AdaBoost算法的MR定位信息重构算法

通过对候选算法(神经网络算法、Bagging算法、XgBoost算法、KNN算法、AdaBoost算法等)在所提取的MRO数据集中进行单独算法实验测试,得到如表2所示的实验结果.

表2 候选算法的平均误差Tab.2 Average errors of candidate algorithms

初步实验结果显示,在使用单个机器学习算法进行训练时,AdaBoost算法实现的定位精度最高.AdaBoost算法,即自适应提升(Adaptive Boosting)算法,是具有迭代自适应特点的集成提升算法[12],其核心思想是针对同一训练集训练多个弱学习器,再将这些弱学习器融合构成一个强学习器.AdaBoost算法精度高、分类速度快,能大幅提高泛化能力且不易引起过拟合问题[13].

AdaBoost算法本身既可用于分类问题亦可用于回归问题.本文问题本质为数值预测,是一个回归类型的问题,故使用AdaBoost Regressor算法.

AdaBoost Regressor算法步骤如下

输入:训练数据{(x1,y1),(x2,y2),…,(xN,yN)},弱学习算法,弱学习器个数M.

输出:融合得到的强学习器G(x)

1)初始化训练数据的权值分布.

D1=(w11,w12,…,w1N),

w1i=1/N,i=1,2,…,N

(1)

2)对m=1,2,…,M.

①使用具有权值分布Dm的训练数据集学习,得到弱学习器Gm(x).

②计算Gm(x)在训练数据集上的样本最大误差、样本相对误差及回归误差率.

样本最大误差为

Em=max(|yi-Gm(xi)|),

i=1,2,…,N

(2)

样本相对误差为

(3)

回归误差率为

(4)

③计算弱学习器Gm(x)的权重系数为

(5)

④更新训练数据集的权值分布为

Dm+1=(wm+1,1,wm+1,2,…,wm+1,N)

(6)

(7)

(8)

式中:Zm是规范化因子.

3)构建强学习器.

(9)

式中:g(x)是所有αmGm(x)的中位数(m=1,2,…,M).

本文算法中的弱学习器采用决策树回归器(Decision Tree Regressor, DTR),算法所采用的学习速率为0.01,损失函数为平方误差函数.其中,在DTR的参数中,特征选择标准为均方误差(Mean Square Error, MSE).

2.4 基于AdaBoost算法的MR定位模型误差

采用AdaBoost算法,对含有表1所列的10个输入特征和2个数据标签(经度和纬度)的MR数据进行定位信息重构模型训练与验证.所采用的数据集(包括训练集和测试集)全部来自中国联通某省会业务区本地网现网中提取的历史MR数据:数据来自7个基站28个小区,共有58 188条(每小区MR数据条数最少162条,最多6 359条),数据集具体情况详见表3.对该数据集,采用2.2节介绍的方法,首先进行随机重排,再划分为训练集(80%)和测试集(20%).

AdaBoost算法在测试集中的定位精度性能见表3.由表3知,实验中总的平均绝对误差约为46.1 m;表3中17 m误差率指测试集中定位误差小于17 m的数据条数占总测试数据条数的百分比,30 m误差率和50 m误差率依此类推.计算得到17 m误差率均值约为50.9%,30m误差率均值约为67.1%,50 m误差率均值约为77.2%.依此估算,所提算法中位误差约为17 m,对比文献[11]中提出的自适应加权KNN算法定位中位误差37.8 m,本文采用的基于AdaBoost Regressor分区域训练的MR定位算法,其定位精度较文献[11]中的算法提升超过50%.

表3 AdaBoost算法定位误差结果分析Tab.3 Positioning errors results analysis of the AdaBoost algorithm

2.5 AdaBoost与KNN加权定位信息重构算法

为了提高定位信息重构的精度,考虑组合使用多种候选机器学习算法设计混合算法.由表2可知,从算法独立使用时的平均误差角度上,KNN算法仅次于AdaBoost算法,其平均误差较AdaBoost算法高4.4 m左右,XgBoost算法与Bagging算法平均误差高于AdaBoost算法7.5 m以上.

KNN(K近邻)算法的主要特点是简单、直观.给定一个训练集,对新的输入实例,在训练集中找到与该实例最邻近的K个实例,然后基于这K个“邻居”的标签信息,对新进实例的标签信息进行预测.通常在回归任务中可使用“平均法”,即将这K个近邻实例的实值输出标记的平均值作为预测输出值.KNN算法采用不同K值在本文研究的MR定位问题中所得到的平均误差影响如表4所示(此处设近邻标准为欧氏距离).从表4结果可以发现,在此问题中KNN算法的平均定位误差随K的增大而增加,当K=1时平均定位误差最低,这表明本问题中相似的特征值倾向于具有相似的经纬度标签.由于K=1时,KNN算法等效于依欧氏距离最小准则在训练集已标注位置集合中进行分类,其与AdaBoost回归在方法上具有互补性;因此,使用KNN算法与AdaBoost算法加权平均,可对定位信息重构结果进行互补性的调整.

表4 取不同K值时KNN算法的平均定位误差Tab.4 Average positioning error of KNN with different K values

从实验的角度讲,使用不同的混合算法进行实验,其结果如表5所示,由表5可知,当AdaBoost算法与KNN算法加权平均时,平均定位精度比只使用AdaBoost算法高0.5~2 m,并且其平均定位精度显著高于其他算法组合.因此,本文提出使用AdaBoost算法与KNN算法的加权平均(加权平均算法)来进一步提升定位重构算法的精度.

表5 不同混合算法的平均误差Tab.5 Average errors of different hybrid algorithms

加权平均算法的具体实现步骤为:首先分别单独用AdaBoost算法及KNN算法对输入实例进行经纬度预测,进而将ρ×(AdaBoost算法结果)+(1-ρ)×(KNN算法结果)作为最终的经纬度结果.经过多次交叉验证实验确定权值参数,可以得到本问题中当ρ=0.8时AdaBoost和KNN算法结果进行加权的性能最佳.并且在实验中可以验证,ρ=0.8与训练集和测试集的比例分割无关,即无论训练集占总数据的比例如何,ρ=0.8都是最优参数.

从小区的角度看,共计28个小区,加权平均算法在18个小区上的误差要低于AdaBoost算法和KNN算法.在另外10个小区的误差会高于AdaBoost算法或者KNN算法.但是从所有小区综合的角度看,加权平均算法的误差要低于AdaBoost算法和KNN算法.

加权平均算法的平均绝对误差为45.1 m,较AdaBoost算法结果精度提高1 m左右,并且其17 m误差率平均为51.5%,较AdaBoost算法提高0.5%左右.多次进行试验,其结果趋势均是如此.

从均方根误差(RMSE)的角度看,单独使用AdaBoost算法及KNN算法的RMSE分别为83.0、100.3 m,而加权平均算法的RMSE为79.7.相较于使用单独算法有显著降低.

AdaBoost算法及加权平均算法对测试集的经纬度点预测图如图1所示.

由表6可得,AdaBoost算法预测出的结果分布较KNN算法更接近于真实点分布,加权平均算法预测出的结果分布较AdaBoost算法好,因此,从结果分布来看,同样为加权平均算法最优.

(a)测试集

表6 各算法结果与测试集真实点的JS散度结果Tab.6 Results of each algorithm and JS divergence of the real point of the test set

如前所述,现网提取的MRO数据中含有经纬度信息的数据(即前所述已配对数据集)仅占总数据量的5%~10%.本文将含有经纬度信息的数据作为数据集,剩余90%以上没有经纬度信息的数据称为应用集.图2(a)和图2(b)分别展示了所提AdaBoost算法和AdaBoost+KNN加权平均算法应用于应用集位置信息重构的结果,即将应用集使用已训练好的算法模型进行预测的结果.此处使用的MR数据共1 095 999条,图2将地图栅格化为100 m×100 m的离散化栅格并将数据点按照经纬度归入离散化的栅格.其中,红色点为基站位置,蓝色点为用本文所采用的AdaBoost或加权平均算法模型预测出的点的位置,绿色点表示含有经纬度信息的数据集点的位置.蓝色点若与绿色点重合则显示为绿色点.在采用AdaBoost算法的预测结果中,蓝色点有1 503个,在采用加权平均算法的预测结果中,蓝色点有2 920个.因此,对于应用集的预测,加权平均算法将数据预测在A-GPS数据尚未覆盖到的区域的点数要近乎二倍于AdaBoost算法.

图2 不同算法应用数据的预测Fig.2 Different algorithms for data predictions

3 应用结果分析

3.1 RNExp无线网络专家系统应用分析

将算法应用于中国联通某省分公司省会业务区的网络覆盖评估.平台使用谷歌地图,由于其瓦片服务的局限性,将该地区地图信息栅格化为62 m×62 m的栅格,图3所示的是该地区带有经纬度点的已配对数据,栅格的弱覆盖程度以栅格中数据的RSRP值小于-110 dBm的条数占该栅格总数据条数的大小作为区分,图3中红色栅格表示上述占比超过0.3,即弱覆盖程度严重,绿色栅格为良好覆盖.

图3 已配对有经纬度息的MR数据点Fig.3 MR data points with latitude and longitude information

图4表示将加权平均算法应用于应用集预测位置信息与已配对数据集的位置信息都展示在地图上的结果.

图4 A-GPS数据和应用数据的预测Fig.4 A-GPS data and the application data predication

将图3与图4比较可以看出,图4更清晰全面地展示了整个区域弱覆盖及良好覆盖的情况,即采用所提算法进行MR位置信息重构后,更多的可用MR数据能够更好地展示该地区的弱覆盖及良好覆盖程度.结合对该地区的网络质量覆盖水平的定点测试,发现其结果与MR数据预测结果基本相符,证实了采用所提算法处理MR数据后,能更有效地利用海量MR数据进行无线网络质量评估的思路,为网络测试评估工作节约了大量的成本.

3.2 算法运行速度

本文算法测试环节,使用的台式工作站配置为Intel (R) Core(TM) i7-7700型号的CPU,RAM容量为16 GB;采用加权平均算法对1 095 999条数据进行预测,并包含模型文件的加载等,共耗时45.2 s,平均预测每条数据用时约4.12×10-5s.

4 结论

1)针对海量LTE-MR定位信息缺失问题,通过分析传统基于无线信号测量的定位算法的优缺点,提出了采用机器学习技术设计混合定位算法的思想,设计并改进了基于AdaBoost回归的LTE-MR定位重构算法.在中国联通某业务区MR数据中应用所提的算法,实现了终端地理位置信息的精准重构,进而利用更多的MR数据对无线网络质量进行更准确全面的评估.

2)该算法应用于网络质量评估工作中,可有效提高MR大数据的可用度、提升网络质量评估分析的全面性和准确性,进而有效减轻网优工作人员的测试工作负担、降低运营商测试成本.

3)采用的数据集中仅含有接收信号的强度和质量信息,同时存在部分小区已标注数据量较小的问题.

在未来的实际应用中,若能获取更大的数据量和更全面的测量特征(如角度信息),算法实现的定位精度将有望进一步提升.

猜你喜欢

经纬度定位精度重构
北方海区北斗地基增强系统基站自定位精度研究
小米8手机在城市环境下的单点定位精度研究
“双减”能否重构教育生态?
长城叙事的重构
基于干扰重构和盲源分离的混合极化抗SMSP干扰
Galileo中断服务前后SPP的精度对比分析
GPS定位精度研究
GPS定位精度研究
基于经纬度范围的多点任务打包算法
用四维的理念重构当代诗歌