APP下载

基于时间序列分析及机器学习的移动网络业务量预测技术

2020-06-24江元杨波赵东来郑黎明武悦王钢

物联网技术 2020年6期
关键词:时间序列分析机器学习物联网

江元 杨波 赵东来 郑黎明 武悦 王钢

摘 要:随着NB-IoT及5G网络建设的不断拓展,越来越多的物联网设备通过公共移动通信网络接入,传输数据至云计算服务器进行集中处理。通过移动通信网络承载物联网数据及业务,为车联网、广域感知及可穿戴设备等需要在更广范围内进行数据传输的场景提供有效的通信手段,同时也对移动网络自身提出了更高的要求,带来了网络流量的爆炸性增长。因此,对业务量的提前预测成为物联网时代移动通信网络的迫切需求。文中主要通过时间序列分析技术及机器学习方法对网络业务量及网络终端数量进行预测,并利用真实移动通信网络中业务量及终端数量进行仿真和验证,证明了所提方法的有效性,此外也证明了基于神经网络的机器学习方法在业务量及终端数量预测中相较传统方法具有更高的预测准确性。

关键词:物联网;时间序列分析;机器学习;神经网络;业务量预测;激活函数

中图分类号:TP391.7文献标识码:A文章编号:2095-1302(2020)06-00-04

0 引 言

物联网是一系列技术工具的组合,从物联网作为数据收集、传输、处理及利用的视角来看,物联网可以大致分为四层,即基于传感器技术的感知层、基于通信及网络技术的传输层、基于云计算与存储的数据层及提供各类服务的应用层[1]。传输层是物联网技术中极其重要的一个环节,传统物联网主要通过私有、局部的网络进行数据传输,这在很大程度上限制了物联网技术的发展。私有网络区域较为狭窄,无法承载车联网、可穿戴设备及大范围内的智能感知业务,没有泛在接入的移动互联网就不会有当前丰富的移动互联网业务,同样只有通过更大范围的泛在物联网接入,才能促进物联网技术的真正普及。

我国基于公共移动网络的物联网接入技术及系统近年来越来越受瞩目[2-3]。从2018年起,中国三大运营商开始大规模部署基于移动网络的窄带物联网技术NB-IoT系统,2019年

我国又开始大规模进行5G网络建设。其中5G网络应用的一个主要场景—增强型机器类型通信(eMTC),主要面向物联网场景,提供每平方千米一百万台终端的连接能力,将极大促进物联网相关技术及产业的发展[4-5]。同时,随着物联网设备接入能力的提升,网络也面临着吞吐量指数增长的压力,因此针对业务预测的网络优化成为稳定支撑海量终端的关键。本文在此背景下对这一问题进行探索,通过时间序列分析及机器学习方法来完成基于历史数据的业务预测。

1 业务量预测基本模型

1.1 乘积ARIMA模型

ARIMA模型是最常用的时间序列分析方法,被广泛应用于各类时间序列分析的应用中[6]。序列的季节性是指序列具有长度固定的周期,不同周期的同一时刻之间具有一定的关系,ARIMA模型就考虑了相邻或相似序列之间的相关性。假定S为序列周期,,考虑季节性滞后的简单季节模型为:

式中:;;{Φi}与{Θj}是季节性AR与MA的系数。假设季节影响与其他影响之间是乘积关系,构造乘积ARIMA模型,不仅仅在季节性滞后具有相关性,在相近的序列值之间也有关联特征,通常表示为,模型公式:

通常模型建立包括以下6个基本步骤:

(1)采用定性观察与定量检验相结合的方法识别时间序列平稳性;

(2)若时间序列不平稳,则用差分变换等方法进行处理,完成后再次判断序列平稳性;

(3)根据自相关函数与偏相关函数大致判断阶数范围,联合准则函数找到最优阶数,完成模型识别;

(4)进行模型的参数估计;

(5)得到拟合模型后的残差序列,分析残差序列的特性,判断残差是否满足白噪聲的特性;

(6)已经通过检验的模型进一步对未来进行预测,分析预测误差。

1.2 Holt-Winters模型

Holt-Winters是基于指数平滑的一种,包括加法季节和乘法季节两种模型[7]。当季节变量在整个序列中大致不变时,加性模型更有效;当季节变量随时间序列成比例变化时,乘积Holt-Winters模型更适用。Holt-Winters模型对序列在不同时间点的水平成分为lt,斜率成分为bt和季节性成分为st。具有线性时间趋势符合加法模型特性的序列可以使用基于加法的Holt-Winters模型,时间序列xt平滑后的序列x't由下式得出:

式中:;m为季节性周期;lt表示序列的水平部分;bt表示趋势成分;St为季节成分;h为预测时向后推迟的时间点,其值大于0;x't+h|t是h步后的预测值。参数α,β和γ的取值为[0,1],这三个值的取值与1越相近,说明与当前观测点越近的值对未来预测值的影响就越大。序列的平滑性由当前时间点上的取值水平分量、趋势成分分量和季节性成分分量共同决定。

基于乘法的Holt-Winters季节模型适用于有线性时间趋势和符合乘法模型特性的序列。时间序列xt平滑后的序列x't由下式得出:

Holt-Winters模型基于迭代关系,需要对初始值进行初始化设定,然而对于Holt-Winters模型来说,初始值的选取与设定对最终模型参数的影响不大,经过多次迭代后,初始值将会被逐渐忘却,对最终结果造成的影响就会越来越小。一般来说,对于理想状态,Holt-Winters模型类似具有无限长的记忆,观测值的权值以指数规律递减。在本文研究中,主要采用基于加法的Holt-Winters模型。

1.3 BP神经网络模型

反向传播网络(Back-Propagation Network,BPN)是被广泛使用的一种人工神经网络模型,是具有监督学习的前馈神经网络的一种[7]。训练数据集作为输入提供给人工神经网络,神经元的初始权重通常是随机设定的。在迭代学习过程中,运行前馈算法从而得到输出结果,通过其与实际输出结果比较得到误差值,误差函数反映出当前学习的质量水平,将误差从输出层至输入层进行反向传播,通常采用梯度最速下降的方法来逐步迭代,从而对误差函数进行最小化处理,最后根据后层传递的误差对权重及阈值进行更新,反复重复这一过程直至误差满足要求或超过预设的迭代次数[8]。相比较AIRMA和Holt-Winters等传统方法,神经网络的学习过程通常需要循环往复多次,同时也需要更多的数据来保证模型训练结果的有效性。学习复杂性增加的主要原因在于神经网络模型待确定权重分量较多,模型具有更高的自由度。神经网络的预测性能取决于隐藏神经元的数目与权重的选择,一般来说更多的神经元可以获取更好的拟合效果,但同时也加大了网络过拟合的风险[9]。前馈神经网络拓扑图如图1所示。

利用人工神經网络的学习能力可以使得神经网络逼近其要仿真的真实系统,神经网络不仅可以对线性模型进行逼近,在模型具有较强的非线性情况下也能进行良好的逼近。同时神经网络算法无需了解系统内部信息,待逼近系统可以看作一个黑盒,只需获得一定数量输入与输出数据就可以通过拟合重构系统。因此如果系统输出受到多种互相耦合的输入关系影响,这种情况下线性方法一般很难获得满意性能,而神经网络模型通常可以解决这类问题。对于一般性问题,包含一个隐含层的三层神经网络通常可以用来训练非线性关系的数据集,获得足够逼近的系统,因此本文选取三层BP神经网络。

在本文研究的问题中,由于输入数据在网络忙时和闲时业务量相差较大,输入数据取值范围跨度大,很容易出现神经网络在训练时耗时过长、收敛速度变慢的情况,此外,取值较大的数据在训练中可能起到比取值小的数据更大的影响,因此在数据取值较小情况下同样数值的偏差相对比例更大,将对预测模型的性能产生较大影响。本文在训练前对原始数据进行预处理[10],将原始数据映射至神经网络激活函数的值域区间内,本文通过预处理将数据映射到(0,1)之间,与使用的logsig激活函数相适应。

神经网络训练及推理通常需要经过如下步骤。

(1)初始化网络,设定各参数的初始值。根据输入序列得到网络输入层的节点数目d,隐含层的节点数目q,以及输出层的节点数目l。训练集,初始设定bh是第h个神经元的输出结果,输入层与隐含层的权值为vih,隐含层与输出层之间的权值为whj。初始设定输出层阈值,其中第j个神经元的阈值为θj,第h个神经元的偏置为γh。隐含层第h个神经元的总输入为,输出层第j个神经元总输入为,确定神经元的激励函数,设定学习速率η。

(2)计算输出层的输出:

(3)计算在(xk, yk)处的均方误差:

(4)根据得到的均方误差采用梯度下降法更新权值:

(5)基于误差进行阈值更新:

(6)判断累积均方误差是否已经在预先设定的目标值以下,或者当前迭代次数是否已经超出设定的界限值,从而判断当前权值更新迭代过程能否结束,若未达到迭代停止条件,则需要返回步骤(2)继续执行训练过程。

1.4 预测性能评估指标

可以采用相对误差评估预测结果同实际情况的偏差,即实际值与预测值之间的偏差占实际值的百分比。实际值用变量xt表示,拟合值使用变量表示,相对误差为:

评估预测模型特性通常采用统计量来进行,在实际预测任务中,评估预测模型性能通常可以采用如下3个统计指标衡量。

平均绝对误差MAE能更好地反映预测误差的实际情况:

均方根误差RMSE越小,说明预测模型能更加精确地描述实验数据:

平均百分比误差MAPE:

2 性能仿真

业务量的量纲为爱尔兰,业务量的值与设备业务发起的次数、每次业务所用时长以及并发设备数量有关,由于以上三个因素是伴随用户行为而变化的,所以爱尔兰跟随时间变动,可将其看作一个随机过程。信道被用户或设备占用的程度可由话务量得出,业务量等于平均呼叫时间与成功呼叫次数的乘积。

本文采用的数据为某移动运营商在给定区域内的话务量数据。话务量数据如图2所示,发现业务量随着时间的变化产生较大的波动。

图3所示为基于乘积ARIMA模型的业务量预测评估结果,可以看出基于ARIMA模型的预测结果较为接近业务的真实值,但整体距离真实值具有一定的偏离,这一问题在业务量线性变化的情况下较为明显。

图4所示为基于加法Holt-Winters模型的业务量预测评估结果,可以看出相比基于ARIMA模型的预测结果,其更为接近业务的真实值,性能优于ARIMA模型。

图5所示为基于BP神经网络模型的业务量预测评估结果,可以看出BP神经网络模型能够提供相比前两种时间序列分析方法更好的预测性能,预测值曲线总体上非常接近真实值曲线。

表1所列为三种方法的性能统计,在MAE,RME及MAPE三种指标的衡量下,基于机器学习的BP神经网络方法相比时间序列方法均有较为明显的改善,其更适用于移动通信网络业务量的预测。

3 结 语

本文探讨了时间序列分析及机器学习方法在网络流量预测方面的应用,对两种时间序列模型及神经网络模型进行了介绍,给出了上述方法在网络流量预测中应用的案例。本文采用实际的移动通信网络数据进行验证,通过给出模型完成了话务量的模型拟合过程,发现三种模型均能取得较为满意的结果,其中BP神经网络方法预测性能优于基于时间序列分析模型方法。

参考文献

[1]刘云浩.物联网导论(第2版)[M].北京:科学出版社,2013.

[2]赵玉霞.5G与物联网发展趋势分析[J].电子技术与软件工程,2016(22):17.

[3] LI Fungchang. 5G and IoT[C]// 2016 International Symposium on VLSI Technology,Systems and Application (VLSI-TSA),2016.

[4] Rashmi Sharan Sinha,Yiqiao Wei,Seung Hoon Hwang.A survey on LPWA technology: LoRa and NB-IoT [J]. Ict express,2017,3(1):14-21.

[5] Bockelmann Carsten,Pratas Nuno K,Wunder Gerhard,et al.Towards massive connectivity support for scalable mMTC communications in 5G networks [J]. IEEE Access,2018:99.

[6] YE X. The Application of ARIMA Model in Chinese Mobile User Prediction[C]// IEEE International Conference on Granular Computing.IEEE Computer Society,2010:586-591.

[7] KALEKAR P S.Time series Forecasting using Holt-Winters Exponential Smoothing [Z]. Kanwal Rekhi School of Information Technology,2004.

[8] Hecht-Nielsen R.Theory of the back propagation neural network[C]// Neural Networks,1989. IJCNN.,International Joint Conference on.IEEE,1989:593-605.

[9] Igor V Tetko,David J Livingstone,Alexander I Luik. Neural network studies. 1. comparison of overfitting and overtraining [J]. Journal of chemical information & computer sciences,1995,35(5):826-833.

[10] JIA J C,CHONG C C.Distributed normalisation input coding to speed up training process of BP-neural network classifier [J]. Electronics letters,1995,31(15):1267-1269.

猜你喜欢

时间序列分析机器学习物联网
前缀字母为特征在维吾尔语文本情感分类中的研究
基于支持向量机的金融数据分析研究
中国或成“物联网”领军者