APP下载

基于时间序列的网络行为异常检测*

2020-12-23叶常华

通信技术 2020年10期
关键词:网络流量置信区间数据包

李 睿,贾 悠,焦 哲,叶常华

(中国电子科技集团公司第三十研究所,四川 成都 610041)

0 引言

随着互联网的飞速发展,网络安全问题日益突出。基于特征库的入侵检测系统,对于已知攻击类型产生的异常网络流量具有较好的检测效果,对于攻击特征超出特征库范围或是未知攻击防范效果有限。因此,基于异常的检测技术成为学术界和产业界研究的热点[1-2]。

对于基于时间序列的网络异常检测,文献[3-4]利用时间序列模型预测网络流量,为网络流量行为分析提供了借鉴和参考。文献[5]利用改进的Holt-Winters 算法进行网络流量异常检测,取得了一定的效果。但是其仅对网络整体流量进行检测,提取的特征有限,无法较为全面地检测网络业务的变化。文献[6]提出了一种基于多维时间序列的检测方法,利用多维特征对网络流量进行描述和异常检测,对基于TCP 协议的流量检测取得了较好的效果。但是其仅提取TCP 总的上下行流量、通信IP 数、连接数等特征,无法准确检测单用户的行为异常。

本文首先分析了用户行为特征,提取多个网络特征信息并建模,根据历史行为预测置信区间,然后利用置信区间对用户实际行为进行检测,结果表明该方法能够有效地检测用户的违规操作及网络攻击行为。

1 用户行为特征分析及提取

文献[7]指出通常采用属性向量对网络用户行为进行表示。例如,有n个属性的某种用户行为可表示为:<属性1,属性2,…,属性n>。

通过对某公司内部用户的实际流量统计分析,单用户具有访问业务有限、流量相对稳定的特点。如果用户访问不常用的业务,可能是网络违规行为;用户访问常用业务流量异常,可能是攻击行为。本文对实测到的用户流量属性进行筛选后,采用向量:<用户IP,业务目的IP,协议,端口号,上行流量,下行流量,上行数据包数,下行数据包数>描述单用户行为。其中,用户IP 是用户网络地址,业务目的IP 是用户访问的服务器或主机的网络地址,协议和端口号描述具体应用,其余的属性表示时间窗口t内上下行流量及上下行数据包数量的统计值。

2 时间序列分析

2.1 季节ARIMA 模型原理

ARMA 模型用于平稳的时间序列,是AR 模型和MA模型的结合[8]。令{Yt}表示观测到的时间序列,令{et}代表白噪声序列。

如果满足:

则称{Yt}为自回归滑动平均混合过程,AR 和MA 的阶数分别为p和q,记为ARMA(p,q)。

如果一个时间序列{Yt}的d次差分Wt=∆dYt是一个平稳的ARMA 过程,则称{Yt}为自回归滑动平均求和模型。如果Wt服从ARMA(p,q)模型,称{Yt}是ARIMA(p,d,q)过程。

定义季节周期为s的P阶季节AR(P)模型如下:

定义季节周期为s的Q阶季节MA(Q)模型如下:

定义季节周期为s的乘法季节ARMA(p,q)×(P,Q)s模型是AR 特征多项式为ϕ(x)Φ(x)、MA 特征多项式为θ(x)Θ(x)的模型,其中

2.2 异常检测

残差是实际值和预测值间的偏差。根据文献[6]的置信区间来设定残差的阈值用于异常检测,具体异常检测方式如下:

(1)对于某一流量特征构成的时间序列{Yt},如果流量特征历史不为0,首先确定ARIMA 模型参数,然后利用历史数据{Yt-1,Yt-2,…,Yt-p}来预测未来的流量特征值yt;如果流量特征历史为0,一旦产生了该类型流量,则认为是异常,跳过后续步骤。

(2)根据实际值和预测值计算残差序列{ξt},设Yt为t时刻的实际值,yt是t时刻的预测值,令

(3)计算残差序列{ξt-1}的均值和标准差σt-1。

(4)计算残差ξt的置信区间:

其中α表示对残差上界的容忍程度,β表示对残差下界的容忍程度。如果残差在置信区间外,则说明出现异常值,更新该处残差为置信区间边界值。

3 实验结果及分析

3.1 实验数据

为验证本文算法的有效性,对公司内部某用户的流量进行采集,发现该用户的业务集中在访问公司HTTP 服务器,对其他业务没有访问流量。

图1 至图4 分别是对该用户连续4 周在周一到周五每天9 点到17 点共160 小时,采样间隔为1 小时访问HTTP 服务的流量特征信息统计。

可以看出,用户访问HTTP 服务的网络流量具有周期性,采用季节模型进行拟合。

3.2 参数确定

对采样数据进行1 阶8 步差分后,发现序列具有平稳性。根据扩展自相关函数[9]对模型定阶,用户的上下行流量、上下行数据包个数均采用ARIMA(0,1,9)×(0,1,0)8模型拟合。模型参数采用极大似然估计[10],得到参数值如表1 所示。

图1 HTTP 服务下行流量信息

图2 HTTP 服务上行流量信息

图3 HTTP 服务下行数据包信息

图4 HTTP 服务上行数据包信息

3.3 检测结果及分析

根据2.2 节的异常检测方法,预测未来8 小时的用户流量特征信息分别如表2 所示。

表1 参数估计

按照式(7)求出残差序列,令式(8)的α和β均为3。

在用户PC 机上执行违规操作和网络攻击,异常类型和实验结果如表3 所示。

表2 预测值

表3 异常类型和检测结果

从表3 可以看出,用户的违规操作和网络攻击行为会造成一个或多个特征值异常。

4 结语

通过对真实用户网络流量进行观测,构造描述单用户行为的特征向量,通过对历史流量进行建模,得到用户行为的预测值,根据置信区间对用户行为进行检测,结果表明该方法可以有效地检测用户的违规操作和网络攻击行为。

本文提取的特征值有限,不能完全刻画用户行为,并且季节ARIMA 模型不能完全符合所有的用户流量。下一步工作应对特征值进行扩展,研究更为有效的算法和模型,对用户行为作全面刻画。

猜你喜欢

网络流量置信区间数据包
基于贝塔分布的最优置信区间研究
基于多元高斯分布的网络流量异常识别方法
大数据驱动和分析的舰船通信网络流量智能估计
二维隐蔽时间信道构建的研究*
定数截尾场合Pareto分布形状参数的最优置信区间
民用飞机飞行模拟机数据包试飞任务优化结合方法研究
基于预警自适应技术的监控系统设计
大数据环境下的网络流量非线性预测建模
效应量置信区间的原理及其实现
C#串口高效可靠的接收方案设计