APP下载

基于独立流量平稳模型的异常检测算法研究

2017-04-14费金龙贺新征祝跃飞

计算机应用与软件 2017年3期
关键词:链路流量特征

费金龙 蔡 靖 贺新征 祝跃飞

(解放军信息工程大学 河南 郑州 450001)

基于独立流量平稳模型的异常检测算法研究

费金龙 蔡 靖 贺新征 祝跃飞

(解放军信息工程大学 河南 郑州 450001)

当链路流量由不同流复合而成时,不同流的短时变化(增大或降低)可以相互中和,使链路上的所有流趋于平稳。当流之间相互独立,链路流量趋于平稳状态。但是,当链路中出现相关流时,该平稳状态将被打破。研究证明许多异常流量发生时会违反流的独立性。基于此,提出了独立流量平稳模型iTSM(independent Traffic Stationary Model),并设计了一种异常流量检测算法。实验证明:针对单链路异常检测,该算法显著优于其他算法的检测效果。

异常检测 假设检验 流量测量

0 引 言

近年来,Internet承载越来越多的业务,尤其随着云计算、大数据等技术的发展,我国适时提出了互联网+战略,进一步促进了业务向Internet融合。然而,新形势下,网络安全面临着新的挑战。据CNCERT统计,2014年针对我国关键基础设施的DDoS攻击比前一年增加三倍,且攻击频繁、强度增大。异常流量规模不断增加,严重影响了网络的正常运行,因此,在网络链路上检测异常流量迫在眉睫。

一般来说,异常流量检测首先根据干净的、不含异常的训练数据,完成训练过程,建立正常的流量检测模型。其次,对于被检测对象(实时流量),计算相同的特征值,并与正常模型进行对比,如果当前流量“显著”偏离建立的正常流量模型,那么判定为发生异常,否则没有发生异常。异常检测对流量建立数学模型,基于流量行为,判定是否发生异常。因此,与传统基于规则匹配的检测方法比较,异常流量检测可以发现隐含在流量中的异常。然而,该方法完全依赖于建立的数学模型的准确性和训练数据的代表性,因此,其存在方法不稳定,检测率低、实时性差的问题。

为了降低假警率,研究人员对网络流量异常检测已经进行了大量研究,但在准确性方面一直难以令人满意。究其原因有以下两个方面:(1) 提取正常流量模式困难。由于网络正常工作模式的提取需要网络没有任何异常的干净流量,而这在现实中不可能实现。(2) 异常流量的数学模型建立困难。

本文提出一种实时的流量异常检测方法,避免了通过历史数据训练正常流量模式的过程。该方法采用了一种简单、有效的统计检验方法用在单一链路上评估流量的相关性。这个检验基于一种平稳假设的数学模型,本文称为独立流量平稳模型iTSM。正常情况下,网络中的每条链路的流量是由通过该链路的大量流复合而成,且不同流的变化趋势是短时的,有些流增加,有些流减小。从链路流量观察,不同趋势的流穿过一条链路,链路流量变化会在某种程度上相互中和,最终,链路整体变化趋于平稳。假设各个流是相互独立的,那么这种稳态是存在的。基于iTSM,本文提出了一种异常流量检测技术,通过检测链路中流的独立性来判定是否发生异常,即,当链路中的大量流表现为相同的趋势(同时增加或减小)时,链路流的独立性被破坏,这种现象可判定为异常。根据检测异常的不同,流可由报文头部域的不同组合来判定。例如,若检测端口扫描可通过目的端口标识流。现实中,许多异常均表现为违反iTSM模型,例如DDoS攻击。

1 相关研究

异常检测是入侵检测系统的重要组成部分。早期的ADAM[1]、SPADE[2]和NIDES[3]等异常检测系统通过学习正常流量的统计模型,识别被检测对象与模型的偏离程度。模型通常基于源、目的地址或端口的分布。例如,SPADE提供了到达TCP连接的如下四特征:P(目的地址、目的端口),P(源地址,目的地址,目的端口),P(源地址,源端口,目的地址,目的端口)和上述特征的Bayes估计。上述系统主要使用平稳模型,事件的概率有训练数据的平均频率估计。

文献[4]首次将空间主成分分析应用于网络异常检测。文献[5]则基于熵改进PCA在异常检测中的性能,提出了检测多维度的流量特征分布识别各种异常。该方法将主成分分析(PCA)应用到多维度的流特征中。具有高标准差的主分量表示为网络的正常行为,而具有较小方差值的分量用于识别和分类异常。该方法消除了背景流量对异常检测的干扰,提高了检测性能。然而,该方法没有给出如何确定主分量数量,可能因存在不包含异常的主分量导致检测性能恶化。Ringberg等[6]研究发现:PCA对参数设置敏感,系统检测性能不稳定,极大地依赖于训练集。Brauckhoff等[7]进一步指出PCA性能不稳定的原因是数据的时间相关性、数据的非平稳特性以及主成分数量难以确定等原因。

与采用PCA方法压缩高维度特征不同,刘玉宽等[8]利用Sketch矩阵对网络信息参数(目的IP)压缩存储,并对存储信息进行信息熵评估,进而判断是否异常。实验表明:经过压缩,检测系统速率显著提升,降低了DDoS攻击对目标资源的危害性。

Barford等[9]采用wavelets预测流量变化,在多个分辨率上刻画流量特征,发现不同的隐含异常。Zhang等[10]设计了一种通用框架,致力于从网络链路负载流量中发现异常事件。上述两种典型方法对导致网络流量显著偏离正常模式的异常或攻击比较有效。然而,对于有意隐藏的秘密攻击行为,例如,低速率的攻击在流量大小中难以体现。

Gu等[11]使用复合的特征分布刻画流量,采用训练数据获得该分布的参数模型。对被观测网络流量与建立的模型进行比较,发现了隐含的异常。作者假设训练集不包含任何异常。Wagner等[12]研究了流量轨迹中不同IP头部域的熵值,反映可压缩特性的变化。作者发现:在蠕虫爆发时,流量特征的可压缩特性发生了剧烈的变化。目前,大量研究将信息理论应用于基于流量特征的异常检测中。这些方法采用熵或相对熵比较流量特征分布的不同。熵是用于度量概率分布的不确定性。熵的两个特性可用于异常检测。首先,熵的概念将一个概率分布归结为单个值,用于比较概率分布间的不同。其次,一些常见的攻击会导致流特征的概率分布的集中或发散。但是,熵的缺陷是完全不同的概率分布的熵值可能是相同的,易引发误判。

与刻画流特征分布不同,范晓诗等[13]针对网络流量特征属性不确定性和模糊性的特点,引入直觉模糊推理理论,提出了一种基于包含度的直觉模糊推理异常检测方法,通过包含度的相关性建立规则库,提高了检测率。但是该方法规则库生成需要额外的时间,不利于实时检测。

Soule等[14]对两个相邻的骨干网络的研究表明:由于流量收集设备的不同,大规模异常在两种网络中表现为不同的特点。Brauckhoff等[15]研究了流量抽样对异常检测系统的影响。流抽象能够影响基于流大小的异常检测方法,但是不会破坏流分布特性,因此,流分布特性可以用于抽样流的异常检测。Scherrer等[16]提出了一种Internet流量的长相关非高斯模型,并基于此设计了一种异常检测算法,识别模型中估计参数的显著变化。Hohn等[17]提出了一种两层的特征异常检测技术。第一层对不同特征的典型值进行建模。例如,对连接到特定端口的流的典型数量建模。第二层估计被观察特征分布与已经建立的模型的差值。该方法的优点是刻画特征分布的细粒度模型,而不是简单地将其建模为熵值。

以上方法主要对传统互联网中的异常流量检测方法进行研究。马超等[18]分析了云环境下SDN的流量异常检测性能。研究表明:基于SDN检测内部威胁时比传统网络环境占用更少的物理内存而不影响精确度。李建国[19]基于电信网的特殊模型,从流密度和流距离对异常检测算法进行了改进。

总之,当前异常检测研究针对流量特征的不同特性展开研究,从算法设计到特殊场景都进行了广泛的研究。但是,本质上,这些工作仍主要从特征刻画和模型建立两方面展开研究,需要对理论模型进行训练,准确性取决于训练样本的正确性。与现有方法相比,本文方法不需要从正常流量数据中训练,也就可以不受训练数据的污染,而且参数设置简单。

2 模型定义

本文考察短时间分辨率的流量,因此流统计的时间分辨率为分钟级别的。一条流定义为具有相同流特征值的报文集合。本文采用五元组标示流特征。流由固定时间间隙内流的报文数来衡量大小。每条流由三个属性标示:流到达时间间隙、流活跃时间以及流报文数组成的向量序列。本文以网络中一条链路为研究对象,假设两个前提。首先,流不相关性。即正常情况下,流的属性相互独立。文献[16-17]研究显示实际链路上的不同流的依赖性正常情况下是很弱的,在短时间分辨率上,可以认为不相关。其次,流平稳特性。即在统计时间间隙较小的情况下,流到达分布是平稳的,虽然在宏观分辨率上,链路流量表现为突发性,但在微观分辨率上,其可由稳态分布描述。

结论1 当前文两个前提满足时,从Ω中任选两个流f和h满足:(a)πf,i和πh,i均值为0;(b) 如果f≠h,那么πf,i和πh,i独立;(c)πf,i和πh,i有相同的分布。

因为流f在时间间隙sf到达,持续到sf+Δt-1,因此vsf+Δt=vsf-1=0,即结论1(a)得证。

3 基于iTSM模型的异常检测算法

本节设计了基于iTSM的异常检测算法。为了检测流的独立性,算法定义检测器的假设检验:H0:结论1正确;H1:结论1不正确。

即:

进而得出:

(1)

(2)

基于iTSM模型的异常流量检测算法:

1: 设定系统假警率q,并据此计算R(q);

2: ∀f, 计算πf,i=vf,i+1-vf,i;

4: 当Ξ>R(q)时,与模型iTSM不一致,因此,判定i时间段内发生异常。

4 仿真评估

本节采用两种数据集进行对比试验。数据集A是统计某内网出口链路流量一周的数据,统计时间间隙为2分钟。统计过程中,前三天的流量不插入任何异常流量,作为其他算法的训练集;后四天数据则实时插入DDoS攻击和端口扫描攻击作为异常流量,其中DDoS攻击和端口扫描供给285次。DDoS攻击的特点是大量小报文从多个源IP达到单个目的IP;端口扫描的特点是大量小的报文从单个源IP到达单个目的IP的多个端口。因此,两者均会增加链路上的流独立性。

数据集B是公开的Abilene网络数据集。该网络主要满足大学和研究机构的传输需求,以及部分教育网流量。Abilene的统计时间间隙是5分钟,符合本文模型的流特征统计需求。与数据集A类似,仿真中注入相同的DDoS攻击和端口扫描攻击。

本节将iTSM与支持向量机、卡尔曼滤波、主分量分析及小波等经典算法的性能进行比较。首先,不同算法对不同数据集的平均检测时间。其次,仿真考察算法在不同数据集下的性能比较。为了展示不同算法的性能,本文采用常用的接收机曲线。该曲线将假警率和检测率结合,将后者作为前者的函数,因此,在左上角的曲线性能最好。

首先,仿真比较不同算法的时间消耗,可以看出两种不同数据集下iTSM平均时间消耗均远低于其它算法,因为其无需经典算法中的训练阶段,节省了平均检测时间。如表1所示。

表1 算法时间消耗比较

其次,我们比较了iTSM与相关算法的接收机曲线,如图1所示。可以看出:iTSM的性能比典型算法更优。因为算法通过检测链路中流相关性,链路中一旦出现攻击流,即可影响链路的相关性,而且本文算法基于攻击流的本质特征,无需训练,避免了训练数据不准确而导致模型偏离正常模式。

图1 不同算法的ROC曲线

由于iTSM是基于独立流量平稳模型,对于不满足上述条件的异常,本文算法往往漏检。因此,实践中,可将iTSM与典型算法联合使用,从而提高检测率。因此,本节也仿真了iTSM,主分量分析以及iTSM与主分量分析结合的方法的性能曲线,如图2所示。

图2 iTSM, PCA, iTSM+PCA的性能曲线

由图2可以看出:在两种数据集下,两种算法结合时均表现为优于各自独立运行时的结果。因为iTSM能够检测的异常类型与经典PCA不同,可以互相补充,所以iTSM在实际中可与经典算法进行结合,效果更优。

5 结 语

本文提出了一种针对网络链路的实时异常流量检测方法。首先基于链路中流量的独立特性,提出了描述正常流量模式的iTSM模型;其次,基于iTSM模型,通过检测链路中的流量的相关性,判断是否发生异常;最后,通过与经典算法的仿真对比验证了本文算法在检测单链路异常流量方面的有效性。未来工作将基于OpenFlow的流统计功能,将本文算法实现为控制器的应用模块。

[1] Sekar R,Bendre M,Dhurjati D,et al.A fast automaton-based method for detecting anomalous program behaviors[C]//Proceedings of the IEEE Symposium on Security & Privacy,2001:144-155.

[2] SPADE.Silicon Defense[DB/OL].http://www.silicondefense.com/software/spice/.

[3] Anderson D,Lunt T F,Javitz H,et al.Detecting Unusual Program Behavior Using the Statistical Component of the Next-generation Intrusion Detection Expert System (NIDES)1[C]//Computer Science Laboratory Sri International Ravenswood Avenue Menlo Park Ca,1995.

[4] Lakhina A,Crovella M,Diot C.Diagnosing network-wide traffic anomalies[J].Acm Sigcomm Computer Communication Review,2004,34(4):219-230.

[5] Lakhina A,Crovella M,Diot C.Mining anomalies using traffic feature distributions[J].Acm Sigcomm Computer Communication Review,2005,35(4):217-228.

[6] Ringberg H,Soule A,Rexford J,et al.Sensitivity of PCA for traffic anomaly detection[M].ACM SIGMETRICS Performance Evaluation Review.ACM,2007:109-120.

[7] Brauckhoff D,Salamatian K,May M.Applying PCA for Traffic Anomaly Detection: Problems and Solutions[C]//INFOCOM 2009,IEEE.IEEE,2009:2866-2870.

[8] 刘玉宽,苏金树.分布式拒绝服务攻击高速率单点局部异常检测[J].计算机应用与软件,2015,32(9):299-304.

[9] Barford P,Kline J,Plonka D,et al.A Signal Analysis of Network Traffic Anomalies[C]//Internet Measurement Workshop,2002:71-82.

[10] Zhang Y,Ge Z,Greenberg A,et al.Network anomography[C]//Proceedings of the 5th ACM SIGCOMM conference on Internet Measurement.USENIX Association,2005:30-30.

[11] Gu Y,Mccallum A,Towsley D.Detecting anomalies in network traffic using maximum entropy[C]//Proceedings of the 5th ACM SIGCOMM conference on Internet Measurement.USENIX Association,2005:345-350.

[12] Wagner A,Plattner B.Entropy based worm and anomaly detection in fast IP networks[C]//Proceedings of the Workshop on Enabling Technologies Infrastructure for Collaborative Enterprises Wet Ice,2005:172-177.

[13] 范晓诗,雷英杰,王亚男,等.流量异常检测中的直觉模糊推理方法[J].电子与信息学报,2015,37(9):2218-2224.

[14] Soule A,Ringberg H,Silveira F,et al.Detectability of Traffic Anomalies in Two Adjacent Networks[J].Lecture Notes in Computer Science,2007,4427:22-31.

[15] Scherrer A,Larrieu N,Owezarski P,et al.Non-Gaussian and Long Memory Statistical Characterizations for Internet Traffic with Anomalies[J].Dependable & Secure Computing IEEE Transactions on,2007,4(1):56-70.

[16] Barakat C,Thiran P,Iannaccone G,et al.A Flow-Based Model For Internet Backbone Traffic[C]//Imw Proceedings of Acm Sigcomm Workshop on Internet Measurment,2002:35-47.

[17]HohnN,VeitchD,AbryP.Clusterprocesses:Anaturallanguagefornetworktraffic[J].IEEETransSignalProcess,2003,51(8):2229-2244.

[18] 马超,程力,孔玲玲.云环境下SDN的流量异常检测性能分析[J].计算机与现代化,2015,10(2):92-98.

[19] 李建国.基于数据流技术的电信网络异常检测模型研究[J].电子信息与计算机科学,2014,11(1):3-5.

AN ANOMALY DETECTION ALGORITHM BASED ON THE INDEPENDENTTRAFFIC STATIONARY MODEL

Fei Jinlong Cai Jing He Xinzheng Zhu Yuefei

(InformationEngineeringUniversity,Zhengzhou450001,Henan,China)

When the link traffic is traversed by many flows, their volume’s changes are short-lived, and such changes tend to cancel each other out, making total changes of link traffic approach to zero. If the flows on the link are independent with each other, total link traffic is stationary. When small and correlated flows present themselves on the link, this stationary state will be violated. Many anomalies meet this feature. Based on this observation, an independent traffic stationary model (iTSM) is provided, and an algorithm to detect single link anomalies is proposed. The simulation validates that the proposed method uncovers single link anomalies better than previous techniques.

Anomaly detection Hypothesis testing Traffic measurement

2016-01-05。国家科技支撑计划项目(2012BAH47B01);信息保障技术重点实验室开放

KJ-14-105)。费金龙,讲师,主研领域:网络与信息安全。蔡靖,本科生。贺新征,博士生。祝跃飞,教授。

TP393.08

A

10.3969/j.issn.1000-386x.2017.03.049

猜你喜欢

链路流量特征
一种移动感知的混合FSO/RF 下行链路方案*
冰墩墩背后的流量密码
离散型随机变量的分布列与数字特征
天空地一体化网络多中继链路自适应调度技术
张晓明:流量决定胜负!三大流量高地裂变无限可能!
寻找书业新流量
浅析民航VHF系统射频链路的调整
抓特征解方程组
不忠诚的四个特征
Efficacy of high-flow nasal cannula on acute exacerbation of chronic obstructive pulmonary disease:A meta-analysis