APP下载

半监督异常流量检测研究综述

2020-12-10李杰铃

小型微型计算机系统 2020年11期
关键词:分类器聚类样本

李杰铃,张 浩

(福州大学 数学与计算机科学学院,福州 350116)(福建省网络计算与智能信息处理重点实验室,福州 350116)

1 引 言

随着下一代蜂窝网络(5G及更高版本)的不断发展,至关重要的是检测并及时处理潜在的网络流量异常情况,以避免涉及网络性能和公共安全的关键问题.网络异常流量检测通过对流量的检测分析判断,可以尽早地发现网络中是否有入侵行为,为网络安全管理提供依据,因此,异常流量检测逐渐成为网络安全领域的研究重点.

现有基于机器学习的异常流量检测方法大多需要利用大量的已标记数据进行训练,如OCSVM(One-Class Support Vector Machine)[1].然而,在实际网络入侵场景中,每条标记数据都需要利用专家知识人工标注,数据标签非常昂贵,从而导致训练的流量数据集规模非常有限,即已标注的数据量较小.有限规模的训练数据集进一步地降低了模型的准确度.同时,由于网络流量数据的分布会随着时间的变化而变化,因此往往会有更多未知攻击类型的数据,并且标记数据所代表的类型是已知的,如果仅仅根据标记数据进行训练,则在检测未知的异常类型时,会导致检测精度不理想.而如果采用无监督方法,则会因为缺乏标签数据的引导造成模型性能差等问题.

在异常流量检测中,获取大量未标记样本相对容易,可以利用大数据技术对每个节点的传感器进行采集.而获取少量标记数据是符合实际的,所以使用少量的标记数据进行指导,以此来充分利用大量未标记数据的半监督学习技术正在获得广泛关注[2].通过Web Of Science平台(www.webofknowledge.com),分别以关键词′Semi-supervised Learning′,′Anomaly Traffic Detection or Network intrusion detection′和′Semi-supervised Learning and(Anomaly Traffic Detection or Network intrusion detection)′为主题进行文献检索,检索时间为2020年06月15日.统计结果发现,无论是半监督学习(图1(a))还是异常流量检测(图1(b)),文献发表数量都逐年递增,而半监督异常流量检测(图1(c))研究体量较少,但是半监督异常流量检测也日益引起学者关注,相关的文献出版量也在逐年提升.

图1 2010年-2020年文献出版数Fig.1 Number of publications from 2010 to 2020

国内外学术界已有半监督技术的相关综述,尚未有对半监督技术在异常流量检测方法上进行总结的文献,本文将对半监督异常流量检测技术的研究现状进行全面综述.接下来第2节论述异常流量检测的特性与关联性;第3节介绍半监督学习方法;第4节介绍半监督学习在异常流量检测中的应用;第5节讨论此研究领域存在的问题,并对研究前景进行展望;第6节总结全文.

2 异常流量检测的特性与关联性

异常流量是指在网络环境中偏离正常流量的情形,一般来说,在不同的网络配置中正常流量和异常流量的定义是不同的[3].异常流量检测是在网络中发现可能存在的异常操作、攻击行为以及寻找非正常预期行为的过程.现阶段的一些研究,如流数据、离群点、数据不平衡、相关的自然语言技术都可应用于具体的网络安全领域中.

2.1 流数据

我们日常生活中的许多现实应用程序都以前所未有的速度生成大量的流数据,如Web单击数据流[4].与传统数据相比,流数据具有以下特点:海量、高维度、动态性、无限增长、高速到达、实时性要求高.流数据可分为动态流和稳定流,稳定的数据流是独立的、同分布的,而动态数据流不是独立的、同分布的,这会导致概念漂移现象.概念漂移意味着目标变量随时间而变化[5].由于网络流量符合以上流数据特性,所以采用流数据模型来描述实际的网络流量,解决现有的异常流量检测模型存在的不足是合适的.现有文献大多利用滑动窗口使异常分数的分配可以随着流数据的变化而变化,以突出显示最近生成的数据.而对于概念漂移问题,有各种解决办法,如分层时间存储(Hierarchical Temporal Memory,HTM)[6],长短期记忆网络(Long Short-Term Memory,LSTM)[7]等.流数据还面临着内存有限和反应及时的挑战,大数据处理系统正在逐渐面向流,已有研究者为不同用例选择正确的流处理框架和多级流分析架构提供指南[8].

2.2 离群点

离群点是显著不同于其他数据分布的数据对象,如异常点、孤立点等.网络流量符合流数据的特性,而离群点中的检测异常点即检测流量中的恶意请求,所以我们可以多关注流数据的离群点检测算法.Ahmad等人[9]将HTM扩展开来,用于流数据的离群点检测.专注于离群点检测的深度学习技术(Deep Anomaly Detection,DAD)也取得了很大进步,DAD模型可分为监督深度异常检测;半监督深度异常检测;无监督深度异常检测.由于离群点大多缺乏大量的标记数据集,因此有监督的深度异常检测应用并不广泛.无监督的深度异常检测通过捕捉数据的内在属性来检测离群点,然而,流量属于复杂的高维数据,这类方法很难捕获数据的内在属性,严重影响检测结果.半监督的深度异常检测,如使用深度自动编码器[10],通过半监督技术训练正常数据集,当数据集足够大时,深度自动编码器可以在正常数据中获得较的高准确率,反之能检测出异常值.未来可以将传统技术与深度学习相结合,提升算法的性能和检测能力.

2.3 数据不平衡

在实际的网络应用中存在着大量不平衡数据,在几万条流量数据里可能仅有一个请求是异常的,数据不平衡程度很容易超过10000∶1.在高度不平衡的数据中进行学习,分类器很容易偏向多数类而忽略少数类[11].不平衡数据集分类可基于数据层面和基于数据挖掘层面.在数据层面将不平衡数据集转换成平衡数据集是人们处理不平衡数据所采用的常用方法,如使用SMOTE结合Tomek Links对数据过采样[12].虽然这些技术直接改变了每个样本的数量,但并不总是有助于生成一个平衡的语料库,因为选定的样本可能包含太多独特的词或很少的词.Kamarudin等人[13]使用混合特征选择,选取具有更大区分能力的特征来强化少数类所起到的作用.Mimura[14]从恶意和良性单词中计算单词重要性分数(Term Frequency,TF),并提取前N个重要单词,通过这种方式,从代理日志中提取重要的单词来总结语料库有效地缓解了类不平衡问题.该方法不需要设计特征向量,并且不改变每个样本的数量.依赖于分类器的数据挖掘算法在解决不平衡问题上也有广泛的应用,如基于半监督学习机制的聚类算法,其简单且可解释性强,但是聚类速度慢,对噪声较为敏感,不适用于大数据样本.基于Boosting的挖掘算法[15],通过加大分类错误样本权重,进而强化权重较大样本的学习,但是可能会出现过拟合的现象,且适用的数据集的不平衡程度不易过大.

2.4 自然语言技术

流量的异常检测归根结底还是基于日志文本的分析,因而可以借鉴自然语言技术中的一些方法思路,进行文本分析建模.一般先使用自然语言处理方法解决流量数据高维复杂性问题或者提取重要信息,然后再通过机器学习或者神经网络学习建立模型和微调模型.异常检测中借鉴自然语言技术比较成功的是基于隐马尔科夫模型[16]的参数值异常检测.此外,随着自然语言技术的发展,越来越多的模型被应用于恶意行为的分类.例如Nagano和Uda[17]提出了一种用段落向量检测未见恶意软件可执行文件的方法,该方法从可执行文件中提取信息头、程序集代码或字节等内容并将它们转换为具有段落向量的特征向量.Miura等人提出了一种检测未见恶意VBA宏[18-20]的方法,该方法使用段落向量和TFIDF(Term Frequency Inverse Document Frequency)模型表示VBA宏的源代码.Mimura[14]从未知代理日志派生段落,用训练好的Doc2vec模型将段落转换为特征向量,Doc2vec可以计算两个文档之间的语义相似性,并从语义上推断出相似的文档.Mimura早期也使用Doc2vec来表示未见的流量[21],并且将其扩展到支持任何协议的通用检测方法[22].

3 半监督学习

半监督学习是同时采用标签和无标签样本数据的机器学习方法,是机器学习领域中比较新兴的方法.其常采用有标签数据改进、变更样本的重要性来探索无标签样本,如图2所示.主动学习和直推学习也是利用未标注数据学习的主流技术[23],他们的目标都是在提高泛化误差的同时尽可能地减少标记数据的花费.其中主动学习依赖于人工干预,而直推学习关注在未标注数据上的预测性能.

图2 半监督学习Fig.2 Semi-supervised learning

Miller等人首先根据数据分布的估计阐述了未标注数据的加入确实可以对分类模型的性能起到正面的促进作用[24].假设样本数据的真实类别标记为y∈Y,Y={1,2,…,C}为所有类别,且样本数据项由C个高斯混合分布构成,每一类对应一个高斯混合成分,如式(1)所示:

(1)

其中,αi≥0;ui和∑i为高斯混合成分参数,p(x|ui,∑i)为样本x属于第i个高斯混合成分的概率.令f(x)∈y表示模型f对样本x的预测结果,Θ∈{1,2,…,C}表示样本x所属的高斯混合分量.由最大化后验概率可得式(2):

(2)

在f(x)中,p(y=j|Θ=i,x)表示样本x由第i阶高斯混合分量产生且类别为j的概率,p(Θ=i,x)表示样本x由第i个高斯混合成分生成的后验概率.可以发现,式(2)中,估计p(y=j|Θ=i,x)需要知道样本的标记,而p(Θ=i,x)不需要知道样本标记.因此,无标记数据和有标记数据都可以利用,当引入更多大量的无标记数据时,对于这一项的估计能够更加准确,所以未标记数据可以辅助提高分类模型的性能.

半监督学习的成立依赖于模型假设,当模型假设正确时,无类标签的样本能够帮助改进学习性能.半监督学习中常用的三个基本假设是光滑假设、聚类假设和流形假设.其中光滑假设是指稠密区域中两个位置相近的样本,其类标签相似.聚类假设是当两个样本在同一个聚类中,它们具有相同的类别.流形假设意味着当两个样品都位于一个低维流形的一个小邻域时,它们的标签应该是相似的.

半监督学习算法主要包含半监督聚类、半监督分类和半监督回归.半监督聚类可以比单独使用无标记样本得到更好的聚类,提高了聚类方法的准确性[25].半监督分类是利用未标记样本训练有标记样本,以获得比仅使用未标记样本训练的分类器性能更好的分类器,从而弥补标记样本不足的缺点.半监督回归主要考虑模型的局部特性,其对应的是流形假设,现阶段半监督回归的研究十分缺乏.其中半监督分类的关注度最高,一方面由于很多实际问题属于分类范畴,另一方面是因为机器学习算法中分类算法研究成果逐渐丰富[26].半监督分类包括生成模型、半监督图算法、支持向量机、自训练和协同训练.

生成模型假设所有数据都是由同一个潜在模型生成的,可直接基于极大似然估计来对参数求解,易于实现,但是如果模型假设不正确会降低泛化性能.半监督图算法将分类学习的问题转化为图的形式,一个样本对应图中的一个结点,若两个样本之间具有较高的相似性,则对应结点之间存在一条边,相似度就转化为边的强度,即将半监督学习问题转化为基于图的标签传播,从而实现了对无标签数据的利用.然而当数据规模变大的时候,图的规模也随之变大,则分类效率会降低.直推式支持向量机算法是半监督支持向量机中的代表算法,该算法采用局部搜索来迭代寻找最优解,在小样本分类问题中表现出了良好的性能,但是模型求解效率低.

自训练和协同训练属于启发式的半监督学习算法,其研究过程不断改进.自训练模型是在学习过程中利用模型自身的预测结果来不断训练更新自己,但一旦模型给出的预测结果有误,就会在后续训练过程中形成误差累积.Co-training协同训练法[27]分别在每个视图上利用有标记样本训练一个分类器,然后,每个分类器从未标记样本中挑选若干标记置信度加入另一个分类器的训练集中,以便对方利用这些新增的有标记样本进行更新,然而协同训练法要求数据具有两个充分冗余且满足条件独立性的视图.Tri-training[28]是一种新的 Co-training 模式,使用三个分类器进行训练,对于相同的未标记的实例,两个分类器具有相同的预测,认为该实例具有较高的标记置信度,在标记后,将其添加到第三个分类器的标记训练集中进行模型重构.即使Tri-training已有较大改进,但是仍然有缺陷,如在模型更新的时候,其采用随机抽样可能导致分类性能恶化,特别是处理不平衡样本时,已标记样本可能具有大量相似的样本或相同的分布,对这类样本集进行随机抽样,会造成样本差异性小,从而降低了分类准确率.

4 半监督学习在异常流量检测中的应用

半监督学习是有监督和无监督技术的结合,其核心问题是如何有效利用无标注数据辅助学习.为缓解实际异常流量检测任务中难以获得大量模块标注这一难题,半监督学习被引入异常流量检测,以利用大量未标注流量样本,提升在少量标记样本的模块上学习建模的性能.半监督异常流量检测的基本流程如图3所示.首先选择部分模块送交网络安全专家,获得每个模块的异常情况标注,然后基于所形成的有标注的流量模块和无标注流量模块进行半监督学习,用于预测新模块的异常情况.

图3 半监督异常流量检测流程Fig.3 Semi-supervised anomaly traffic detection process

第三节介绍了半监督学习主要包含的几种范型,但是根据学习场景的不同,可具体再将半监督类型进行划分.本文从半监督聚类、半监督分类、半监督降维、半监督集成和增量半监督这五个方面对异常流量检测这一特定的学习场景展开评述.其中后三类分别对应流量的数据不平衡性、高维复杂性、实时新增这三个特性,图4展示了相应的研究进展.

图4 半监督异常流量检测研究进展Fig.4 Research progress of semi-supervised anomalytraffic detection

4.1 基于半监督聚类的异常流量检测

半监督聚类综合了有监督学习和无监督学习的优势,提高了聚类的质量,是近几年来机器学习和异常检测领域的重要研究方向之一[29].半监督学习和无监督学习的差异体现在监督信息的使用,其中监督信息主要包括样本的类别标签和成对约束关系[26].K-means是使用最多的半监督聚类方法,其主要思想是将少量标记样本和大量无标记样本混合的训练集聚类成若干不相交的簇,然后通过标记的样本完成簇与类别之间的映射.然而,K-means算法的迭代过程一直沿减小目标函数的方向进行,容易陷入局部最优.Gu等人[30]提出了一种改进的基于密度的初始聚类中心选择方法,以解决k均值聚类的离群值和局部最优问题.

虽然K-means的能够降低标记样本的复杂度,但是其分类准确率低,主要的原因是没有找到最有效的流量特征集.近几年,很多文献在进行半监督聚类之前先进行特征提取或者特征选择.Xu等人[31]引入信息增益率自适应地选取流量特征并进行定量分析,然后利用改进的K-means来标记相似的流量特征.Gu等人[30]提出了一种使用混合特征选择算法(semi-supervised weighted k-means method using hybrid feature selection algorithm,SKM-HFS)的半监督加权k均值方法,以实现更好的检测性能.但是,还有两个值得注意的因素影响模型的鲁棒性,一个是不同类别中网络流量的严重失衡,另一个是特征空间中训练集和测试集之间的不相同分布.Yao等人[32]提出了一种分层半监督k均值算法的多层入侵检测模型框架,旨在找出所有纯集群,以解决这些问题.表1总结了上述几种典型方法的优缺点.

表1 基于半监督聚类的异常流量检测Table 1 Anomaly traffic detection based on semi-supervised clustering

除此之外还有很多半监督聚类算法在流量异常检测领域中引起关注.Ashfaq等人[33]使用模糊量对未标记样本进行分类,将每个类别分别合并到原始训练集后再对分类器进行训练.Usha等人[34]先使用独立的度量标准归一化增益对特征进行排名,然后采用基于粒子群优化的半监督聚类方法进行入侵检测.Shailendra等人[35]使用半监督模糊c均值(Fuzzy C-Means,FCM)处理标记数据问题,并使用极限学习机(Extreme Learning Machine,ELM)算法提供良好的泛化性能.

4.2 基于半监督分类的异常流量检测

已有的半监督分类算法可以分为5类,包括自训练、基于分歧的半监督学习、半监督支持向量机、生成式的半监督学习和基于图的半监督学习[26].其中前3种类型比较适用于网络流量特点,而后两种不加优化的话往往会影响流量检测的效率和准确度.

自训练半监督是早期利用无标记样本的原始框架,其训练效果较好,且实现简单.Wagh等人[36]提出半监督自学习模型,他们的结果证实使用原始标签数据的准确性进一步决定是否将新的未标签数据输入到下一个迭代中,是提高半监督学习性能的有效方法.基于分歧的半监督学习方法也称为协同训练,其使用具有不同学习算法的多个基本分类器来给未标记数据提供标注,然后选择未标记数据中置信度高的样本进行利用.Li等人[37]采用基于分歧的整体协同训练算法开发了一种实用的基于多视图的误报减少系统,通过共同训练,一个视图生成的分类器可以“教”从其他视图构建的其他分类器学习,反之亦然;并且通过共识训练,从多个角度进行的预测可以为未标记的数据提供更高的置信度.半监督支持向量机具有良好的泛化能力和稳定性,且适用于非线性数据集的建模.Mousavi等人[38]提出了一种新颖的拉普拉斯孪生支持向量机分类器在线版本,它可以利用嵌入在未标记数据中的边际分布的几何信息,在网络入侵检测中取得了理想效果.半监督分类关注度最高,相应的研究也非常多,更多基于半监督分类的异常流量检测方法如表2所示.

表2 基于半监督分类的异常流量检测Table 2 Anomaly traffic detection based on semi-supervised classification

生成式的半监督学习,其适用于特征相对简单以及维度不高的场景,不符合网络流量特征复杂和高维度的特性,目前还很少有将其应用到异常流量检测领域中的相关文献.基于图的半监督方法定义了一个图,在该图上,节点表示带标签的示例和未带标签的示例,并且边反映了示例之间的相似性.但是基于图的算法需要很高的空间复杂度,对网络流量异常检测系统而言效率不高.

4.3 基于半监督降维的异常流量检测

实际网络流量维数较高,高维向量使得异常流量检测的计算量显著增加,无法应用于具有较高实时性和准确性的异常流量检测模型,且学习算法通常无法很好地处理此类数据,因此提出了降低数据维数的挑战.半监督降维技术兼具无监督降维和有监督降维的优点,节省了大量的样本标注工作量,具有与降维前相当的虚警率和准确率.贾伟峰等人[39]提出了一种基于半监督降维技术和BP神经网络的入侵检测方法,构造一个变换矩阵,将高维向量投射到低维空间,使其满足主成分最大化、类间距最大化和类内间距最小化.该方法在降低维数的前提下,可以保持检测性能和提升运算速度.冶晓隆等人[40]使用主成分分析和禁忌搜索来减少高维特征空间冗余以及选择最优特征,然后结合最短距离划分决策树(Min-Distance Decision Tree,MDDT)进行半监督学习,实现了异常检测的实时性和高准确率,但是该算法没有将无标记数据和有标记数据结合使用.现有半监督降维技术所使用的监督信息大多为标签信息或者成对约束信息,只适用与离散变量,不适用于连续变量.且当网络流量数据为高维稀疏样本时,容易受微小扰动的影响.

半监督学习过程本身会增加模型训练时间,需要一种有效而合理的降维方法来减轻计算机的计算负担,除此之外,降维还为有效和清晰的数据可视化提供了有用的基础.现阶段在异常流量检测这一特定领域的半监督降维研究还相对较少,但是大范围内针对半监督降维方法的研究成果还是比较丰富.传统的监督降维方法通常可以在大量样本的前提下通过特征选择或者特征提取建立更好的模型.但是,在缺乏标签数据的现实世界中,由于过度拟合,传统方法的性能往往较差.在这种情况下,未标记的样本可能有助于改善性能,同时利用这些有标记的数据和无标记的数据可以有效地对多维数据进行降维.表3列举了半监督降维学习的相关模型,其中前三个模型为当前最新的有价值意义的半监督降维算法,后两个模型为半监督降维与其它算法的优势结合,希望此分析能为后续研究者将相关半监督降维方法应用于异常流量检测提供帮助.

表3 半监督降维方法的对比分析Table 3 Comparative analysis of semi-supervised dimensionality reduction methods

4.4 基于半监督集成的异常流量检测

基基于分歧的半监督学习是半监督集成学习的起源,使半监督学习和集成学习的交叉研究日益丰富[51].网络流量数据种类繁多,只训练了足够多的未标记样本,但没有多个学习器,学习器不能做得足够好,而只有多个学习器集成学习但无额外无标记样本也不能取得理想的检测效果.半监督学习可以解决集成学习标记样本量不足的问题,也可以增加学习器在集成学习中的多样性,而集成学习可以降低半监督学习的泛化误差,加快其收敛速度,最重要的是可以减少类不平衡对预测产生的偏倚.所以半监督和集成学习可以有机结合,互相帮助.

根据不同的组合方法,半监督集成可分为基于半监督的集成学习和基于集成的半监督学习,若最终用来预测标签的学习器是单一学习器,则为基于集成的半监督学习,否则为基于半监督的集成学习[51].两种类型的训练过程如图5所示.

图5 半监督集成训练过程Fig.5 Semi-supervised integrated training process

Omar等人[25]提出了一种用于网络入侵检测和预防任务的半监督多层群集模型(Semi-supervised Multi-Layered Clustering Model,SMLC),他们建立三个不同的分类器,然后使用部分标记的集群中的未标记实例来细化这三个分类器,最终的结果是通过三个基分类器的所有个体决策中的多数表决产生的.Khonde等人[52]使用五个分类器:随机森林,支持向量机,人工神经网络,决策树和K最近邻进行半监督学习.所有分类器根据获得的平均分数缩小特征,然后比较五个分类器生成的结果,并使用加权多数投票算法确定流量数据包的类别.Gao等人[53]提出了一种基于整体学习的基于模糊性的半监督学习方法(fuzziness-based semi-supervised learning approach via ensemble learning,FSSL-EL),首先构建了一个由标记数据训练的集成系统,然后采用基于模糊性的方法进行数据分析以更好地利用未标记的数据.表4列出了半监督集成不同类型方法的对比分析,其中Tri-training可以采用3个学习器综合预测,或者采用其中一个学习器进行预测,但是从该方法的训练过程和最初的设计想法,可以认为它是基于集成的半监督学习.

表4 基于半监督集成的异常流量检测Table 4 Anomaly traffic detection based on semi-supervised integration

4.5 基于增量半监督的异常流量检测

对于当前的计算智能技术,主要挑战是如何在不断变化的环境中学习新概念.面对持续增加的网络流量数据,在初期获得一个完备的流量样本训练集难以实现,这就要求半监督分类器可以随着新流量样本的积累不断提高学习精度,所以增量学习能力不可或缺.增量学习是指能够从新的样本中不断地学习新的知识,并且能够保存大部分已经学习过的知识.增量学习算法还具备以下特点:

1)能够从新的数据中学习新的知识;

2)以前处理过的数据不需要重复处理;

3)每次只能学习一个训练观察样本;

4)新的知识可以在学习大部分以前学过的知识的同时保存下来;

5)学习完成后,丢弃训练观察样本;

6)学习系统没有关于整个训练数据集的先验知识.

增量半监督有效地解决了因出现新样本而造成原分类器精度降低、分类时间延长的问题.Xiang等人[54]提出了一种结合了自组织增量神经网络,非线性建模和半监督学习的算法,它能够在新数据上更新学习的模型且该算法的空间复杂性降低到类似于监督学习的程度.Fakhroddin等人[55]使用增量聚类提出一种新的半监督流分类算法,可以直接支持混合数据,但是其聚类结果依赖于样本计算的顺序.Zhang等人[56]提出了一种适用于训练解码器和更新分类器参数的半监督增量更新算法.该算法可提供与常规监督训练方法相同的检测性能,但是深度架构的复杂度较高,需要使用基于GPU的计算设备,以在网络流量或模型复杂度增加时加快并行计算速度.

5 半监督异常流量检测趋势与展望

5.1 半监督异常流量检测存在的问题

到目前为止,基于半监督学习的异常流量检测技术取得了很大的进步,已能初步解决标注样本少、数据种类繁多等特点的流量检测问题和应用,但是依然存在以下问题:

1)半监督学习过程会增加模型训练时间,在实时的异常流量检测中不可行;

2)复杂的流量数据中半监督模型的参数较多,结果不稳定;

3)虽然已有不平衡数据下的半监督方法,但是鲜有应用于网络安全领域的异常检测,且现有的成果多为解决二分类的不平衡数据集,没有针对多分类不平衡问题的研究;

4)混合的半监督学习方法存在一定的缺陷,只能满足特定的网络环境,缺乏适合多环境的半监督异常检测技术;

5)使用半监督方法进行异常检测的文献即使使用同一个基准数据集,也大多没有说明标记数据量大小或者标记比例,甚至连训练和测试集大小以及评价指标也都不一样,不同的度量组合,使得研究结果无法相互比较;

6)现有的半监督降维算法不适用于连续变量和高维稀疏样本.这些都制约了网络流量异常检测中半监督技术的进一步发展.

5.2 半监督异常流量检测研究方向

基于现阶段网络流量异常检测中半监督技术的研究现状和上述问题,半监督流量检测所面临的挑战和未来研究方向主要概括为如下几个方面:

1)流量数据往往特征维度高,采样方法中的欧式距离不能很好地衡量样本的空间分布.监督学习和半监督学习的数据分布环境不同,在不平衡数据下,现有的半监督方法大多是将传统的解决不平衡的方法应用于半监督学习当中,因此,解决不平衡问题的传统方法不一定适用于半监督学习,需要进一步研究.虽然数据不平衡的研究在网络安全领域取得了很好的效果,然而半监督学习中的不平衡问题相关研究非常少,应用于异常流量检测领域中的半监督方法大多采用集成学习解决类别不平衡,未来可以在半监督下结合数据不平衡领域的最新成果来解决异常流量检测.

2)目前很多网络流量的特征选择和提取局限于一维特征或者多维特征的简单组合,而流量异常通常表现在多维特征中.如何有效地将多维特征进行融合,多角度共同学习数据流特征,并利用少量标记数据进行半监督集成算法综合结果来减少信息损失是一个有挑战的研究课题.

3)综合利用大量无标记数据和少量标记数据的半监督降维方法是异常流量检测领域中可行的降维手段,如何找出更有效的方式来应对高维稀疏样本和连续变量,进一步提升检测模型的实时性,具有十分重大的意义.

4)主动学习与半监督学习策略相结合的学习效果优于单一方法的学习效果,将半监督学习与主动学习结合,可以主动发现有效的监督信息.通过有效的监督信息可以更好地使用未标注的样本数据,从而提高模型精度和求解速度.然而半监督学习和主动学习相结合的研究工作还不多见,具有较大的提升空间.

5)增量半监督更符合实际的异常流量检测,它在训练过程中充分利用了之前处理过的数据结果,应该在网络安全领域有更多深入的研究,未来可以考虑将自然语言技术的相关增量算法引用到具体的异常检测中.

6)半监督聚类算法由传统聚类算法引入监督信息来完成半监督学习,所以还可以对密度聚类、谱聚类等聚类算法进行半监督的扩展.此外,有些流量数据是高维稀疏类型的,然而现有大多数聚类算法不适合处理高维稀疏数据,以后的研究中,有必要做进一步讨论.

7)一般来说,通过使用未标记数据,半监督学习可以帮助提高性能,特别是当标记数据的数量有限时.然而在某些情况下,选取了不可靠的未标记数据,则可能会错误地指导分类边界的形成,最终导致半监督学习性能退化.因此,如何安全地利用未标记数据,是未来的一个研究重点.

8)可以将多种半监督异常流量检测方法和技术相结合,从而实现更高效的网络流量数据检测和获得更准确的预测结果.另外,在进行半监督异常流量检测时,尽可能地减少对网络的额外影响也是一个有挑战的研究课题.

6 结束语

机器学习在异常流量检测领域面临诸多挑战,最大的困难是缺乏标签数据.在实际中,只有有限数量的标记数据可用,而大多数数据是未标记的.除此之外,尽管有大量的正常访问数据,但异常流量样本稀少,且攻击形式变化多样,对模型的学习和训练造成困难.半监督学习是一种有效的解决方案,既能利用无标记数据,又能利用有标记数据,可以缓解此问题.本文总结了半监督异常流量检测方法近年来的研究进展,重点讨论了与半监督结合的一些实际应用需求、数据特点和最新成果,并对将来的一些研究工作进行了讨论.进一步探究面向网络流量的半监督学习技术,对于研究和发展异常流量检测和网络空间安全具有重要意义.

猜你喜欢

分类器聚类样本
一种傅里叶域海量数据高速谱聚类方法
少样本条件下基于K-最近邻及多分类器协同的样本扩增分类
学贯中西(6):阐述ML分类器的工作流程
基于知识图谱的k-modes文本聚类研究
一种改进K-means聚类的近邻传播最大最小距离算法
基于朴素Bayes组合的简易集成分类器①
基于模糊聚类和支持向量回归的成绩预测
规划·样本
人大专题询问之“方城样本”
基于AdaBoost算法的在线连续极限学习机集成算法