一种基于QoS特征的多媒体业务区分方法
2019-12-24王再见张有健
王再见,张有健
(安徽师范大学 物理与电子信息学院,安徽 芜湖 241000)
0 引言
依据QoS(Quality of Service)特征,实时、准确地区分多媒体业务所属QoS/业务类,是在泛在异构网络中,实施QoS/业务类水平映射等网络QoS保证操作的前提。目前,尽管网络业务流识别已取得较多的研究工作,但基本针对特定的业务或协议(如P2P等),面向异构网络QoS/业务类的多媒体业务识别存在不足。多媒体业务包含用户行为、用户间交互、信道特征、应用和协议、用户需求及业务内容等大量内在信息,业务特征多样,常占用大量带宽,对其进行实时准确识别愈加困难[1]。当多媒体业务在异构网络环境运行时,不同网络类型是按照业务QoS需求,基于不同的QoS/业务类,提供有差异的QoS保证,因此,在实施QoS/业务类水平映射等端到端QoS操作时,面向QoS/业务类,选取有效、可行的QoS属性作为区分特征,以提高区分的实时性和准确性,比单独区分协议或业务更有意义。
传统的业务识别/分类方法或依赖于不同业务所使用的端口,或基于IP包有效载荷中特征字对业务流进行识别/分类。基于端口的方法简单,但准确率低。基于有效载荷内容的方法准确度高,但很复杂,可扩展性差,而且涉及法律问题(有些内容加密、有些协议是私有的不公开,找不到特定标识)。由于上述传统方法在加密、端口动态、协议私有及隐私保护方面考虑不足,一些数据挖掘技术或机器学习技术目前得到了广泛的应用,它们认为网络业务可以由一组主机/网络行为或流水平的统计特征描述,机器学习技术可自动搜索结构模式,以对业务流进行识别/分类[2]。机器学习方法克服了传统方法中端口动态和隐私保护问题,受到了越来越多的关注。其中基于隐马尔可夫模型(Hidden Markov Model,HMM)的流识别方法由于实现简单,目前得到广泛应用[1,3],但在QoS/业务类区分效果上存在不足,部分原因在于基于HMM识别方法,同众多数据挖掘和机器学习方法一样,区分的准确度依赖于所选取的区分特征。因此,面向QoS/业务类,依据QoS特征,提高HMM区分多媒体业务的性能,是执行QoS/业务类水平映射等网络操作所面临的挑战。
1 相关工作
由于区分特征选择的合适与否,对提高流识别/分类算法的准确度有重要影响,近年来,相关研究人员在识别/分类网络业务时,对多种业务区分特征进行研究,一般分为包水平特征和流水平特征。① 包水平特征:常用于微观层次的细粒度测量,检测每一个包的详细信息,传统的业务识别/分类方法常选取地址、端口、协议号和特定的应用数据,但存在准确度低和涉及隐私问题,而在典型的数据挖掘和机器学习算法中,包大小和包到达时间间隔是使用最广泛的区分特征[3-7],但由于具有不同QoS需求的多媒体业务,在包大小分布上有高度相似性,且包到达时间间隔受网络环境影响较大,面向QoS/业务类区分多媒体业务存在不足;② 流水平特征:用于宏观层次的测量,需要聚集规则将包匹配到流。使用的特征包括单位时间内流的数目、流的比特率、流大小和流持续时间。但很多特征区分的有效性不足,如Flash流大多会影响流计数的波动。
文献[3-7]都是基于包水平特征区分业务。文献[3]基于包水平信息,利用HMM模型识别P2P业务。PLGMM-HMM(Guassian Mixture Model Hidden Markov Model)分类算法[4]通过包间时间和载荷大小建立PLGMM-HMM,然后通过计算F-Measure值构造评估函数和区分业务。基于HMM模型的包分类算法[5]将包大小的分布作为HMM的每个状态。张剑等人提出基于密度的在线噪声空间聚类算法[6],使用包大小等参数对数据流进行识别。文献[7]认为包大小和包间到达时间间隔是2个典型的描述业务流的参数,通过一个熵函数建立包大小的模型,完成业务流行为的特征分析。但实际数据分析表明,不同QoS需求的业务有相似的包大小,而同种类型业务的包大小分布也可能不同,包大小、包到达时间间隔作为区分特征,很难完全区分业务。相关文献尚缺乏对上述特征的深入分析,具有局限性。
文献[8-11]都是基于流水平特征区分业务。文献[8]提出一种增强型递归流分类算法,使用了流水平的特征信息,但强调的是数据结构没有深入讨论识别特征问题。文献[9]基于流持续时间、平均包大小等统计量,采用基于业务流特征的机器学习识别方法,其基本思想是基于业务流特征,通过使用机器学习的方法对HTTP视频应用进行分类。借助机器学习的行为算法(Behavioral Algorithm)[10],利用Netflow记录进行业务分类。Netflow以流记录(Flow-Records)的形式报告网络业务的聚集信息。文献[11]基于流水平,利用机器学习设计了准确、可扩展的业务识别系统。流水平特征需要聚集规则将包匹配到流,受到较多因素的影响,准确描述很困难。
此外,文献[12]综合使用了包水平和流水平的信息,对游戏业务进行区分,提出新的基于简单决策树的分类方法——可选择决策树(Alternative Decision Tree,ADT),该方法利用了游戏应用统计的业务特征。文献[13]综合使用流特征和行为特征区分P2P IPTV业务。文献[14]以基于端口的方法为基础,通过移动至应用协议插入头部的位置进行验证,只要验证一个流中第一个包的少数几个字节就能成功进行业务分类。文献[15]基于对文本信息和加密信息的观察,提出利用连续比特的信息熵区分业务,但对连续比特的选取有较高要求,否则易受到网络因素的影响,从而降低区分效果。
文献[16]采用无监督k均值和期望最大化算法,基于二者之间的相似性对网络流量应用进行聚类。文献[17]中创建了一个分布式支持向量机(SVMs)框架,使用Hadoop对网络流量进行分类。文献[18]提出了一种基于冗余窗口的最优特征子集发现算法进行特征选择,该算法利用生长算法发现相关特征,利用收缩算法剔除冗余特征,大大提高了算法的效率。文献[19]介绍了一种在监督环境下选择区间值特征的新特征排序准则,引入的特征排序准则适用于单变量区间值数据,每个特性都使用建议的排名标准进行评估并与一个分数相关联。文献[20]采用序列前向选择(SFS)、序列后向选择(SBS)和加L-R特征选择方法嵌入判别比(FDR),对网络流量进行分类。文献[21]利用小波前导多重分形模型(WLMF)从业务流中提取多重分形特征来描述业务流,将基于主成分分析的FS方法应用于这些多重分形特征中,去除不相关和冗余的特征。
总而言之,尽管有很多对业务识别问题的研究,选择的区分特征也很多,但由于多媒体新业务不断出现,所采用的新技术使得传统方法依然难以较好地解决识别问题,事实上目前尚没有评估识别/分类方法准确度的基准,对其进一步的分析研究依然很有必要。
2 业务流识别和QoS/业务类区分的问题描述及机理分析
可见业务流识别和QoS/业务类区分都是通过选取合适区分特征构成规则C,将业务从业务集中区分出来,由于业务流识别是M维的分类问题,因此,很难在空间复杂度和时间复杂度上同时获得最佳,而降低区分维数是降低解决问题复杂度的有效途径。由于K≪N,因此,可以利用QoS特征提高分类准确度,有利于减少计算的时间和空间复杂度。
3 基于HMM模型的多媒体业务QoS类区分和聚集框架
如图1所示,具体业务区分和聚集过程为:① 获取区分特征。要求所选取的区分特征既容易获得,又有利于提高业务区分的有效性。选取的区分特征可以通过标准网络设备获取,具有较好的通用性和实用性。而在众多特征中选取有利于提高区分有效性的特征,需要选取当前流行的多媒体业务,对主要的区分特征进行分析,具有较好的典型性。② 基于HMM区分。基于HMM较好的识别效果,本文采用HMM进行区分。重点是特征选择,故选取典型的HMM进行QoS类区分。针对每一个QoS类,本文选取其对应的典型业务进行训练,以获得其相应的HMM模型;③ 聚集业务流形成聚集流。由于属于同一种QoS类的业务流,具有相同或相近的QoS要求,本文聚集具有相同或相近QoS要求的业务流,形成聚集流,并赋予全局唯一的标签;④ 完成映射。根据QoS空间的投影关系,确定标签对应的聚集流所归属的QoS类,这是下一步工作。
图1 基于HMM模型的多媒体业务流QoS类区分和聚集框架
4 典型特征分析及选择
目前在通信业务中占据较大份额的多媒体业务具有较高的QoS要求。在典型的网络中(如UMTS(Universal Mobile Telecommunication System)和 WiMAX2(Worldwide Interoperability of Microwave Access 2))都有相应的QoS类支持区分服务。而目前典型的业务区分方法主要区分协议和应用,对QoS保证考虑不足,忽略了QoS属性的全局特性,即多媒体业务在不同网络中流特征是变化的,但用户接收的QoS由最差的网络决定。因此,从QoS角度分析多媒体业务特征,基于QoS特征区分QoS类具有重要意义。
基于典型性和可实现性的考虑,本文在实验室使用Wireshark捕获4种多媒体业务:QQ、标清流媒体(592*252)、高清流媒体(768*326)和游戏。QQ为目前流行的即时通信工具,标清流媒体和高清流媒体是从优酷视频随机获得,游戏为欧美3D动态网游《时空裂痕》。这4种业务具有较高QoS需求,目前较流行,但是在不同QoS域中属于不同的QoS类。如在UMTS中,QQ和游戏属于会话类,标清流媒体与高清流媒体属于流媒体类。在WiMAX2 中QQ属于UGS(Unsolicited Grant Service)服务类,游戏属于AGP(Adaptive Granting and Polling Service)服务类,标清流媒体与高清流媒体属于rtPS(Real-time Polling Service)服务类。捕获数据时,接收端利用Wireshark分别独立捕获4种业务的数据流。捕获数据过程中,发送端源端持续发送业务流。以下给出4种多媒体业务,在近10 min内几种典型特征的统计分布情况。
4种业务包大小分布归化后的分布情况如图2所示。由图2可知,高清流媒体业务(Streamchaoqing)和游戏在包大小分布的指标上相近,小包和大包的分布较均衡。而QQ视频业务中小于100 Byte的小包最多(达到近80%),超过1 300 Byte的大包较少(不到5%)。标清流媒体业务有超过85%的包大于1 300 Byte,在小于100 Byte的小包分布上,标清流媒体业务与高清流媒体业务及游戏相近。可以得到以下结论:包大小在区分QQ和标清流媒体业务时,具有较好的区分效果,但区分游戏和高清流媒体业务的效果较差。此外,标清流媒体和高清流媒体在包大小分布具有较明显的差异,尽管流媒体内容相同(仅选取的分辨率不同),也被归为2个不同的类别。而在UMTS等网络域中,流媒体常归属为同一种QoS类。可见,包大小特征不适合用于QoS类的区分。
图2 4种典型业务的包大小分布
4种业务包到达时间间隔对数分布如图3所示。由图3可知,标清和高清流媒体业务具有相近的到达时间间隔分布,且到达时间间隔高于QQ与游戏业务,这是由于QQ与游戏属于交互式实时业务,其对时间的QoS要求高于流媒体业务,符合各类型网络QoS类的区分。此外,游戏的到达时间间隔明显小于QQ业务,与WiMAX2中的QoS分类一致。考虑到提供不同业务的服务器可能分布于不同网络,数据包所走的路径并不一样,且在实际网络中很难准确获得各业务流路径信息。此外,网络中存在分组丢失、乱序和重传等因素,也影响了包到达时间间隔分布。因此,依据到达时间间隔分布区分具体业务具有局限性。鉴于业务的端到端QoS性能,由传输路径上众网络节点中提供最低QoS指标的节点决定,因此,执行域间QoS类映射时,依据当前的包到达时间间隔区分QoS类,较区分业务更为合理。
图3 4种业务包到达时间间隔对数分布
4种业务归化吞吐量对数分布如图4所示。由图4可知,高清流媒体业务的吞吐量波动较大,这是由于高清多媒体业务对带宽要求较高,当网络负荷轻时,高清多媒体得以高速传输,此时有较大的吞吐量。但当网络负荷重时,高清流媒体服务处于等待状态,此时吞吐量近乎为零。
图4 4种业务归化吞吐量对数分布
需要说明的是,在一定时间段内,这种不稳定的情况也影响了包大小分布的统计,在业务区分时需要考虑这一情况。标清流媒体业务吞吐量较高清多媒体业务稳定,这是由于标清流媒体对带宽要求低于高清流媒体业务。由于流媒体业务允许缓冲,可以看到其吞吐量在时间轴上出现断续现象,当吞吐量为零时,说明流媒体处于缓冲状态。QQ和游戏业务的吞吐量较低、波动平稳,这是由QQ和游戏业务对带宽需求较低,但对延时要求较高的特点决定的。但从吞吐量指标上,无法对QQ和游戏业务进行区分。
在抖动方面,抖动也可以作为一个重要的区分特征。一般来说,QQ和游戏的抖动要求高于流媒体,游戏业务的抖动最小,标清流媒体最大,且相对稳定。而高清流媒体和QQ视频的抖动分布相近,但也相对集中。
综上可以得出不同特征在区分4种业务时的特点,如表1所示。
表1 4种业务在4个特征下的分布状况
5 基于HMM的多媒体业务QoS类区分方法
首先将采集的业务流特征序列统计处理,将经处理后得到的特征向量当作观测值,为每一类业务拟合一HMM;然后计算各类业务在不同模型下的产生概率;最后对特征进行聚类划分并构造和训练各类应用的分布模型。上述过程采用典型的基于HMM的流识别算法[4],算法流程如图5所示。
详细描述如下:
① 初始化:依据特征分析结果,为每类业务设计一个HMM模型。
② 聚类分析:采用K均值(K-means)聚类算法对QoS特征进行动态聚类。K均值算法选定初始聚类中心,按类内距在特征空间距离最小,类间距在特征空间距离最大的原则进行聚类。
④ 判决输出:将提取的未知多媒体流QoS特征序列依次输入每个HMM,分别计算各个模型产生该观测序列的概率,然后根据最大似然准则,选择概率最大的模型作为最合适该观测序列的模型。
6 仿真实验
目前,尽管HMM在网络业务流识别中已进行较多的研究工作[3-5],但区分的粒度不一致,区分特征有差异,区分目标不相同,且由于没有基准的数据集可用,所使用的训练/测试数据集相差较大,且很难获得,给算法性能评估带来困难。鉴于本文主要关注基于QoS特征区分多媒体业务,所以使用Wireshark从实际网络中捕获几种典型的多媒体业务数据,作为样本流,用于评估本文所选特征和文献[3-5]中所选取区分特征的识别性能。
由于游戏、即时通信和流媒体在目前网络业务中占据较大的份额,本节选择4类流行的多媒体业务:即时通信类、标清类流媒体、高清类流媒体和游戏类业务,分别为它们建立HMM以识别其业务流,并与已有识别方法文献[3-5]进行比较。即时通信类由QQ和MSN业务组成,通过Wireshark在实验室获取。游戏类由《时空裂痕》和《三国》组成,由 Wireshark在实验室获取。标清类流媒体和高清类流媒体则是从优酷网站随机获得。
6.1 实验环境及方法
校园网通过100 Mbit/s光缆与CERNET连接,测试主机的CPU为 AMD Athlon(tm) X2 DualCore QL-64,主频2.1 GHz,内存大小为1 GB。在校园网内设置各应用的客户端,在测试阶段分别独立运行。运行Wireshark捕获分组,得到包括前100 Byte应用层数据在内的分组信息。为了比较分析HMM的识别能力,使用人工结合Wireshark捕获的分组信息和各业务客户端运行信息,基于端口、特征字和业务流特征,以离线方式识别分组流所属应用,并假定人工分析的结果是正确的。
6.2 创建HMM
在校园网中采集样本流并进行人工识别,将已识别的流分为训练样本和离线测试样本,其统计信息如表2所示。针对样本,依据经验,设置HMM的状态数目为N=4,每个状态对应的观测值数目M=3(高、中、低),即对所有多媒体业务QoS特征抖动和吞吐量,利用K平均聚类算法聚成3类。利用训练集为不同业务类型构造独立的HMM。
表2 样本统计信息
为了考察特征对QoS类区分的影响,分别采用上面特征分析中的不同特征组合进行区分,结果如表3所示。
表3 本文方法与文献[3-5]方法在区分QoS类有效性上的对比
由表3可知,在现有数据集下,本文选取的区分特征为吞吐量和抖动时,4种业务的区分准确度较高,而现有方法选取区分特征为包大小和包到达时间间隔时,业务区分效果较差。
综上可知,对基于QoS/业务类的应用(如QoS/业务类水平映射、异构网络端到端QoS保证及网络资源优化等),现有的业务流识别方法在特征选择上区分效果不足,基于业务的QoS特征区分业务更为合理,这是因为QoS指标直接影响用户体验,关系到业务能否被用户接受,体现业务最本质的要求。
7 结束语
目前,随着新业务的大量出现和网络吞吐量的急剧增加,QoS/业务类区分的紧迫性已愈来愈为人们所认识,通过QoS/业务类区分来为相关网络操作提供保证,是当前网络在市场和技术双重驱动下的发展趋势。本文提出从QoS特征角度区分典型应用,实现业务类别的区分;基于新发现的QoS特征,设计了一种新的基于HMM的多媒体业务类区分方法。由于QoS/业务类区分是一个长期演进、复杂而庞大的问题,相关研究也处于不断发展的阶段,一些其他关键问题,例如,统一的识别策略建立、业务流模式自学习等问题,还需要今后进一步深入的研究。
猜你喜欢
——日晕