APP下载

一种基于QoS特征的多媒体业务区分方法

2019-12-24王再见张有健

无线电通信技术 2019年1期
关键词:清流区分文献

王再见,张有健

(安徽师范大学 物理与电子信息学院,安徽 芜湖 241000)

0 引言

依据QoS(Quality of Service)特征,实时、准确地区分多媒体业务所属QoS/业务类,是在泛在异构网络中,实施QoS/业务类水平映射等网络QoS保证操作的前提。目前,尽管网络业务流识别已取得较多的研究工作,但基本针对特定的业务或协议(如P2P等),面向异构网络QoS/业务类的多媒体业务识别存在不足。多媒体业务包含用户行为、用户间交互、信道特征、应用和协议、用户需求及业务内容等大量内在信息,业务特征多样,常占用大量带宽,对其进行实时准确识别愈加困难[1]。当多媒体业务在异构网络环境运行时,不同网络类型是按照业务QoS需求,基于不同的QoS/业务类,提供有差异的QoS保证,因此,在实施QoS/业务类水平映射等端到端QoS操作时,面向QoS/业务类,选取有效、可行的QoS属性作为区分特征,以提高区分的实时性和准确性,比单独区分协议或业务更有意义。

传统的业务识别/分类方法或依赖于不同业务所使用的端口,或基于IP包有效载荷中特征字对业务流进行识别/分类。基于端口的方法简单,但准确率低。基于有效载荷内容的方法准确度高,但很复杂,可扩展性差,而且涉及法律问题(有些内容加密、有些协议是私有的不公开,找不到特定标识)。由于上述传统方法在加密、端口动态、协议私有及隐私保护方面考虑不足,一些数据挖掘技术或机器学习技术目前得到了广泛的应用,它们认为网络业务可以由一组主机/网络行为或流水平的统计特征描述,机器学习技术可自动搜索结构模式,以对业务流进行识别/分类[2]。机器学习方法克服了传统方法中端口动态和隐私保护问题,受到了越来越多的关注。其中基于隐马尔可夫模型(Hidden Markov Model,HMM)的流识别方法由于实现简单,目前得到广泛应用[1,3],但在QoS/业务类区分效果上存在不足,部分原因在于基于HMM识别方法,同众多数据挖掘和机器学习方法一样,区分的准确度依赖于所选取的区分特征。因此,面向QoS/业务类,依据QoS特征,提高HMM区分多媒体业务的性能,是执行QoS/业务类水平映射等网络操作所面临的挑战。

1 相关工作

由于区分特征选择的合适与否,对提高流识别/分类算法的准确度有重要影响,近年来,相关研究人员在识别/分类网络业务时,对多种业务区分特征进行研究,一般分为包水平特征和流水平特征。① 包水平特征:常用于微观层次的细粒度测量,检测每一个包的详细信息,传统的业务识别/分类方法常选取地址、端口、协议号和特定的应用数据,但存在准确度低和涉及隐私问题,而在典型的数据挖掘和机器学习算法中,包大小和包到达时间间隔是使用最广泛的区分特征[3-7],但由于具有不同QoS需求的多媒体业务,在包大小分布上有高度相似性,且包到达时间间隔受网络环境影响较大,面向QoS/业务类区分多媒体业务存在不足;② 流水平特征:用于宏观层次的测量,需要聚集规则将包匹配到流。使用的特征包括单位时间内流的数目、流的比特率、流大小和流持续时间。但很多特征区分的有效性不足,如Flash流大多会影响流计数的波动。

文献[3-7]都是基于包水平特征区分业务。文献[3]基于包水平信息,利用HMM模型识别P2P业务。PLGMM-HMM(Guassian Mixture Model Hidden Markov Model)分类算法[4]通过包间时间和载荷大小建立PLGMM-HMM,然后通过计算F-Measure值构造评估函数和区分业务。基于HMM模型的包分类算法[5]将包大小的分布作为HMM的每个状态。张剑等人提出基于密度的在线噪声空间聚类算法[6],使用包大小等参数对数据流进行识别。文献[7]认为包大小和包间到达时间间隔是2个典型的描述业务流的参数,通过一个熵函数建立包大小的模型,完成业务流行为的特征分析。但实际数据分析表明,不同QoS需求的业务有相似的包大小,而同种类型业务的包大小分布也可能不同,包大小、包到达时间间隔作为区分特征,很难完全区分业务。相关文献尚缺乏对上述特征的深入分析,具有局限性。

文献[8-11]都是基于流水平特征区分业务。文献[8]提出一种增强型递归流分类算法,使用了流水平的特征信息,但强调的是数据结构没有深入讨论识别特征问题。文献[9]基于流持续时间、平均包大小等统计量,采用基于业务流特征的机器学习识别方法,其基本思想是基于业务流特征,通过使用机器学习的方法对HTTP视频应用进行分类。借助机器学习的行为算法(Behavioral Algorithm)[10],利用Netflow记录进行业务分类。Netflow以流记录(Flow-Records)的形式报告网络业务的聚集信息。文献[11]基于流水平,利用机器学习设计了准确、可扩展的业务识别系统。流水平特征需要聚集规则将包匹配到流,受到较多因素的影响,准确描述很困难。

此外,文献[12]综合使用了包水平和流水平的信息,对游戏业务进行区分,提出新的基于简单决策树的分类方法——可选择决策树(Alternative Decision Tree,ADT),该方法利用了游戏应用统计的业务特征。文献[13]综合使用流特征和行为特征区分P2P IPTV业务。文献[14]以基于端口的方法为基础,通过移动至应用协议插入头部的位置进行验证,只要验证一个流中第一个包的少数几个字节就能成功进行业务分类。文献[15]基于对文本信息和加密信息的观察,提出利用连续比特的信息熵区分业务,但对连续比特的选取有较高要求,否则易受到网络因素的影响,从而降低区分效果。

文献[16]采用无监督k均值和期望最大化算法,基于二者之间的相似性对网络流量应用进行聚类。文献[17]中创建了一个分布式支持向量机(SVMs)框架,使用Hadoop对网络流量进行分类。文献[18]提出了一种基于冗余窗口的最优特征子集发现算法进行特征选择,该算法利用生长算法发现相关特征,利用收缩算法剔除冗余特征,大大提高了算法的效率。文献[19]介绍了一种在监督环境下选择区间值特征的新特征排序准则,引入的特征排序准则适用于单变量区间值数据,每个特性都使用建议的排名标准进行评估并与一个分数相关联。文献[20]采用序列前向选择(SFS)、序列后向选择(SBS)和加L-R特征选择方法嵌入判别比(FDR),对网络流量进行分类。文献[21]利用小波前导多重分形模型(WLMF)从业务流中提取多重分形特征来描述业务流,将基于主成分分析的FS方法应用于这些多重分形特征中,去除不相关和冗余的特征。

总而言之,尽管有很多对业务识别问题的研究,选择的区分特征也很多,但由于多媒体新业务不断出现,所采用的新技术使得传统方法依然难以较好地解决识别问题,事实上目前尚没有评估识别/分类方法准确度的基准,对其进一步的分析研究依然很有必要。

2 业务流识别和QoS/业务类区分的问题描述及机理分析

可见业务流识别和QoS/业务类区分都是通过选取合适区分特征构成规则C,将业务从业务集中区分出来,由于业务流识别是M维的分类问题,因此,很难在空间复杂度和时间复杂度上同时获得最佳,而降低区分维数是降低解决问题复杂度的有效途径。由于K≪N,因此,可以利用QoS特征提高分类准确度,有利于减少计算的时间和空间复杂度。

3 基于HMM模型的多媒体业务QoS类区分和聚集框架

如图1所示,具体业务区分和聚集过程为:① 获取区分特征。要求所选取的区分特征既容易获得,又有利于提高业务区分的有效性。选取的区分特征可以通过标准网络设备获取,具有较好的通用性和实用性。而在众多特征中选取有利于提高区分有效性的特征,需要选取当前流行的多媒体业务,对主要的区分特征进行分析,具有较好的典型性。② 基于HMM区分。基于HMM较好的识别效果,本文采用HMM进行区分。重点是特征选择,故选取典型的HMM进行QoS类区分。针对每一个QoS类,本文选取其对应的典型业务进行训练,以获得其相应的HMM模型;③ 聚集业务流形成聚集流。由于属于同一种QoS类的业务流,具有相同或相近的QoS要求,本文聚集具有相同或相近QoS要求的业务流,形成聚集流,并赋予全局唯一的标签;④ 完成映射。根据QoS空间的投影关系,确定标签对应的聚集流所归属的QoS类,这是下一步工作。

图1 基于HMM模型的多媒体业务流QoS类区分和聚集框架

4 典型特征分析及选择

目前在通信业务中占据较大份额的多媒体业务具有较高的QoS要求。在典型的网络中(如UMTS(Universal Mobile Telecommunication System)和 WiMAX2(Worldwide Interoperability of Microwave Access 2))都有相应的QoS类支持区分服务。而目前典型的业务区分方法主要区分协议和应用,对QoS保证考虑不足,忽略了QoS属性的全局特性,即多媒体业务在不同网络中流特征是变化的,但用户接收的QoS由最差的网络决定。因此,从QoS角度分析多媒体业务特征,基于QoS特征区分QoS类具有重要意义。

基于典型性和可实现性的考虑,本文在实验室使用Wireshark捕获4种多媒体业务:QQ、标清流媒体(592*252)、高清流媒体(768*326)和游戏。QQ为目前流行的即时通信工具,标清流媒体和高清流媒体是从优酷视频随机获得,游戏为欧美3D动态网游《时空裂痕》。这4种业务具有较高QoS需求,目前较流行,但是在不同QoS域中属于不同的QoS类。如在UMTS中,QQ和游戏属于会话类,标清流媒体与高清流媒体属于流媒体类。在WiMAX2 中QQ属于UGS(Unsolicited Grant Service)服务类,游戏属于AGP(Adaptive Granting and Polling Service)服务类,标清流媒体与高清流媒体属于rtPS(Real-time Polling Service)服务类。捕获数据时,接收端利用Wireshark分别独立捕获4种业务的数据流。捕获数据过程中,发送端源端持续发送业务流。以下给出4种多媒体业务,在近10 min内几种典型特征的统计分布情况。

4种业务包大小分布归化后的分布情况如图2所示。由图2可知,高清流媒体业务(Streamchaoqing)和游戏在包大小分布的指标上相近,小包和大包的分布较均衡。而QQ视频业务中小于100 Byte的小包最多(达到近80%),超过1 300 Byte的大包较少(不到5%)。标清流媒体业务有超过85%的包大于1 300 Byte,在小于100 Byte的小包分布上,标清流媒体业务与高清流媒体业务及游戏相近。可以得到以下结论:包大小在区分QQ和标清流媒体业务时,具有较好的区分效果,但区分游戏和高清流媒体业务的效果较差。此外,标清流媒体和高清流媒体在包大小分布具有较明显的差异,尽管流媒体内容相同(仅选取的分辨率不同),也被归为2个不同的类别。而在UMTS等网络域中,流媒体常归属为同一种QoS类。可见,包大小特征不适合用于QoS类的区分。

图2 4种典型业务的包大小分布

4种业务包到达时间间隔对数分布如图3所示。由图3可知,标清和高清流媒体业务具有相近的到达时间间隔分布,且到达时间间隔高于QQ与游戏业务,这是由于QQ与游戏属于交互式实时业务,其对时间的QoS要求高于流媒体业务,符合各类型网络QoS类的区分。此外,游戏的到达时间间隔明显小于QQ业务,与WiMAX2中的QoS分类一致。考虑到提供不同业务的服务器可能分布于不同网络,数据包所走的路径并不一样,且在实际网络中很难准确获得各业务流路径信息。此外,网络中存在分组丢失、乱序和重传等因素,也影响了包到达时间间隔分布。因此,依据到达时间间隔分布区分具体业务具有局限性。鉴于业务的端到端QoS性能,由传输路径上众网络节点中提供最低QoS指标的节点决定,因此,执行域间QoS类映射时,依据当前的包到达时间间隔区分QoS类,较区分业务更为合理。

图3 4种业务包到达时间间隔对数分布

4种业务归化吞吐量对数分布如图4所示。由图4可知,高清流媒体业务的吞吐量波动较大,这是由于高清多媒体业务对带宽要求较高,当网络负荷轻时,高清多媒体得以高速传输,此时有较大的吞吐量。但当网络负荷重时,高清流媒体服务处于等待状态,此时吞吐量近乎为零。

图4 4种业务归化吞吐量对数分布

需要说明的是,在一定时间段内,这种不稳定的情况也影响了包大小分布的统计,在业务区分时需要考虑这一情况。标清流媒体业务吞吐量较高清多媒体业务稳定,这是由于标清流媒体对带宽要求低于高清流媒体业务。由于流媒体业务允许缓冲,可以看到其吞吐量在时间轴上出现断续现象,当吞吐量为零时,说明流媒体处于缓冲状态。QQ和游戏业务的吞吐量较低、波动平稳,这是由QQ和游戏业务对带宽需求较低,但对延时要求较高的特点决定的。但从吞吐量指标上,无法对QQ和游戏业务进行区分。

在抖动方面,抖动也可以作为一个重要的区分特征。一般来说,QQ和游戏的抖动要求高于流媒体,游戏业务的抖动最小,标清流媒体最大,且相对稳定。而高清流媒体和QQ视频的抖动分布相近,但也相对集中。

综上可以得出不同特征在区分4种业务时的特点,如表1所示。

表1 4种业务在4个特征下的分布状况

5 基于HMM的多媒体业务QoS类区分方法

首先将采集的业务流特征序列统计处理,将经处理后得到的特征向量当作观测值,为每一类业务拟合一HMM;然后计算各类业务在不同模型下的产生概率;最后对特征进行聚类划分并构造和训练各类应用的分布模型。上述过程采用典型的基于HMM的流识别算法[4],算法流程如图5所示。

详细描述如下:

① 初始化:依据特征分析结果,为每类业务设计一个HMM模型。

② 聚类分析:采用K均值(K-means)聚类算法对QoS特征进行动态聚类。K均值算法选定初始聚类中心,按类内距在特征空间距离最小,类间距在特征空间距离最大的原则进行聚类。

④ 判决输出:将提取的未知多媒体流QoS特征序列依次输入每个HMM,分别计算各个模型产生该观测序列的概率,然后根据最大似然准则,选择概率最大的模型作为最合适该观测序列的模型。

6 仿真实验

目前,尽管HMM在网络业务流识别中已进行较多的研究工作[3-5],但区分的粒度不一致,区分特征有差异,区分目标不相同,且由于没有基准的数据集可用,所使用的训练/测试数据集相差较大,且很难获得,给算法性能评估带来困难。鉴于本文主要关注基于QoS特征区分多媒体业务,所以使用Wireshark从实际网络中捕获几种典型的多媒体业务数据,作为样本流,用于评估本文所选特征和文献[3-5]中所选取区分特征的识别性能。

由于游戏、即时通信和流媒体在目前网络业务中占据较大的份额,本节选择4类流行的多媒体业务:即时通信类、标清类流媒体、高清类流媒体和游戏类业务,分别为它们建立HMM以识别其业务流,并与已有识别方法文献[3-5]进行比较。即时通信类由QQ和MSN业务组成,通过Wireshark在实验室获取。游戏类由《时空裂痕》和《三国》组成,由 Wireshark在实验室获取。标清类流媒体和高清类流媒体则是从优酷网站随机获得。

6.1 实验环境及方法

校园网通过100 Mbit/s光缆与CERNET连接,测试主机的CPU为 AMD Athlon(tm) X2 DualCore QL-64,主频2.1 GHz,内存大小为1 GB。在校园网内设置各应用的客户端,在测试阶段分别独立运行。运行Wireshark捕获分组,得到包括前100 Byte应用层数据在内的分组信息。为了比较分析HMM的识别能力,使用人工结合Wireshark捕获的分组信息和各业务客户端运行信息,基于端口、特征字和业务流特征,以离线方式识别分组流所属应用,并假定人工分析的结果是正确的。

6.2 创建HMM

在校园网中采集样本流并进行人工识别,将已识别的流分为训练样本和离线测试样本,其统计信息如表2所示。针对样本,依据经验,设置HMM的状态数目为N=4,每个状态对应的观测值数目M=3(高、中、低),即对所有多媒体业务QoS特征抖动和吞吐量,利用K平均聚类算法聚成3类。利用训练集为不同业务类型构造独立的HMM。

表2 样本统计信息

为了考察特征对QoS类区分的影响,分别采用上面特征分析中的不同特征组合进行区分,结果如表3所示。

表3 本文方法与文献[3-5]方法在区分QoS类有效性上的对比

由表3可知,在现有数据集下,本文选取的区分特征为吞吐量和抖动时,4种业务的区分准确度较高,而现有方法选取区分特征为包大小和包到达时间间隔时,业务区分效果较差。

综上可知,对基于QoS/业务类的应用(如QoS/业务类水平映射、异构网络端到端QoS保证及网络资源优化等),现有的业务流识别方法在特征选择上区分效果不足,基于业务的QoS特征区分业务更为合理,这是因为QoS指标直接影响用户体验,关系到业务能否被用户接受,体现业务最本质的要求。

7 结束语

目前,随着新业务的大量出现和网络吞吐量的急剧增加,QoS/业务类区分的紧迫性已愈来愈为人们所认识,通过QoS/业务类区分来为相关网络操作提供保证,是当前网络在市场和技术双重驱动下的发展趋势。本文提出从QoS特征角度区分典型应用,实现业务类别的区分;基于新发现的QoS特征,设计了一种新的基于HMM的多媒体业务类区分方法。由于QoS/业务类区分是一个长期演进、复杂而庞大的问题,相关研究也处于不断发展的阶段,一些其他关键问题,例如,统一的识别策略建立、业务流模式自学习等问题,还需要今后进一步深入的研究。

猜你喜欢

清流区分文献
灵活区分 正确化简
Hostile takeovers in China and Japan
玉溪 滇中的清流如玉
富有地域特色的清流客家三角戏——以供坊村三角戏为例
Cultural and Religious Context of the Two Ancient Egyptian Stelae An Opening Paragraph
怎样区分天空中的“彩虹”
——日晕
怎么区分天空中的“彩虹”
做一股“清流”
区分“我”和“找”
The Application of the Situational Teaching Method in English Classroom Teaching at Vocational Colleges