一种基于QoS特征的多媒体业务区分方法

2019-12-24王再见张有健

无线电通信技术 2019年1期

王再见，张有健

(安徽师范大学物理与电子信息学院,安徽芜湖 241000)

0 引言

依据QoS(Quality of Service)特征，实时、准确地区分多媒体业务所属QoS/业务类，是在泛在异构网络中，实施QoS/业务类水平映射等网络QoS保证操作的前提。目前，尽管网络业务流识别已取得较多的研究工作，但基本针对特定的业务或协议(如P2P等)，面向异构网络QoS/业务类的多媒体业务识别存在不足。多媒体业务包含用户行为、用户间交互、信道特征、应用和协议、用户需求及业务内容等大量内在信息，业务特征多样，常占用大量带宽，对其进行实时准确识别愈加困难[1]。当多媒体业务在异构网络环境运行时，不同网络类型是按照业务QoS需求，基于不同的QoS/业务类，提供有差异的QoS保证，因此，在实施QoS/业务类水平映射等端到端QoS操作时，面向QoS/业务类，选取有效、可行的QoS属性作为区分特征，以提高区分的实时性和准确性，比单独区分协议或业务更有意义。

传统的业务识别/分类方法或依赖于不同业务所使用的端口，或基于IP包有效载荷中特征字对业务流进行识别/分类。基于端口的方法简单，但准确率低。基于有效载荷内容的方法准确度高，但很复杂，可扩展性差，而且涉及法律问题(有些内容加密、有些协议是私有的不公开，找不到特定标识)。由于上述传统方法在加密、端口动态、协议私有及隐私保护方面考虑不足，一些数据挖掘技术或机器学习技术目前得到了广泛的应用，它们认为网络业务可以由一组主机/网络行为或流水平的统计特征描述，机器学习技术可自动搜索结构模式，以对业务流进行识别/分类[2]。机器学习方法克服了传统方法中端口动态和隐私保护问题，受到了越来越多的关注。其中基于隐马尔可夫模型(Hidden Markov Model,HMM)的流识别方法由于实现简单，目前得到广泛应用[1,3]，但在QoS/业务类区分效果上存在不足，部分原因在于基于HMM识别方法，同众多数据挖掘和机器学习方法一样，区分的准确度依赖于所选取的区分特征。因此，面向QoS/业务类，依据QoS特征，提高HMM区分多媒体业务的性能，是执行QoS/业务类水平映射等网络操作所面临的挑战。

1 相关工作

由于区分特征选择的合适与否，对提高流识别/分类算法的准确度有重要影响，近年来，相关研究人员在识别/分类网络业务时，对多种业务区分特征进行研究，一般分为包水平特征和流水平特征。① 包水平特征：常用于微观层次的细粒度测量，检测每一个包的详细信息，传统的业务识别/分类方法常选取地址、端口、协议号和特定的应用数据，但存在准确度低和涉及隐私问题，而在典型的数据挖掘和机器学习算法中，包大小和包到达时间间隔是使用最广泛的区分特征[3-7]，但由于具有不同QoS需求的多媒体业务，在包大小分布上有高度相似性，且包到达时间间隔受网络环境影响较大，面向QoS/业务类区分多媒体业务存在不足；② 流水平特征：用于宏观层次的测量，需要聚集规则将包匹配到流。使用的特征包括单位时间内流的数目、流的比特率、流大小和流持续时间。但很多特征区分的有效性不足，如Flash流大多会影响流计数的波动。

文献[3-7]都是基于包水平特征区分业务。文献[3]基于包水平信息，利用HMM模型识别P2P业务。PLGMM-HMM(Guassian Mixture Model Hidden Markov Model)分类算法[4]通过包间时间和载荷大小建立PLGMM-HMM，然后通过计算F-Measure值构造评估函数和区分业务。基于HMM模型的包分类算法[5]将包大小的分布作为HMM的每个状态。张剑等人提出基于密度的在线噪声空间聚类算法[6]，使用包大小等参数对数据流进行识别。文献[7]认为包大小和包间到达时间间隔是2个典型的描述业务流的参数，通过一个熵函数建立包大小的模型，完成业务流行为的特征分析。但实际数据分析表明，不同QoS需求的业务有相似的包大小，而同种类型业务的包大小分布也可能不同，包大小、包到达时间间隔作为区分特征，很难完全区分业务。相关文献尚缺乏对上述特征的深入分析，具有局限性。

文献[8-11]都是基于流水平特征区分业务。文献[8]提出一种增强型递归流分类算法，使用了流水平的特征信息，但强调的是数据结构没有深入讨论识别特征问题。文献[9]基于流持续时间、平均包大小等统计量，采用基于业务流特征的机器学习识别方法，其基本思想是基于业务流特征，通过使用机器学习的方法对HTTP视频应用进行分类。借助机器学习的行为算法(Behavioral Algorithm)[10]，利用Netflow记录进行业务分类。Netflow以流记录(Flow-Records)的形式报告网络业务的聚集信息。文献[11]基于流水平，利用机器学习设计了准确、可扩展的业务识别系统。流水平特征需要聚集规则将包匹配到流，受到较多因素的影响，准确描述很困难。

此外，文献[12]综合使用了包水平和流水平的信息，对游戏业务进行区分，提出新的基于简单决策树的分类方法——可选择决策树(Alternative Decision Tree,ADT)，该方法利用了游戏应用统计的业务特征。文献[13]综合使用流特征和行为特征区分P2P IPTV业务。文献[14]以基于端口的方法为基础，通过移动至应用协议插入头部的位置进行验证，只要验证一个流中第一个包的少数几个字节就能成功进行业务分类。文献[15]基于对文本信息和加密信息的观察，提出利用连续比特的信息熵区分业务，但对连续比特的选取有较高要求，否则易受到网络因素的影响，从而降低区分效果。

文献[16]采用无监督k均值和期望最大化算法，基于二者之间的相似性对网络流量应用进行聚类。文献[17]中创建了一个分布式支持向量机(SVMs)框架，使用Hadoop对网络流量进行分类。文献[18]提出了一种基于冗余窗口的最优特征子集发现算法进行特征选择，该算法利用生长算法发现相关特征，利用收缩算法剔除冗余特征，大大提高了算法的效率。文献[19]介绍了一种在监督环境下选择区间值特征的新特征排序准则，引入的特征排序准则适用于单变量区间值数据，每个特性都使用建议的排名标准进行评估并与一个分数相关联。文献[20]采用序列前向选择(SFS)、序列后向选择(SBS)和加L-R特征选择方法嵌入判别比(FDR)，对网络流量进行分类。文献[21]利用小波前导多重分形模型(WLMF)从业务流中提取多重分形特征来描述业务流，将基于主成分分析的FS方法应用于这些多重分形特征中，去除不相关和冗余的特征。

总而言之，尽管有很多对业务识别问题的研究，选择的区分特征也很多，但由于多媒体新业务不断出现，所采用的新技术使得传统方法依然难以较好地解决识别问题，事实上目前尚没有评估识别/分类方法准确度的基准，对其进一步的分析研究依然很有必要。

2 业务流识别和QoS/业务类区分的问题描述及机理分析

可见业务流识别和QoS/业务类区分都是通过选取合适区分特征构成规则C，将业务从业务集中区分出来，由于业务流识别是M维的分类问题，因此，很难在空间复杂度和时间复杂度上同时获得最佳，而降低区分维数是降低解决问题复杂度的有效途径。由于K≪N，因此，可以利用QoS特征提高分类准确度，有利于减少计算的时间和空间复杂度。

3 基于HMM模型的多媒体业务QoS类区分和聚集框架

如图1所示，具体业务区分和聚集过程为：① 获取区分特征。要求所选取的区分特征既容易获得，又有利于提高业务区分的有效性。选取的区分特征可以通过标准网络设备获取，具有较好的通用性和实用性。而在众多特征中选取有利于提高区分有效性的特征，需要选取当前流行的多媒体业务，对主要的区分特征进行分析，具有较好的典型性。② 基于HMM区分。基于HMM较好的识别效果，本文采用HMM进行区分。重点是特征选择，故选取典型的HMM进行QoS类区分。针对每一个QoS类，本文选取其对应的典型业务进行训练，以获得其相应的HMM模型；③ 聚集业务流形成聚集流。由于属于同一种QoS类的业务流，具有相同或相近的QoS要求，本文聚集具有相同或相近QoS要求的业务流，形成聚集流，并赋予全局唯一的标签；④ 完成映射。根据QoS空间的投影关系，确定标签对应的聚集流所归属的QoS类，这是下一步工作。

图1 基于HMM模型的多媒体业务流QoS类区分和聚集框架

4 典型特征分析及选择

目前在通信业务中占据较大份额的多媒体业务具有较高的QoS要求。在典型的网络中(如UMTS(Universal Mobile Telecommunication System)和 WiMAX2(Worldwide Interoperability of Microwave Access 2))都有相应的QoS类支持区分服务。而目前典型的业务区分方法主要区分协议和应用，对QoS保证考虑不足，忽略了QoS属性的全局特性，即多媒体业务在不同网络中流特征是变化的，但用户接收的QoS由最差的网络决定。因此，从QoS角度分析多媒体业务特征，基于QoS特征区分QoS类具有重要意义。

基于典型性和可实现性的考虑，本文在实验室使用Wireshark捕获4种多媒体业务：QQ、标清流媒体(592*252)、高清流媒体(768*326)和游戏。QQ为目前流行的即时通信工具，标清流媒体和高清流媒体是从优酷视频随机获得，游戏为欧美3D动态网游《时空裂痕》。这4种业务具有较高QoS需求，目前较流行，但是在不同QoS域中属于不同的QoS类。如在UMTS中，QQ和游戏属于会话类，标清流媒体与高清流媒体属于流媒体类。在WiMAX2 中QQ属于UGS(Unsolicited Grant Service)服务类，游戏属于AGP(Adaptive Granting and Polling Service)服务类，标清流媒体与高清流媒体属于rtPS(Real-time Polling Service)服务类。捕获数据时，接收端利用Wireshark分别独立捕获4种业务的数据流。捕获数据过程中，发送端源端持续发送业务流。以下给出4种多媒体业务，在近10 min内几种典型特征的统计分布情况。

4种业务包大小分布归化后的分布情况如图2所示。由图2可知，高清流媒体业务(Streamchaoqing)和游戏在包大小分布的指标上相近，小包和大包的分布较均衡。而QQ视频业务中小于100 Byte的小包最多(达到近80%)，超过1 300 Byte的大包较少(不到5%)。标清流媒体业务有超过85%的包大于1 300 Byte，在小于100 Byte的小包分布上，标清流媒体业务与高清流媒体业务及游戏相近。可以得到以下结论：包大小在区分QQ和标清流媒体业务时，具有较好的区分效果，但区分游戏和高清流媒体业务的效果较差。此外，标清流媒体和高清流媒体在包大小分布具有较明显的差异，尽管流媒体内容相同(仅选取的分辨率不同)，也被归为2个不同的类别。而在UMTS等网络域中，流媒体常归属为同一种QoS类。可见，包大小特征不适合用于QoS类的区分。

图2 4种典型业务的包大小分布

4种业务包到达时间间隔对数分布如图3所示。由图3可知，标清和高清流媒体业务具有相近的到达时间间隔分布，且到达时间间隔高于QQ与游戏业务，这是由于QQ与游戏属于交互式实时业务，其对时间的QoS要求高于流媒体业务，符合各类型网络QoS类的区分。此外，游戏的到达时间间隔明显小于QQ业务，与WiMAX2中的QoS分类一致。考虑到提供不同业务的服务器可能分布于不同网络，数据包所走的路径并不一样，且在实际网络中很难准确获得各业务流路径信息。此外，网络中存在分组丢失、乱序和重传等因素，也影响了包到达时间间隔分布。因此，依据到达时间间隔分布区分具体业务具有局限性。鉴于业务的端到端QoS性能，由传输路径上众网络节点中提供最低QoS指标的节点决定，因此，执行域间QoS类映射时，依据当前的包到达时间间隔区分QoS类，较区分业务更为合理。

图3 4种业务包到达时间间隔对数分布

4种业务归化吞吐量对数分布如图4所示。由图4可知，高清流媒体业务的吞吐量波动较大，这是由于高清多媒体业务对带宽要求较高，当网络负荷轻时，高清多媒体得以高速传输，此时有较大的吞吐量。但当网络负荷重时，高清流媒体服务处于等待状态，此时吞吐量近乎为零。

图4 4种业务归化吞吐量对数分布

需要说明的是，在一定时间段内，这种不稳定的情况也影响了包大小分布的统计，在业务区分时需要考虑这一情况。标清流媒体业务吞吐量较高清多媒体业务稳定，这是由于标清流媒体对带宽要求低于高清流媒体业务。由于流媒体业务允许缓冲，可以看到其吞吐量在时间轴上出现断续现象，当吞吐量为零时，说明流媒体处于缓冲状态。QQ和游戏业务的吞吐量较低、波动平稳，这是由QQ和游戏业务对带宽需求较低，但对延时要求较高的特点决定的。但从吞吐量指标上，无法对QQ和游戏业务进行区分。

在抖动方面，抖动也可以作为一个重要的区分特征。一般来说，QQ和游戏的抖动要求高于流媒体，游戏业务的抖动最小，标清流媒体最大，且相对稳定。而高清流媒体和QQ视频的抖动分布相近，但也相对集中。

综上可以得出不同特征在区分4种业务时的特点，如表1所示。

表1 4种业务在4个特征下的分布状况

5 基于HMM的多媒体业务QoS类区分方法

首先将采集的业务流特征序列统计处理，将经处理后得到的特征向量当作观测值，为每一类业务拟合一HMM；然后计算各类业务在不同模型下的产生概率；最后对特征进行聚类划分并构造和训练各类应用的分布模型。上述过程采用典型的基于HMM的流识别算法[4]，算法流程如图5所示。

详细描述如下：

① 初始化：依据特征分析结果，为每类业务设计一个HMM模型。

② 聚类分析：采用K均值(K-means)聚类算法对QoS特征进行动态聚类。K均值算法选定初始聚类中心，按类内距在特征空间距离最小，类间距在特征空间距离最大的原则进行聚类。

④ 判决输出：将提取的未知多媒体流QoS特征序列依次输入每个HMM，分别计算各个模型产生该观测序列的概率，然后根据最大似然准则，选择概率最大的模型作为最合适该观测序列的模型。

6 仿真实验

目前，尽管HMM在网络业务流识别中已进行较多的研究工作[3-5]，但区分的粒度不一致，区分特征有差异，区分目标不相同，且由于没有基准的数据集可用，所使用的训练/测试数据集相差较大，且很难获得，给算法性能评估带来困难。鉴于本文主要关注基于QoS特征区分多媒体业务，所以使用Wireshark从实际网络中捕获几种典型的多媒体业务数据，作为样本流，用于评估本文所选特征和文献[3-5]中所选取区分特征的识别性能。

由于游戏、即时通信和流媒体在目前网络业务中占据较大的份额，本节选择4类流行的多媒体业务：即时通信类、标清类流媒体、高清类流媒体和游戏类业务，分别为它们建立HMM以识别其业务流，并与已有识别方法文献[3-5]进行比较。即时通信类由QQ和MSN业务组成，通过Wireshark在实验室获取。游戏类由《时空裂痕》和《三国》组成，由 Wireshark在实验室获取。标清类流媒体和高清类流媒体则是从优酷网站随机获得。

6.1 实验环境及方法

校园网通过100 Mbit/s光缆与CERNET连接，测试主机的CPU为 AMD Athlon(tm) X2 DualCore QL-64，主频2.1 GHz，内存大小为1 GB。在校园网内设置各应用的客户端，在测试阶段分别独立运行。运行Wireshark捕获分组，得到包括前100 Byte应用层数据在内的分组信息。为了比较分析HMM的识别能力，使用人工结合Wireshark捕获的分组信息和各业务客户端运行信息，基于端口、特征字和业务流特征，以离线方式识别分组流所属应用，并假定人工分析的结果是正确的。

6.2 创建HMM

在校园网中采集样本流并进行人工识别，将已识别的流分为训练样本和离线测试样本，其统计信息如表2所示。针对样本，依据经验，设置HMM的状态数目为N=4，每个状态对应的观测值数目M=3(高、中、低)，即对所有多媒体业务QoS特征抖动和吞吐量，利用K平均聚类算法聚成3类。利用训练集为不同业务类型构造独立的HMM。

表2 样本统计信息

为了考察特征对QoS类区分的影响，分别采用上面特征分析中的不同特征组合进行区分，结果如表3所示。

表3 本文方法与文献[3-5]方法在区分QoS类有效性上的对比

由表3可知，在现有数据集下，本文选取的区分特征为吞吐量和抖动时，4种业务的区分准确度较高，而现有方法选取区分特征为包大小和包到达时间间隔时，业务区分效果较差。

综上可知，对基于QoS/业务类的应用(如QoS/业务类水平映射、异构网络端到端QoS保证及网络资源优化等)，现有的业务流识别方法在特征选择上区分效果不足，基于业务的QoS特征区分业务更为合理，这是因为QoS指标直接影响用户体验，关系到业务能否被用户接受，体现业务最本质的要求。

7 结束语

目前，随着新业务的大量出现和网络吞吐量的急剧增加，QoS/业务类区分的紧迫性已愈来愈为人们所认识，通过QoS/业务类区分来为相关网络操作提供保证，是当前网络在市场和技术双重驱动下的发展趋势。本文提出从QoS特征角度区分典型应用，实现业务类别的区分；基于新发现的QoS特征，设计了一种新的基于HMM的多媒体业务类区分方法。由于QoS/业务类区分是一个长期演进、复杂而庞大的问题，相关研究也处于不断发展的阶段，一些其他关键问题，例如，统一的识别策略建立、业务流模式自学习等问题，还需要今后进一步深入的研究。