APP下载

基于选择迁移的bagging文本分类算法

2015-12-23陈,汤

计算机工程与设计 2015年7期
关键词:贝叶斯噪音分类器

吴 陈,汤 莹

(江苏科技大学 计算机科学与工程学院,江苏 镇江212003)

0 引 言

传统的数据挖掘是基于训练集、测试集具有相同的特征空间和数据分布的假设[1],但随着互联网的发展,独立同分布的前提在现实中有许多局限,所以将相似领域知识或过时的数据迁移应用到目标领域逐渐成为研究的热点,这也是迁移学习的框架。迁移学习中标记的目标训练样本过少,易造成数据不平衡,bagging作为一种集成学习的方法,被广泛应用于不平衡数据分类中[2]。文本分类技术是在预先给定类别标记的文本集合下,根据文本的内容判定它的类别[3]。文献 [4]在Adaboost算法的基础上提出了TrAdaboost算法;Toshihiro Kamishima等扩展了bagging算法[5]并应用于书签迁移;Liu等提出一种动态重构数据集的迁移集成学习算法DRTAT[6]。现实中基于随机抽样技术的迁移bagging算法的文章相对较少,且boosting技术基于一定复杂度和有限时效的优势在面对海量的具有高维、非线性、不平衡特点的文本信息时是有局限的,而集成算法中的bagging技术在任意的学习系统中总能找到一个将弱学习转化为强学习的算法。因此,本文在文本分类的背景下结合迁移学习和bagging集成学习算法,借鉴集成学习处理高维、不平衡数据的有效性,对应于新领域训练数据的局限性,在迁移学习的框架下引入集成思想提出一种选择迁移的bagging算法,可以有效提高分类的效果和泛化能力。

1 文档分类

数据挖掘中数据集的选择和采集也是研究的热点,本文实验前需要对大量文本进行去噪声、去缺省、去不一致、去不完整的预处理。必须对文本进行如下操作:分词、去停用词、文本表示、特征降维、特征抽取或特征选择等。其中,常见的一种用于特征加权方法为TF-IDF词频-逆向文件频率。TF表示某个词在文件中出现的次数,IDF用来度量某词的重要性,具体公式如下:TF-IDF =tfi,j×idfi。

预处理后的文本,需选定任意一种分类方法来实现分类器的训练,本文涉及经典的分类算法:朴素贝叶斯分类[7]和支撑向量机[8]。朴素贝叶斯算法根据贝叶斯定理由条件概率推导出式(1),判断目标分类数据X ={x1,x2…xj…xn}的类别P(Ci|X)最大概率。而支持向量机分为线性和非线性,对文本而言是非线性寻找最优超平面,把样本xi从低维空间映射到高维线性可分的特征空间F 中的,将式 (2)用二次规划求解方法得出判别函数式 (3),本文支持向量机采用K(x,y)=-exp(-γ x-y2)径向基函数

评估使用常见的准确率 (P)、召回率 (R)、以及综合评价标准F-measure(F)[9],其中F-score是P与R 的加权调和平均值。

2 问题描述

为方便后面算法的表述,这里用数学符号定义一些概念。设存在目标领域的数据集T 和源领域(辅助领域)的数据集Ds,而本文讨论情况是只存在少量的已标注的目标领域数据和大量待测的目标领域的数据,因此将目标领域的数据集又分为目标训练集Dt和待预测的Dtest,Dt的数量要明显小于Dtest。假设在目标域T 中只有n 个是已标注类别的文本,那么目标训练集Dt的数量就为n。对应成文本集合表述为:

目标训练文档集合Dt={(x1,y1),(x2,y2),(x3,y3)...(xn,yn)};

源域辅助文档集合Ds={(p1,q1),(p2,q2),(p3,q3)...(pm,qm)};

混合训练文档D =Dt∪Ds={vi,c(vi)}={(p1,q1)...(pm,qm),(xm+1,xm+1)...(xm+n,ym+n)}。

其中,vi为任意的训练文档,c(vi)为该文档的所属类别。混合训练集D 的前m 个样本来自具有相似领域的源域,后n个样本是目标域T 中已标注用来训练的数据。其中,vi=<vi1,vi2...viz>∈V 特征矢量,V 是文档向量集合,vi表示文档集合中第i篇文档,第i篇文档中的第z 个特征为viz。设分类器是对应于类别C 的单分类器,c(vi)∈{-1,1},即本文仅讨论两分类问题。若目标领域文本满足(xt,yt)-Pt(xt,yt)的分布,源领域满足(ps,qs)-Ps(ps,qs)分布,那么Dt,Dtest目标训练集和测试集是同分布且满足Pt(xt,yt),源域与目标异布,Pt≠Ps,它们之间领域相似有共性但相异。本文主要目标是利用Dt和Ds训练适合Pt(xt,yt)分布的分类器来预测Dtest。

3 基于选择迁移的bagging文本分类算法

3.1 基于分类的选择迁移算法ADS算法描述

算法:挑选辅助算法。源辅助数据挑选是为提高目标学习器的分类效果,避免不相似数据干扰,基于分类的选择迁移算法挑选出辅助数据中符合目标特征的数据成为必然。

输入:目标训练数据Dt,辅助数据Ds,参数φ(挑选辅助到目标的一种映射关系)

输出:根据标记的目标数据训练,获得与目标分类一致的辅助训练集Ds-right

过程:

(1)输入和输出参数设定:将目标训练数据Dt作为学习器的训练集,辅助数据Ds作为测试集分类;

(2)如果目标训练集Dt的类别是C1和C2,辅助训练集Ds的类别是D1和D2,定义一映射关系H(t):Li(x)=D1if Li(x)=C1AND Li(x)=D2if Li(x)=C2基于以上映射给出φ的定义:如果D1→C1,D2→C2,φ=1;否则φ=0;

//D1和D2中噪音数据大部分可以排除,相似领域差的辅助数据被删除

(3)R=ClassifierbuilderBEST(Dt)&Test(Ds)//Dt训练Ds,分类器选择最优分类效果的算法;

(4)For each instance(x″,y″)in Ds

其中,本文实验数据在步骤 (3)中的ClassifierbuilderBEST经过验证用基于贝叶斯的个体分类器bagging算法得出的效果最为理想。带噪音的辅助数据选择算法 (ADS)中的分类算法需要实验挑选,但是总准确率经后期实验证明基于集成的分类算法精度总体优于单分类器,集成算法用于迁移干净的辅助数据效果更佳。

3.2 基于选择迁移的bagging的文本分类算法 (A-TTB)

文本迁移集成分类算法 (text transfer bagging),TTB过程及伪代码:

输入:目标域训练集Dt,源辅助域数据集Ds,学习器learner算法C,迭代次数L

输出:classifier c′(vi)返回结果,如果分类正确返回1,否则返回-1

过程:

(1)D =Dt∪DS

(2)D′=Pretreatement(D) //利用预处理技术获取新的样本集D′

(3)for(i=1;i≤L;i++)

(4)D″=bootstrap(D′)

(5)Ci=bagging(algorithim(D″)) //bagging的基分类器使用贝叶斯算法

(6)End for

A-TTB (auxiliary-text transfer bagging)算法描述:

步骤1 目标数据和辅助数据分别做文本数据预处理Pretreatment(data);

步骤2 将预处理后的数据集执行ADS算法,挑选出有利于目标文本分类的辅助数据,将正确分类的辅助数据加入目标训练数据集;

步骤3 对Ttest执行TTB算法,测试集数量按原始数据样本的一定比例划分,最后对集成后的多个分类器投票得出最后预测结果。

4 实验结果与分析

4.1 实验平台与数据

本文的实验环境为SAMSUNG 笔记本一台,基本配置如下:Windows XP系统、3GHz CPU、1G 内存、150G硬盘;基于新西兰怀卡托大学开发的Weka 3.7.10 版本;数据处理使用JAVA eclipse,jdk1.6版本。本文数据来源于20NewsGroup[10](UCI KDD Archive知名的Web网页预料库新闻数据组数据),由于要考察噪音与负迁移的关系,因此故意人工引入了噪音域,手动构造了3个数据集用来实验,这3 组数据分别来自顶层域:rec、talk、comp,异构噪音域来自comp、misc、alt,数据首先从顶层域中选择不同分布的目标域与辅助,然后添加噪音域到辅助中,构成带噪音的源辅助,它们之间又是结构相异的。具体实验数据见表1,显示了test1、test2、test3这3个数据集的组成与数量。设定程序重复20次,取均值得到结果。集成前基分类器需多次尝试确认最优参数,对比算法中的SVM(support vector machine)运用LibSvm 工具包,采用高斯径向基函数:惩罚因子C=10,核函数宽度=0.1。集成分类器中的基分类器个数均为10,随机抽样的特征子集数量与初始训练集特征子集数量比X,X ∈ (0,1],test1和test2中的子集比X=0.8,test3的X=0.5,且目标域数据训练集占原始集20%,剩余作测试集,但是与test3对比的后一次实验取1%的数量。

表1 3组实验数据

4.2 实验结果与分析

表2列出了选择迁移算法ADS的3组实验数据:带异构噪声的源辅助数据、无噪音的源辅助数据、多异构噪声的源辅助数据在单分类器 (支持向量机、朴素贝叶斯、决策树)和集成分类器 (bagging 和Adaboost两个算法簇)的P、R、F1结果,集成分类器中分别实验了支持向量机、朴素贝叶斯、决策树3种基分类器下的不同集成效果。NB(NaiveBayes)是个体分类器朴素贝叶斯的缩写,bagging(NB)基于贝叶斯个体分类器的bagging分类模型最适合作为挑选辅助算法的原型。

表2 选择迁移的各分类器结果

由表3不同学习器训练得出的结果,观察test1得出以下结论:①总体上运用迁移的思想比直接根据少量目标训练的分类器性能要好,即在目标领域数据集中加入源辅助(无论有没有经过挑选)在P、R、F1 上结果都有所提高;②集成bagging的框架下的结果总体性能较高。每4个一组均满足集成bagging的优越型;③在所有的算法模型中,本文提出的基于选择迁移的bagging算法得出的精度最高,说明运用ADS算法先从源辅助数据中找出和目标领域最相似的数据,删除无关数据的必要性,实现跨领域跨分布的数据间的迁移利用,提高学习系统的总体性能;④第二组迁移不挑选数据集合中Transfer LibSvm 精度79.2793%低于第一组不迁移数据训练的结果84.2843%,利用单分类器迁移出现了负迁移,造成的原因可能是目标与源域的差异过大,但是经过选择迁移后该状况就没有了;⑤和预想有点特殊的是:Naivebayes单分类器的结果比集成Adaboost结果要好,说明该组数据集中各个属性较独立,所以Naivebayes精度较高,集成Adaboost是基于迭代,每次结果差异不明显,所以结果不如预期,也反映了Adaboost的有限性,不如bagging大体上稳定。

表3 不同学习器的结果

对于上述结论,结合test2 无噪音数据对比,test1 中的结论①~③均满足,即迁移与集成的应用效果明显,第2组与第3组引入辅助数据后精度基本能达到90%,表明添加辅助是有帮助的,基于选择迁移的集成bagging算法结果最优,代表本文算法的有效性。集成bagging运用在引入迁移后的混合集中效果明显,在普通训练集中效果与不集成的贝叶斯算法相当,说明在目标域数据少量情况下,迁移与集成思想相结合的相辅相成的关系。结论④~⑤不满足,负迁移现象在无噪音的数据上消失,整体呈现出迁移与选择迁移的优势,由于无异构噪音后,在源辅助中的噪音对目标干扰敏感度没有异构的扰动大,造成不同分布数据的迁移效果好转。结论⑤中本文可以得出预期的结论:集成的效果要比单分类器好。然而,对test3来说,结论有一些出入。test3中源辅助数据中的人工故意混入的异构噪音和相似领域辅助达到1:1,基本达到噪音的上限,因为当异构噪音比领域相似还要多,就丧失了加入大量相似辅助数据这个前提,即迁移思想引入的初始出发点就不存在了。本文实验发现此时普通的目标领域训练的分类模型准确度比加入迁移辅助数据准确率高,此时发生的状况就是负迁移。但是,第2组迁移实验和第3组选择迁移的实验对比发现,本文提出的选择迁移后集成的思想优于直接迁移,不删除噪音数据的源辅助的性能更低,所以除了Transfer LibSvm 算法学习性能上比A-TT LibSvm 高,其它无论是单分类器还是集成分类器都不如挑选后的数据集性能好,一定程度上证明本文的A-TTB算法比传统的Transfer Bagging的抗负迁移能力强。在test3中普通的目标训练集训练反而效果更好,是由于相比较本文选择20%的原始目标集数据作为训练集,在数量上还是可以达到几百到上千篇,这种数据量相对训练出来的准确率比噪音过大造成干扰要好的多,因此设想当这种训练集只占1%左右时候,本文的算法优势应该能突显出来。

表4列出test3在目标训练集为1%时的结果,显示本文A-TTB算法性能最好,突出目标训练集少量时的稳定性和优越型,适用于目标域训练集过少和不同分布训练的条件下。第3组运用迁移、集成框架下的P、R、F1 都比第一组普通目标训练集集直接训练的结果要优秀的多,特别是针对LibSvm 算法,准确率从50.381%上升到95.0889%,上升了近50%的精度,说明选择迁移ADS算法在噪音多的辅助中的重要度和可靠性。而观察第二组无选择迁移的情况下,运用集成算法Adaboost反而出现所谓的负迁移,而bagging算法基本和第一组的精度基本一样,一定程度上说明Adaboost在处理迁移数据集的问题时候对数据集的内部结构有一定的要求,每次结果差异不能太大,只要一次结果偏差过大对后面结果影响较多,训练的最后结果可能不理想。

表4 test3目标训练集为1%时的结果

上述过程已经验证A-TTB算法的效果,最后简单讨论test1中A-TTB的迭代次数从1~20下的准确率,bootstrap随机采样比X=0.8。对20NewsGroup新闻文本政治和摩托车作两分类,比较20次迭代下的精度和速度,综合考量迭代次数L 的值。图1 显示基分类器个数与精度的关系,当迭代次数为6~19时,准确率达到90%以上,12次时精度下滑但随后上升并逐步有下滑趋势。从图2基分类器个数与效率看出,时间随迭代次数稳步呈增加趋势,19次后时间增加很快,在迭代10次时时间有所下降,10~17次稳步增长。因此,本文迭代选择10次左右较合适。

图1 test1基分类器个数与精度

图2 test1基分类器个数与效率

5 结束语

本文提出一种基于选择迁移的bagging文本分类算法,该方法运用向量空间模型VSM 和tf-idf方法对文本进行预处理,采用合适的分类器根据目标域样本对源域进行筛选,得出有益的辅助数据加入目标域训练集中,根据有放回的抽样bagging集成方法训练文本分类,由均值投票方式得出最后的模型作为测试集预测的结果。在20新闻组的数据集上的仿真结果表明,该方法能减少噪音数据的干扰,降低分类的复杂度,提高分类的准确率,处理不同分布的数据。日后,研究的重点放在预处理过程中文本的挑选以及投票机制中基分类器的选择方面。

[1]MEI Canhua,ZHANG Yuhong,HU Xuegang,et al.A weighted algorithm of inductive transfer learning based on maximum entropy model [J].Journal of Computer Research and Development,2011,48 (9):1722-1728(in Chinese). [梅灿华,张玉红,胡学钢,等.一种基于最大熵模型的加权归纳迁移学习方法 [J].计算机研究与发展,2011,48 (9):1722-1728.]

[2]QIN Jiaolong,WANG Wei.Imbalanced data classification method for bagging combination [J].Computer Engineering,2011,37 (14):178-179 (in Chinese).[秦姣龙,王蔚.Bagging组合的不平衡数据分类方法 [J].计算机工程,2011,37(14):178-179.]

[3]JIA Yusheng.Research on chinese text categorization technology based on machine learning [J].Computer Knowledge and Technology,2011,7 (21):5194-5196 (in Chinese). [贾昱晟.基于机器学习的中文文本分类技术研究 [J].电脑知识与技术,2011,7 (21):5194-5196.]

[4]HE Ying.Modelling of near-infrared spectroscopy based on semi-supervised learning and transfer learning [D].Qindao:Chinese Marine University,2012 (in Chinese). [贺英.基于半监督和迁移学习的近红外光谱建模方法研究 [D].青岛:中国海洋大学,2012.]

[5]Kamishima T,Hamasaki M,Akaho S.TrBagg:A simple transfer learning method and its application to personalization in collaborative tagging [R].USA:IEEE International Conference on Data Mining,2009:219-228.

[6]LIU Wei,ZHANG Huaxiang.Ensemble transfer learning algorithm based on dynamic dataset regroup [J].Computer Engineering and Applications,2010,46 (12):126-128 (in Chinese). [刘伟,张化祥.数据集动态重构的集成迁移学习[J].计算机工程与应用,2010,46 (12):126-128.]

[7]WANG Shouxuan,YE Bailong,LI Weijian,et al.Comparison of decision tree,native Bayesion and native Bayesion tree[J].Computer Systems &Applications,2012,21 (12):221(in Chinese).[王守选,叶柏龙,李伟健,等.决策树、朴素贝叶斯和朴素贝叶斯树的比较 [J].计算机系统应用,2012,21 (12):221.]

[8]DING Shifei,QI Bingjuan,TAN Hongyan.An overview on theory and algorithm of support vector machines [J].Journal of University of Electronic Science and Technology of China,2011,40 (1):2-10 (in Chinese). [丁世飞,齐丙娟,谭红艳.支持向量机理论与算法研究综述 [J].电子科技大学学报,2011,40 (1):2-10.]

[9]FENG Guohe.Review of performance evaluation of text classification [J].Journal of Intelligence,2011,30 (8):66-70(in Chinese).[奉国和.文本分类性能评价研究 [J].情报杂志,2011,30 (8):66-70.]

[10]TANG Huanling,YU Liping,LU Mingyu.An enhanced TranCo-Training categorization model with transfer learning[J].Pattern Recognition and Artificial Intelligence,2013,26 (5):432-439 (in Chinese).[唐焕玲,于立萍,鲁明羽.融合迁移学习的TranCo-Training分类模型 [J].模式识别与人工智能,2013,26 (5):432-439.]

猜你喜欢

贝叶斯噪音分类器
噪音,总是有噪音!
无法逃避的噪音
噪音的小把戏
白噪音的三种用法
贝叶斯公式及其应用
加权空-谱与最近邻分类器相结合的高光谱图像分类
结合模糊(C+P)均值聚类和SP-V-支持向量机的TSK分类器
基于贝叶斯估计的轨道占用识别方法
一种基于贝叶斯压缩感知的说话人识别方法
基于LLE降维和BP_Adaboost分类器的GIS局部放电模式识别