基于自主学习的ART算法研究

2014-01-25郑学伟

电大理工 2014年3期

郑学伟

1辽宁广播电视大学，（沈阳 110034)2辽宁装备制造职业技术学院，(沈阳 110161）

传统的自主学习需要一组足够多的已标记样例作为训练集，否则无法获得足够泛化性能的自主学习方法，而在实际应用中，得到大量标记样例是非常困难的，甚至无法实现；试图通过发现未标记样例中的隐含结构，从而构造出相应的学习器，这导致自主学习通常很难保证较高的学习精度。因此，将少量带标记样例和大量无标记样例结合的半自主学习成为机器学习研究热点。

Tri-training算法是Zhou等提出的一种新的Co-training模式半监督分类算法，本文提出一种能够降低误标记样例数的ART算法。该算法结合SVM自主学习辅助策略和富信息策略到Tri-training学习过程，在每次迭代生成新训练集时，首先用SVM自主学习辅助策略降低新标记样例中可能的误标记样例数以减少新训练集的噪声，其次采用富信息策略训练学习器，获得另一个学习模型；重复这个过程，直到满足停止准则，学习过程结束。实验表明，ART算法优于Tri-training算法。

1 ART算法

1.1 Tri-training训练过程

假设初始少量带标记的样例集为L，由L训练得到3个不同的初始学习器H1，H2和H3，x是无标记样例集U内任意一点，Tri-training迭代训练基本过程为：如果H2和H3对x的分类结果H2(x)和H3(x)一致，那么可将x标记为H2(x)并加入H1的训练集，如此形成H1的新训练集S1=L∪{x|x∈U且H2(x)=H3(x)}。类似地，H2和H3的训练集也分别扩充为S2和S3，然后3个学习器重新训练，如此重复迭代，直至H1，H2，H3都没有变化，训练过程结束。

显然，Tri-training迭代训练过程中H2和H3共同标记x为H2(x)，并给H1作训练数据时，如果准确性足够高，会优化H1的训练结果，否则会在H1的训练集中加入噪声，影响训练效果。为此，Zhou等分析得出一个能使假设分类错误率迭代降低的充分条件，并以该充分条件作为判断准则来决定新标记的样例集是否应该被加入新训练集。由于Tri-training算法所采用的判断准则不仅没有移除噪声，而且限制了无标记样例被加入新训练集的数量，因此导致Tri-training算法不能充分地利用无标记样例，进而提出本文算法。

1.2 ART算法学习策略

对机器学习来说，采样策略是必须的。富信息策略是一种特殊的采样策略，即，一个弱学习器不能很好学习的样例，将尽可能成为下一个弱学习器着重学习的样例。本文中，“富信息”样本的选取方法：如果某个样例被当前弱学习器准确分类，则在构造下一个分量学习器的训练集时，它被选中的概率为0；相反，如果某个样例没有被正确分类，则它入选下一个分量学习器训练集的概率为1。通过这种方式，学习器能够聚焦于那些比较容易出现错分的样本，从而使学习器获得较好的学习效果，提高分类精度。

1.3 ART算法描述

算法的基本设置是给定一个具有N类数据的已标记样例集、验证集、无标记样例集以及测试集，所采用的三个分量学习器为SVM1(多项式核函数)、KNCN、SVM2(RBF核函数)，辅助学习器为SVM3(线性核函数)，当在验证集上的集成测试达到稳定状态后算法终止。

2 算法应用

2.1 实验数据

本实验共150个音频数据，其中包括：有说话声样本、音乐铃声、各种动物声音、环境音以及交通工具声等。音频数据的长度为4s，采样率为8kHz，量化精度为16Bit。实验中采用的音频信号帧长为32ms、帧移10ms、预加重系数α取0.97、Mel滤波器的个数为24，并提取每个训练样本的14维特征：第3层小波低频系数的MFCC均值、质心方差、谱熵方差。

2.2 实验结果及分析

为比较验证Tri-training算法、仅采用富信息策略R-Tri-training算法以及结合富信息策略与辅助学习策略ART，本文对已标记样例数为5、10、20，无标记样例数分别为1、10、20、30、40、50、60的情况进行了以上3种算法的实验。所进行的实验都是基于相同的验证集、测试集，标记样例数和无标记样例在测试集上测试率的比较结果如图1所示。

通过实验结果可得出，在具有相同已标记样例，无标记样例比例的情况下，本文算法优于前两者算法。

在已标记样例个数相同的情况下，由于Tri-training算法不能充分地利用无标记样例，因此Tri-training算法的测试率逐渐降低；然而R-Tri-training算法在Tri-training算法的基础上添加验证集，能够使得算法聚焦于出错样本，从而提高测试率，但噪声数据依然存在；本文算法在增加1个学习器的基础上结合富信息策略与辅助策略，达到降低误标记样例的目的，充分地利用无标记样例的信息，进一步提高测试率，并且体现半自主学习的本质特点。

同时，为了证明本文算法具有降低噪声的能力，我们对ART算法、RT算法在训练过程中所出现的噪声数进行了统计。在已标记样例数为10的情况下，无标记样例数分别为10、20、30、40、50、60的统计结果如表1所示。从表中我们很容易看出，本文算法ART有效的降低了噪声。随着样本数的增加，ART算法优于R-Tri-training算法，如，无标记样本数为60时，本文算法统计结果是4，而R-Tri-training统计结果是18。由此可见，本文算法结合富信息策略与辅助策略，充分利用了无标记样例信息，有效的降低了误标记样例，起到了降低噪声的能力。

表1 两种算法在训练过程中出现的噪声数统计结果

3 结语

针对Tri-training算法引起积累噪声以及无标记样例利用率低，本文提出了基于辅助学习的ART算法，并将其引入说话声识别。该算法采用富信息策略，使得错分样例成为弱学习器着重学习的样例，从而提高学习器的分类精度；采用辅助学习策略，能够有效地降低ART算法训练过程中积累的噪声，同时提高了无标记样例的利用率。实验验证了该算法在噪声性能方面的有效性。

[1]李昆仑,张伟,代运娜.基于Tri-training的半监督SVM[J].计算机工程与应用.2009,45(22):103-106.

[2]张雁,吕丹桔,吴保国.基于Tri-Training半监督分类算法的研究[J].计算机技术与发展,2013,23(7):77-79.

[3]邓超,郭茂祖.基于自适应数据剪辑策略的Tri-training算法[J].计算机学报,2007,30(8):1213-1226.

[4]徐庆伶,汪西莉.一种基于支持向量机的半监督分类方法[J].计算机技术与发展,2010,20(10):115-117.