APP下载

基于语义距离的迁移学习算法在消费意图识别上的运用

2021-04-22彭达冯超

电脑知识与技术 2021年8期

彭达 冯超

摘要:使用微博等短文本信息,识别判断用户的消费意图,对于电商以及数据分析者而言具有积极的意义。因此,借鉴Co-Class算法框架,借鉴微博特有特征信息,提出文本特征选择方法,设计语义距离计算方法,基于期望最大化算法(EM),使用SVM设计分类器,最终提出一种基于语义距离的迁移学习算法。通过实验,验证了算法的有效性,给出结论。

关键词:短文本;语义距离;迁移学习算法;消费意图

中图分类号:TP391.1      文献标识码:A

文章编号:1009-3044(2021)08-0210-02

随着微博、微信朋友圈,甚至运动软件等社交网络用户群的迅速增长,通过海量微博文本等短文本中识别某一用户是否具有消费意图,对于电子销售平台、信息分析公司或者大众消费者而言都有明显积极的意义[1]。由于微博等社交平臺的短文本限制,使用词袋模型表示会产生特征矩阵稀疏导致识别效率低下等问题。所以,研究跨领域中文短文本消费意图探测识别,设计基于语义距离的半监督统计方法,对数据建模,具有重要的意义。

本文提出的基于语义距离的迁移学习算法主要工作可以分为以下几个步骤:文本预处理、特征的提取以及选择、语义距离计算、分类器的训练。其中文本预处理主要是切词、分词、转化标点符号以及去除明显错误,从而消除语料对于算法性能的影响,为算法的仿真实验做好铺垫工作。特征的提取以及选择是本文的一项主要工作,传统的迁移学习算法会丢失掉微博中标签等特征信息,降低了识别成功率,本文提出将微博中其他标签信息融入识别算法中,从而提升了算法的识别率。语义距离的计算主要是为了训练分类器,最终分类结果为积极的消费意图(P)、消极的消费意图(N)、无消费意图(E)。本文借用标准化谷歌语义距离,提出标准化百度语义距离,提升了算法的识别率。最后,本文改进了Co-Class算法,设计了一种基于语义距离的迁移学习算法(EM Method based on Semantic Distance, S-EM)(记为S-EM算法,下同),给出了算法框架,设计仿真实验,实验结果验证了算法的有效性。

1 基于语义距离的迁移学习框架

本章节提出一种基于语义距离的迁移学习框架,用以研究跨领域中文短文本消费意图探测识别。本章节从基于信息增益算法的文本特征选择、基于微博特有特征的文本特征选择、基于EM算法的迁移学习、文本语义距离的计算方法四个方面展开,最终给出基于语义距离的迁移学习框架算法,用以研究跨领域中文短文本消费意图的探测识别。

1.1 基于信息增益算法的文本特征选择

通过比较不同特征的信息增益,可以有效地选择更为重要的语料特征,从而为后续的迁移学习算法提供基础支撑。

1.2 基于微博特有特征的文本特征选择

考虑到现在中文微博平台的自身特有特征,对于文本选择具有重要的意义。可以考虑的特有特征有:

FEATURE1:对于微博而言,“@”通常表示喊话某人,对于消费意图的识别没有帮助;而“#”通常包含某条标签,有无标签对于消费意图的识别也没有特别大的影响,将“#”和“@”包含的标签删除是一个比较有效的特征选择方法。

FEATURE2:微博用户通常会带有“学生”“IT”“北京”等标签,这些用户自身的标签,对于文本的分类以及用户活跃性的判断有重要的作用,所以可以将这些用户标签用于特有特征的甄别。

FEATURE3:由于微博用户发表消息时并不会认真检查文本内容,对于海量文本信息,输入法导致的错别字几乎不可避免,通过对人名、地名以及动词“买”“卖”等关键词转化为拼音可以一定程度上减少错别字带来的影响。

1.3 基于EM算法的迁移学习

Nigram等人将最大期望算法(Expectation Maximization, EM)与朴素贝叶斯算法(Naive Bayes, NB)结合作为迁移学习的算法[2],可以有效地提升分类器模型的有效率。本文采用的迁移学习框架基于EM算法,这里简要介绍一下EM算法的基本原理:

STEP1:初始化参数[θ],开始迭代过程;

STEP2:对迭代过程求期望,记[θi]是第[i]次迭代后参数[θ]的值,在下一次迭代,即[i+1]次迭代,计算参数的期望:

其中,[DL]为标注数据,[DU]为隐含数据,联合分布为[PDL,DU|θ],条件分布为[PDU|DL,θ],而[PDU|DL,θi]是在给定标注数据[DL]和当前迭代次的参数[θi]下的数据[DU]的条件概率分布。

STEP3:最大化期望,求[Qθ,θi]最大化的参数[θ],并求得第[i+1]次迭代过程后参数[θ]的估计值[θi+1]:

STEP4:重复步骤2和步骤3直至算法收敛。

1.4 文本语义距离的计算方法

Cilibrasi等人提出,将消费意图整个网络当作一个词库性质的数据库,利用搜索引擎,例如Google或者Baidu,用以衡量网络中任意两个词汇的相似程度[3]。提出了一种新的距离模式,叫作标准化谷歌距离(Normalized Google Distance, NGD),计算任意两个词汇[w1]和[w2]的谷歌距离:

对于中文文本而言,使用Baidu搜索引擎计算文本语义距离更为适合本土化语言的特点。本文定义了标准化百度距离(Normalized Baidu Distance, NBD),用于计算中文词汇的文本距离。

2 实验

本章节主要根据提出的基于语义距离的迁移学习框架,对比其他学习算法,通过实验仿真,证明基于语义距离的迁移学习框架可以有效提升消费意向探测以及识别的准确率。这里需要说明的是,仿真实验的初始数据经过了基础的数据处理过程,以消除语料错误对于算法识别率的影响。

2.1 算法特征有效性实验

准确率和召回率是目前应用于信息检索领域和统计学分类领域的两个主要度量值,反映了检索系统实验结果的质量。实验采用的微博文本特征设置如下表1所示。

2.2 算法特征有效性实验

使用本文提出的基于语义距离的迁移学习算法S-EM进行仿真实验,选择最优的特征。实验结果如下所示。

根据上表所示,比较不同维度后的实验数据,主要对比F值,可以得到以下两条结论:

结论1:三词(trigram)特征整体比双词(bigram)性能要好;

结论2:3000维的搭配性能要强于1000维和5000维的搭配。

2.2 拼音特征搭配实验

使用单词模型(unigram)将本文分词转化为拼音,设置1000维、1500维以及2000维三种类型,对比F值,实验结果如下表4所示。

根据上表所示,比较不同维度后的实验数据,主要对比F值,可以得到以下一条结论:

结论3:3000维trigram与1500维拼音特征搭配性能要好。

3 结束语

本文提出了一种基于语义距离的迁移学习算法,通过不同条件下的仿真实验,可以认为三词(trigram)特征整体比双词(bigram)性能要好;3000维的搭配性能要强于1000维和5000维的搭配;3000维trigram与1500维拼音特征搭配性能要好。通过设置相同的仿真条件和语料,可以证明本文提出的S-EM算法的性能略微优于Co-Class算法。适用于微博等短文本媒体平台,对于博客等长文本消费意图的识别将成为下步研究的重点。

参考文献:

[1] 贾云龙,韩东红,林海原等.面向微博用户的消费意图识别算法[J].北京大学学报:自然科学版, 2020(1):68-74.

[2] 卢晨阳,康雁,杨成荣等.基于语义结构的迁移学习文本特征对齐算法[J].计算机工程,2019, 45(05):116-121.

[3] 鲁强,刘兴昱.基于迁移学习的知识图谱问答语义匹配模型[J].计算机应用,2018, 38(07):1846-1852.

【通联编辑:张薇】