基于生存法则的稳定新词识别方法的研究∗

2018-05-15符贤哲刘胜全刘艳郭竹为赵美玲

新疆大学学报(自然科学版)（中英文） 2018年1期

符贤哲，刘胜全，刘艳，郭竹为，赵美玲

(1.新疆大学软件学院，新疆乌鲁木齐830046；2.新疆大学网络与信息技术中心，新疆乌鲁木齐830046；3.新疆大学信息科学与工程学院，新疆乌鲁木齐830046)

0 引言

随着互联网技术的发展，微博、论坛等社交媒体的出现对人们的工作、生活、学习等方面产生了重要的影响．这些社交媒体的出现和发展使新事物不断涌现，新事物、新现象、新观念的出现，产生了大量的新词，即人们在认识和表达新事物所代表的社会事件、流行语等现象时，需要通过构造新的词语来满足交际的需要，这些新词汇借助网络平台迅速产生、发展或消亡[1]．由于网络新词常常是对一件事或者一种社会现象浓缩概括而得，因此这些词往往蕴含了网络的热点主题，反映着网民对社会热点事件的一些情绪态度[2]，如：金饭碗、然并卵、累觉不爱、人艰不拆等．检测识别这些网络新词有助于舆情信息的发现和检测．但是，大部分网络新词都是昙花一现，只有少部分在语言系统中站稳了脚跟[3]．因此新词的识别也应该随着时间，不断地剔除已过时或者淘汰的词语，一方面保持网络新词的新颖性和稳定性；另一方面，可以更加精准的把握当前的舆情信息．

目前在自然语言处理领域中，对于网络新词的识别已经有大量的研究．大体分为基于规则和基于统计两种方法．由于网络新词不规范无规则等特征，研究方法主要还是以统计方法为主，规则方法为辅．基于统计的方法主要是在大量的语料中对出现的词汇进行词频统计，然后使用互信息、邻接类别等统计量对候选词串进行过滤，发现新词．近些年，新词的识别方法一方面通过改进各种统计量特征提高新词的识别准确率；另一方面，通过对词语在时间分布中表现的特征来识别网络新词，都取得很好的效果．如杜丽萍[4]等通过对互信息统计量的改进算法来提取新词，解决了互信息量在低频共现字符串异常敏感问题，更正了该统计量在新词识别中存在的影响；陈飞等[5]归纳了许多区分新词边界的统计特征，利用条件随机场（Conditional random fields，CRFs）方法并综合这些特征在大规模语料上进行新词发现实验，在新词的准确率上有很好的效果．Peng等[6]将词汇特征和领域知识特征融入到模型中，利用CRF训练，进而识别新词．邹刚等[7]通过时间点将候选词串分为前后背景集合，通过集合的差集进行新词的识别；吴悦等[8]综合前、背景语料的二元似然比挑选候选词，然后利用频率、刚性等统计量进行扩展发现新词．林自芳等[9]首先进行重复串查询，然后结合词内部模式的特征对位置成词概率和首尾单字成词概率进行加权和改进，最后统计互信息、邻接类别等统计量识别新词．刘哲等[10]通过词语频度变化以及共现词语分布一致性识别网络新词，对旧词新义词的提取有很好的效果．黄轩等[11]根据词的频率、上下文特征以及时空特性进行新词发现，之后用词性规则对候选词过滤，提高新词发现的准确率．

但是上述这些方法都未考虑新词在时间分布过程中的稳定性特征，未考虑网络新词的时效性，随着识别时间的增加，不稳定的新词会逐渐淘汰为垃圾词，影响新词的识别结果．因此本文通过词语在语言环境中表现的综合竞争力建立自然法则模型，不断地发现新词的同时去除之前识别的不稳定网络新词，使得识别的新词即保持新颖性也保证了稳定性．

1 网络新词的时频分布特征

1.1 网络新词的时频特征分析

网络新词的时频分布是指新词随着时间的推移出现的频率变化情况．由于网络新词并未形成标准化定义，不同的人对于新词的理解各不相同，存在不同程度的定义问题．所以本文中的网络新词是指因某种社会现象、社会问题在网络上出现、流行、被广泛认可并不断融入人们生活的非正式语言[10]．

通过对微博中出现的各种网络新词的时频分布进行分析，将网络新词的特征总结为如下两个特征[10]：一是新词出现的时间点之前很少被使用或者从未被使用．二是新词出现后的一段时间，词频呈现波动增长趋势，被使用的频率表现出不稳定性．如图1和图2所示，新词在刚出现时词频有明显的突增，但在一段时间后会出现类似股票波动的趋势．但是之后新词的词频使用情况表现为不同的趋势：一种是新词的词频在一个时间点后迅速下降直至消失，本文将这类词统称为非稳定新词（伪新词），具体的词频变化情况如图1所示，如“无鞋”，“走你”，“蓝瘦”等；另一种情况是新词的词频小范围的波动，逐步稳定在一个恒定的区间，本文将此类词统称为稳定新词，具体的词频变化情况如图2所示，如“给力”，“吐槽”等．从以上的表现情况可以发现新词的存在具有时效性，有些网络新词存在一段时间后会迅速消亡，而有些新词可以长久稳定的存在．

图1 低频非稳定新词和高频非稳定新词时频分布图

图2 低频稳定词和高频稳定词时频分布图

1.2 网络新词的生存法则

庄美英等[12]认为新词的流行和传播是一种语言模因现象，网络新词的出现是该语言变异进化的过程．新词存在需要经过竞争和选择，受到“物竞天择适者生存”的生存法则约束，主要表现为大量的网络新词为争夺大脑的注意力资源和在记忆中的保存时间而进行激烈的竞争，结果就是优胜劣汰[12]．而影响新词的竞争力强弱的有内在因素和外在环境因素．内在因素主要是指新词的自身词语完整性；外在因素是指新词的新颖性，熟悉度以及显著度[13]，文中使用新词活力表示．

下面给出本文中使用的概念定义．

定义1新词的词语完整性，指的是词语的内部结合力和灵活性，是词的基本属性，不随时间变化，在一段较长时间内基本恒定．

其中内部结合力是指组成新词的词元之间的结合程度，中文中组成词的词元为单个字．互信息(PMI，Pointwise Mutual Information)统计量能够很好的反映字串之间的结合强度[4]．因此本文采用词语的互信息值来衡量词结合力．新词的灵活度表示使用该词的上下文环境的丰富程度，即与该词相邻使用的不同字符的不确定性程度．本文使用词语的加权邻接熵(wBE,weighted Branch Entropy)计算词语的灵活度[14]．词的内部结合力与灵活度互斥，因此候选词w的词语完整性W计算公式（1）：

其中，pmi表示组成新词w的词串wx，wy计算的互信息值，k的值取决于语料的数量，计算见公式（2）；wBE(w)表示新词w的加权邻接熵[7]，计算见公式（3）如下．

其中p(wx)p(wy)表示字符串wx和wy的概率，p(wx,wy)表示字符串wx和wy的联合概率．

其中，c表示与新词w相邻的字符；n表示与新词w相邻的不同字符数目；λc表示字符c成为邻接字符的概率，计算见公式（4）；p(c|w)表示字符c与新词w相邻出现的概率．

定义2新词的活力，指词语在该语种语言环境下被大众使用的或者记忆的状态，即活跃于大众的脑海中的情况．

刻画这一属性值，本文借鉴遗忘定律给出如下5个假设作为新词活力计算的前提约束．

假设1对于大量用户而言，在较长统计周期内词语的出现频率相对稳定．

假设2在语言环境中，所有的词语都按照相同的规律进行遗忘．

假设3偶尔或随机出现的词语，会随时间而逐渐淡忘．

假设4具有相对稳定重复再现的词语，虽然也按同样的规律遗忘，但由于周期性的得到补充，从而可以动态的保留在记忆中．

假设5新词刚出现之后的较短时间内词频波动较大，出现频率不稳定，但总体上具有增长趋势．

新词的活力表示当前该词存在语言环境中被记忆的状态．该状态受到上一时刻该词存在状态的影响，同时与当前时刻该词出现状态相关．当前时刻该词的出现状态主要考虑词出现的频次以及该词的词频变化波动情况．词频变化波动情况表现该词正在发生变化，具有成为新词的新颖性特征．通过该特征还可以提取一些词频较低但是具有较大成词概率的词，避免仅仅依靠词频高进行筛选带来的低词频新词遗漏的问题．

设定单位时间为t，以及考察周期为T，词语w在单位时间t的出现频次为a[t]，则从时间t−T/2到t+T/2为一个考察区域．则在一个考察区域内，词语w出现频次集合为A=(a[t−T/2]，a[t−T/2+1]，···，a[t+T/2−1]，a[t+T/2]）；词语w在一个考察区域中出现频次的均值P计算见公式（5）；词语w在一个考察区域中出现频次的方差D计算见公式（6），在考察区域中词语的出现频次方差越大，表明词语出现频率越不稳定，成为新词的特征就越明显．

词在时刻t的活力H计算见公式（7）．

其中，t表示上一时刻；H(w,t)表示上一时刻t时词w的活力值；α表示记忆衰退系数，取值参考艾宾浩斯曲线中的实验值；tf(t,w)表示词语w在单位时间t时的使用次数；d(w,t)表示归一化后的方差；∆p(w,t)表示在时间t时，词语w的词频增长率，具体计算见公式（8）．

定义3新词的竞争力，表示新词在语言环境中存活的能力，即新词能否转变为大众所认知接受的普通词汇．该值的大小是词语的完整性以及词语的活力共同作用的结果．故本文使用词语的完整性与活力的乘积作为新词的竞争力的大小．新词w在时刻t时竞争力Z的计算见公式（9）．

其中，Z(w,t)表示新词w在时刻t的竞争力；W(w)表示新词w的词语完整性；H(w,t)表示新词w在时刻t的活力值．

2 基于生存法则模型的稳定新词识别方法

基于词的生存法则模型的网络稳定新词识别总体过程主要先将分词工具错误切分的词串融合生成候选词串,然后通过词性规则以及词语完整性特征过滤得到候选新词，再使用词语在语言环境中的竞争力来检测，进而识别判断是否为稳定新词．具体的网络稳定新词识别流程如图3所示．

图3 网络稳定新词识别流程

2.1 融合候选词串提取

融合候选词提取方法是对分词方法回顾捡漏，是对分词方法的补充．该方法的效果与分词方法有关，主要提取无法被正确划分的词串．候选词提取的一个重要依据是字符串的结合紧密程度，表示融合词串之间的结合程度，反映了字符串在语言环境的内部结合力．另一个重要依据是融合词串的灵活性，表示融合词串的上下文相邻不同词语的数量，反映了融合词串在语言环境被使用的灵活程度．因此融合词串过滤主要分三层：1）首先通过停用词表，过滤掉包含停用词的词串；2）通过融合词串的词性规则过滤一些词串；3）计算融合词串内部结合力和灵活度，将两个指标相乘得到词语的完整性值，进而提取值较大的部分融合词串，作为候选词串．具体步骤：

步骤1使用停用词表将分词后的文本分割若干个小单元；然后将各小单元中相邻散串重新组合为新的词串，词串的词长应小于L（除包含英文字符）；之后使用正则表达式对组合而成的词串的词性进行过滤，去除掉与新词无关的噪声词，主要包括虚词、日期、副词、助词、连词、拟声词以及语气词开头或者结尾的组合词串．

例如：中华人民共和国史上最牛逼的综艺一哥，无产阶级主持人

分词后：中华人民共和国/ns史/g上/f最/d牛/g逼/v的/u综艺/n一/m哥/n，/w无产阶级/n主持人/n

使用停用词以及词性规则融合过滤后：

史上，牛逼，综艺一，综艺一哥，一哥

步骤2将步骤1过滤后的融合词串，按时间组合排序，然后统计单位时间t中新生成的字符串信息的词频F，提取当日词频F大于阈值M的词串，并将其认定为新词的候选词串．阈值M的大小与文本数据量的大小有关，目的在于提高算法的性能．

步骤3计算步骤2过滤后的融合词串的词语完整性(内部结合力，灵活度)，获取每天词的完整性值最大的前N个融合词串作为当天新词的候选词．N的取值与当天数据量大小有关．

2.2 基于竞争力的稳定新词检测算法

基于竞争力检测新词的算法，依据原始语料计算候选词的活力值，结合词语完整性计算每个候选新词各个时刻的竞争力，然后不断地剔除竞争力小于阈值∂的候选新词，将训练时长det大于考察周期T的候选词挑选出来作为稳定新词．

算法的描述如下：

Input：

D={d1，···，di，···，dn}：D为时间集合，其中的元素是一些连续的时间节点，di表示第i时刻

C={|di∈D;i=1,2,...,n}：C为候选词集合，其中CWi表示di时刻的候选词集合

DT={|di∈D;i=1,2,...,n}：DT为原始语料集合；其中STi表示i时刻汇总的语料

TW：训练新词集合，存放具有竞争力的候选词和该词的训练时长det

Output：

NW：稳定新词集合

函数声明：

ComputeH(cw’.h,cw,STi)：通过公式（7）计算候选词cw的在di时刻的活力值．cw’.h为候选词cw在上一时刻的活力值；STi为原始预料，通过STi可以统计得到候选词cw在di时刻的词频tf，方差d以及词频增长率∆p

ComputeZ(cw)：依据公式（9）计算候选词cw的竞争力

算法：

1：for diin D do//遍历语料中的所有时间点

2：for cw in CWido//遍历时刻di提出的候选词

3：If cw∈TW

4：ComputeH(cw’hcw,STi);

5：cw.det++;//训练时间递增

6：else

7：ComputeH(0,cw,STi);//如果候选词不在训练集中，则该词上一时刻活力值为

8：cw.det=;//初始训练时间为

9：put cw into TW;

10：ComputeZ(cw);

11：end for

12：for cw in XW do

13：if cw.z<∂//cw.z表示候选词cw当前的竞争力大小

14：delete cw from TW;

15：else if cw.det>T

16：remove cw from TW into NW;

17：end for

18：end for

19：return NW

3 实验及结果分析

3.1 实验环境

本实验中采用的语料来自于自然语言处理与信息检索共享平台提供的微博语料．语料中的微博数据从2009年10月到2014年4月，总共包含了大约500万条微博评论数据，实验中的分词工具使用的是开源的HanPL中的CRFs分词方法．由于语料比较庞大，难以人工统计语料中出现的全部网络新词．本文中参考提取的候选词中的新词代表全部语料的新词总量．目前新词的定义比较模糊，没有具体的界定方法．本文借鉴刘哲[3]的新词定义，人工对语料中2010年9月、2011年3月、2014年2月份的网络新词进行划分，进而对新词识别算法进行测评．具体的准确率计算见公式（10）．

3.2 实验及结果分析

实验过程中各阈值的设置：由于大部分新词的词长小于5[5]，因此将融合候选词的词长阈值L设置为5．而当日词频阈值M和词语完整性过滤中的阈值N是通过对语料中每日融合新词统计得到的，在M取值为2，N取值为30时，过滤效果最好．计算词语的活力值时，使用的记忆衰退系数α则分别选取艾宾浩斯曲线中各个时间段的记忆保留比率进行实验，其中选用6天的记忆保留比率25.4%时收敛效果最好．

实验总共分两个部分：

第一部分：验证算法中新词识别统计量的有效性．本文在识别新词中总共使用了三个统计量，分别为新词的词语完整性、新词活力以及新词的竞争力．其中，新词的词语完整性指标主要是对词语进行静态化的衡量和过滤．新词的活力以及新词的竞争力都是对新词在时间分布上的词频变化进行新词的识别．本文提取语料中2010年9月，2011年3月，2014年2月的数据做了新词识别实验，实验结果如表1所示．

表1 实验中统计量测试

从实验数据可以得到，通过融合词串的方式会产生大量的垃圾串，通过当日词频简单的过滤后可以极大地降低系统的运算量，提高识别的效率．通过分析每天通过词语完整性过滤之后的候选词，占前一天通过的候选词的50%以上．而通过词语竞争力检测后，识别的新词总量大致稳定，说明虽然每天都有新词的产生，但是淘汰的新词大致与新产生的新词数量相同．

第二部分：在第一部分实验的基础上，增加基础语料的规模(2013年1月至2013年7月的微博数据)．通过实验验证算法的准确性，稳定性和连续性．实验结果如图4所示．同时与ICTLAS[16]的新词识别方法做了对比，对比结果如表2所示．

表2 实验对比

实验结果表明，本文提出的基于新词的生存法则模型识别稳定新词的准确率在80.21%以上，相比ICTLAS的新词识别方法，准确率提高了3个百分点，而且可以产生最新的新词词库．开始的第1个月份识别准确率相对较低，分析其主要原因为考察周期较短，识别的网络新词中包含较多随事件产生的网络词语或词组，如“马航”、“失联”、“抢票”、“央视春晚”等词语．这些词随着考察期拉长，逐渐被淘汰过滤，准确率会随着时间的推移不断提高，但是在5月份之后准确率下滑．通过数据结果的分析，主要原因为每天的候选新词中总会出现一些高频固定搭配的词语，比如“工作人员”、“人力资源”、“联系电话”等．这些词语无法通过竞争力进行有效的过滤影响算法准确率的提升．

图4 算法准确率随时间变化情况

图5 新词中各成分所占比

新词成分所占比例如图5所示．从新词发现的成分实验数据中看出，本文使用的方法可以有效的识别新词中的稳定新词成分．其中稳定新词可以成为舆情概念的候选词，提高概念抽取的准确率和召回率，为之后舆情分析提供支持．从事件词的成分，本文识别的事件词中包含的大多是最近较为热点的事件词，相对于ICTLAS更能反映当前的热点主题事件．

4 结束语

本文方法对网络新词的识别算法能够较好地发现网络短文本中出现词义完整且稳定的网络新词，提供了持久化的稳定新词发现方法．识别的新词可以有助于舆情本体概念的抽取[15]，补充完善该语言现存的词库，为后续新词的语义分析提供支持，而且识别方法中可以完整地记录一些事件词汇的生存时间，并通过竞争力的变动可以侧面地反映该事件变化情况，通过事件词与其相关词汇的竞争关系也可以发现一些事件漂移现象的变化规律．下一步将文中识别的稳定新词加入舆情本体的概念集，动态化地构建舆情本体知识库，同时通过新词的竞争过程发现网络事件的发展情况，对网络舆情做更深入的研究．

参考文献：

[1]王素改.微博中的新词新语研究[J].鸡西大学学报,2016,16(9):150-153.

[2]李文坤,张仰森等.基于词内部结合度和边界自由度的新词发现[J].计算机应用研究,2015,32(8):2302-2304.

[3]吕屏,杨永红.网络新词与网络舆情研究[J].西华大学学报(哲学社会科学版),2010,02:102-106.

[4]杜丽萍,李晓戈,等.基于互信息改进算法的新词发现对中文分词系统改进[J].北京大学学报(自然科学版),2016,01:35-40.

[5]陈飞,刘奕群,魏超,等.基于条件随机场方法的开放领域新词发现.软件学报,2013,24(5):1051-1060.

[6]Peng Fuchun,Feng Fangfang,McCallum A.Chinese segmentationand new word detection using conditional random f i elds[C].Proc of the 20th International Conference on Computational Linguistics,2004:221-227.

[7]邹纲,刘洋,刘群,等.面向Internet的中文新词语检测[J].中文信息学报,2004,06:1-9.

[8]吴悦,燕鹏举,翟鲁峰.基于二元背景模型的新词发现[J].清华大学学报,2011,51(9):1317-1320.

[9]林自芳,蒋秀凤.基于词内部模式的新词识别[J].计算机与现代化,2010(11):162-164,167.

[10]刘哲,黄永峰,罗芳,等.网络新词识别算法研究[J].计算机工程与科学,2013,09:141-145.

[11]黄轩,李熔烽.博客语料的新词发现方法[J].现代电子技术,2013,36(2):144-146.

[12]庄美,何自然.物竞天择适者生存–从模因论的纬度看新词酷语的流行现象[J].湖北社会科学,2010,07:115-117.

[13]易波.论新词新语的熟悉度和显著度[J].四川教育学院学报,2009,11:58-60.

[14]苏其龙.微博新词发现研究[D].哈尔滨工业大学,2013.

[15]张学芳,刘胜全,刘艳,等.舆情本体概念抽取研究[J].新疆大学学报(自然科学版),2016,33(3):333-337.

[16]张华平.NLPIR汉语分词系统.http://ictclas.nlpir.org/．