APP下载

基于语义规则和关联规则的特定领域中文术语字典的构造

2019-03-27杜翠凤陈雍君沈文明李建中

移动通信 2019年2期
关键词:关联规则

杜翠凤 陈雍君 沈文明 李建中

【摘  要】针对当前特定领域中文术语字典构建工程量巨大、自动化程度低的问题,提出一种基于语义规则和关联规则的特定领域的中文术语字典构造方法,以提高构造中文术语字典的智能化程度,减少人工的参与。将语义规则和关联规则引入特定领域中文术语字典的构造,在分词基础上,采用互信息、上下文以获取种子词;其次,以改进Textrank创建新术语或对现有的术语进行扩展;最后,结合语义规则和关联规则优化本领域的术语,形成特定领域、动态更新的中文术语字典。实验证明:本文提出的方法提高了特定领域术语提取的概率和效率,能够从语义层面为智能信息检索与集成、潜在语义分析提供更有效、精准的信息服务能力。

【关键词】术语字典;语义规则;关联规则;Textrank

1   引言

人工智能的提出与发展,要求计算机或者机器人具备从语义层面上认知和理解人类语言或者文字的能力,最终实现信息无歧义地交互。术语作为刻画、描写领域的基本信息承载单元,是知识库的核心成员,也是本体构成的基本单元[1]。术语提取的准确率和完备性直接影响到信息检索和集成的服务能力,因此,术语自动化提取研究已经成为自然语言领域的一个研究热点。具体包括:利用互信息、上下文依赖提取文本的种子词方法[2-4];结合词频方法对词语进行拼接构成关键领域复合词[5-7];采用领域一致度、领域相关度、领域隶属度定量衡量术语之间的关联度[8]。基于互信息、上下文依赖、信息熵的种子词提取方法,以文本频繁词为基准点,采用向前或向后的拼接方式合成文本种子词,该方法提取的术语具有较高的完备性,但是计算复杂度太高;除此之外,该方法没有考虑中文语法层次的问题,会造成大量的非领域复合词或者术语。采用领域一致度、领域相关度、领域隶属度的术语提取方法虽然能够较好地提取该领域的复合词和术语,但是各指标的阈值很难找到一个最佳值。本文在借鉴相关学者研究成果的基础上,在力求字典完备性的基础上,通过构建种子词网络,大大降低词语关系计算的复杂度。采用改进Textrank创建新术语或对现有的术语进行扩展,以满足特定领域字典的动态更新的要求,符合现代海量文本术语高速提取的需求。

2   术语字典提取流程

术语字典的提取流程:

(1)多个领域语料库的非结构化文档作为语料库,作为模型的输入。

(2)采用互信息、上下文依赖等指标提取种子词,并构建种子词网络。

(3)采用改进Textrank算法创建新术语或者对现有术语进行扩展,形成候选术语集合。

(4)采用术语语义规则提取候选术语集合中满足条件的术语。

(5)采用关联规则,筛选非特定领域的术语,形成特定领域中文术语字典。

图1为术语字典的提取流程:

3   实验验证

3.1  数据说明

本文以中国知网收集的600份关于人工智能、移动通信、经济管理领域的文章作为数据基础,用于特定领域的术语提取。采用上述的流程对文本数据进行预处理,并对本文提出的算法进行验证,将本文算法的提取结果与基于互信息的提取结果进行对比。

3.2  实验过程说明

(1)构建种子词网络

首先,利用hanlp分词系统对语料库的非结构化文本进行词语的最小单位划分、词性标注;然后在词性标注的基础上,从分词中提取满足条件的词语或者词语组合作为种子词。本文采用互信息、上下文依赖等几个指标的综合值作为种子词选取的标准。

针对传统互信息会弱化词语在語料中出现的概率问题,本文引入概率影响系数对互信息进行改进,其公式为:

其中,词语串S=t1t2…ti,其中ti是被hanlp分词系统切分的一个词语或者词语组合;f(t)表示频率;ni是词语串S出现的次数,Ni是预料库中所有词语出现的次数。

上下文依赖是指在特定窗口内在上下文词语ti已经出现的情况下的条件熵,即:

w是指在特定滑动窗口内ti出现的情况下某个词语出现的概率,而W则表示为特定窗口内ti出现的情况下词语的集合。

根据语料库设定互信息和上下文依赖的阈值,如果词语或者词语组合均满足上述的阈值,则将其纳入种子词集合。在此基础上,由种子集合节点V以及节点之间的边E构成种子词网络G=(V, E)。图2为种子词网络示意图:

(2)采用改进Textrank创建新术语或对现有的术语进行扩展

Textrank模型最开始用于提取词语特征,但该模型过于注重统计的指标来衡量词语的特征,并没有从语义层面来反映词语之间的语义特征。针对上述问题,本文采用语义关联性来定义种子词网络的权值,在此基础上,通过Textrank模型迭代种子词网络节点的权重,直至收敛;然后对节点的权重进行Top-N排序,得到Top-N种子词,若Top-N种子词之间形成相邻词组,则作为术语提取出来。

节点语义关联性意味着种子词同时出现的概率,这符合embedding方法的假设,即拥有相似的上下文。通过定量衡量种子词之间的语义层次关系,以此来判断种子词是否属于同一类别。而基于语料库的embedding方法训练出来的词向量是带有语义相关关系的。因此,本文在对各个语料库进行word2vec训练预处理的基础上,采用向量之间的相似性来反映语义关联性的特征:

其中,wij是词语ti与tj之间的语义关联性,表示节点之间的边连接的重要程度。

在定义边连接的重要性程度后,本文采用Textrank模型迭代种子词网络节点的权重,其公式为:

其中,WS(ti)表示节点的重要性;d表示阻尼系数,通常小于1;tj∈In(ti)表示是词语ti紧跟tj之后;同理tk∈Out(tj)表示词语tk紧跟其tj之后。

根据语料库词语排序的规则不断迭代,直至满足停止条件后,对节点的权重采用Top-N方式进行排序,得到Top-N种子词。若Top-N种子词之间形成相邻词组,则作为术语提取出来。这种方法从语义层面反映构成术语的词语之间的语义特征,能够在一定程度上减少不相关词语组合的干扰。

(3)采用中文术语规则获取候选术语集合

本文在参考贺海涛[8]等人研究的基础上,使用词性分析规则提取候选术语集合,其规则如表1所示:

其中,限定性定语包括:形容词、区别词、动词、名词以及数词+量词。

(4)特定领域中文字典构造

关联规则的获取主要是通过数据挖掘的方法从大量的事件记录数据库中找出满足一定条件的最小支持度Minsup和最小置信度Minconf的频繁模式[10]。

支持度揭示了术语mi与mj同时出现的概率,其公式为:

置信度则揭示了术语mi出现后,术语mj是否会出现或多大概率会出现,其公式为:

通过公式(5)和公式(6)计算每一个候选术语在特定领域中的支持度和置信度,并与设定的最小支持度和置信度进行比较,将小于最小支持度和置信度的候选术语排除在外,最终形成特定领域的中文字典。

3.3  实验结果

本实验的目的是为了验证本文3.2节中所提出的中文术语抽取算法的过滤性能。为了便于说明本文算法的优越性,将本文算法与传统互信息算法进行比较,本文算法的改进互信息阈值设定为0.6,传统互信息算法的阈值设定为0.4。

本文算法的步骤为:

(1)改进互信息的阈值为0.6;

(2)上下文依赖的阈值取0.08;

(3)改进Textrank的阈值为0.01。

考虑到三个不同领域术语的分布特点,因此最低支持度的区间为[0.05, 0.13],最低可信度的区间为[0.6, 0.8]。

实验结果如图3所示:

从实验结果看,互信息通过确定词语之间的相关性来进行词语的拼接,但是这种方法没有考虑到词语的中文语法层次,因此在同样的查全率的情况下,查准率较低。本文提出的算法,不仅考虑了词语的相关性,还从上下文的角度考虑了词语之间的位置分布。除此之外,采用支持度和置信度来提取术语,充分考虑了术语在领域内和不同领域间的分布特征,因此在很大程度上提升了数据的查准率。

4   结束语

中文术语提取自动化程度低,在术语抽取过程中没有考虑到中文语法而导致其抽取结果出现大量非领域术语的问题。本文提出了一种基于语义规则和关联规则的特定领域中文术语字典的构造方法,该方法结合了自然语言处理与统计方法的优点。首先,在种子词网络构建的基础上,采用改进Textrank算法创建新术语或对现有的术语进行扩展,大大提升了术语创建的速度。然后,采用关联规则,筛选非特定领域的术语,形成特定领域中文术语字典。实验表明,本文提出的基于语义规则和关联规则的特定领域中文术语字典的构造方法,能够以较高的準确率和效率从特定领域语料库提取出中文术语,构成动态更新的中文术语字典。

参考文献:

[1] 何燕,穗志方,段慧明,等. 一种结合术语部件库的术语提取方法[J]. 计算机工程与应用, 2006,42(33): 4-7.

[2] 范小丽,刘晓霞. 文本分类中互信息特征选择方法的研究[J]. 计算机工程与应用, 2010(34): 123-125.

[3] 杜海舟,陈政波,钟孔露. 基于上下文关系和TextRank算法的关键词提取方法[J]. 上海电力学院学报, 2017(6): 607-612.

[4] 黄政豪,崔荣一. 基于术语自动抽取的科技文献翻译辅助系统的设计[J]. 延边大学学报:自然科学版, 2017(3): 74-78.

[5] 陈宇,朱建锋,吴毅坚,等. 一种基于领域本体的新术语扩充方法[J]. 计算机工程, 2011,37(7): 24-27.

[6] 李伊潇,李宏伟,沈立炜,等. 基于启发式规则的自动化本体扩充[J]. 计算机科学, 2016,43(3): 213-219.

[7] 王卫民,贺冬春,符建辉. 基于种子扩充的专业术语识别方法研究[J]. 计算机应用研究, 2012,29(11): 4105-4107.

[8] 贺海涛,郑山红,李万龙,等. 基于关联规则和语义规则的本体概念提取研究[J]. 吉林大学学报:信息科学版, 2014,32(6): 657-663.

[9] 朱惠,杨建林,王昊. 中文学科术语相关语义关系获取方法研究[J]. 图书与情报, 2017(2): 125-132.

[10] 叶圣俊,孙济庆,李楠. 基于词素的中文术语语义关联研究[J]. 图书馆杂志, 2017(1): 80-87.

猜你喜欢

关联规则
数据挖掘技术在电站设备故障分析中的应用
基于关联规则的数据挖掘技术的研究与应用
面向用户需求的自适应学习系统个性化学习路径推荐研究
工业大数据挖掘分析及应用前景研究
基于Apriori算法的高校学生成绩数据关联规则挖掘分析
关联规则挖掘Apriori算法的一种改进
基于关联规则的计算机入侵检测方法
基于关联规则的中医肺癌数据挖掘应用研究
数据挖掘在超市大数据中的应用