APP下载

中文分词算法在搜索引擎应用中的研究

2019-01-28王洪浩

中小企业管理与科技 2019年3期
关键词:词库歧义分词

王洪浩

(山东哲远信息科技有限公司,山东 东营 257200)

1 引言

中文分词作为机器翻译、文本分类、主题词提取、信息检索的基础环解锁,在近些年来技术的发展以及中文相关算法中也逐渐受到人们的重视。在搜索引擎技术的逐渐应用推广过程中通过将搜索引擎和中文信息处理相应技术结合在一起,从而进一步推动全文搜索和中文分词技术的研究,有越来越多优秀的中文分词算法出现,并应用到搜索引擎中,更好地实现关键字准确搜索[1]。

2 中文分词技术

在对中文分词技术进行分析过程中,目前可以从应用上将其分为基于字符串匹配的分词技术、基于统计的分词技术、基于人工智能的分词技术三大类。

2.1 基于字符串的匹配技术

分词技术中有基于字符串的匹配分词技术,此类技术又可以称为机械分词计算法或基于词库的分词算法,通过预测一个充分大的机器词和等待切分的汉字串进行匹配。通过不同的扫描方向将其分为逆向、正向、双向匹配三种[2]。同时,也可以通过不同的长度优先匹配可以分为最大匹配和最小匹配。按照是否与词性标注过程相结合分为单纯分词和分词与标注相结合的一体化分词方法。在分词串点支持之下匹配分词效率非常高,算法相对较简单,但存在一定的问题就是准确性相对较差,很难排除机器机械切分所带来的歧义。其中字符串匹配主要有正向最大匹配分词算法、反向最大分子匹配分词算法、双向匹配分词算法三种不同类型。第一种正向最大匹配分词算法,该算法数据结构简单,算法简单,无需任何示范句法以及语义知识,例如,在词库中使用max表示最大词条长度,STR是等待切分的四汉字串。通过等待切分的汉字串前max这个汉字作为匹配时段与words中的对应词条进行匹配,如果其中有该词组就匹配成功,词组被分离出来,反之就去掉相应匹配字段最后一个字,将余下字符串思维与另一个匹配字段进行匹配。第二种,反向最大匹配分词算法基本原理和正向最大匹配分词算法基本相同。但是两种处理方法不同,一个从最顶端另外一个是从汉字串的尾端开始处理,相比较最大正向匹配法来说,此种方法能够更好地实现对交际型的歧义字段的处理,简单、快速切分,歧义准确率有明显提升,但无法完全排除歧义现象。第三种,双向匹配分词算法,此算法就是将以上两种算法结合起来构成双向匹配算法,能够进一步提升千分准确率,还能够有效消除部分歧义现象。但由于需要进行正向和逆向两相反方向的扫描,因此具备一定的复杂性。同时,分词词库还需要能够同时支持这两种顺序检索,总体来说算法相比以上两种要复杂的多。

2.2 基于统计的分词方法

基于统计的分词算法又称为无词库分词,认为词组作为最稳定的组合,相邻汉字在文本中同时出现次数越多,就越有可能构成一个词[3]。同时可以将自相邻贡献的频率作为词组可信度,对语料中相邻贡献字的组合频度进行统计,并对互现信息进行计算,同时通过频度方式来对词的频率进行判断,达到识别新词,但总的来说效率无法提升,十分有效,时空开销相对较大,识别精度相对较差,无法达到有效识别。其中,在对汉字间的紧密程度进行统计的模型主要有互信息、T测试两种方式。

2.3 基于人工智能的分词方法

在人工智能基础之上所采取的分词方法,此算法就是在分词的同时通过句法、语义,对于其中所经常出现的歧义切分现象可以通过句法信息、语义信息两方面来解决。在当前的人工智能研究领域中两个研究热点所在就是专家系统和神经网络系统,通过这两者能够更好地保证分词的智能性,是未来一段时间内分词研究的主要趋势和热点所在[4]。但此种方法实现的基础是大量的语言知识和信息,在拥有大量信息的同时也以拥有了知识本身所带来的复杂性和灵活性,很难能够直接读取各种语言知识和信息组织,此种方法至今为止还停留在试验阶段,没有正式投入使用,这也和人工智能技术不够成熟、技术成本相对较高等因素相关。

3 面向搜索引擎的中文分词关键技术

在搜索引擎处理用户查询需求以及处理文档的过程中中文分词是其中的基础所在,对于整个搜索引擎信息检索准确度产生影响的两大关键因素主要是未登录词识别、歧义消解,两大问题将会严重影响搜索引擎准确性和顺利性,在网络环境中搜索引擎中推广和应用中文分词方法必须要解决未登录词识别、歧义消解两大问题。但我国对未登录词问题研究的时间相对较短,认识上还存在不稳定性,还无法寻找有效方法解决此问题,还有非常长一段路要走。而对于歧义切分问题来说,现阶段的研究主要集中在交集型歧义字段的研究上。

4 结语

本文通过搜索引擎中常见中文分词算法进行分析,并对面向搜索引擎中文分词关键技术中两大问题进行分析,寻找更为有效方法来提升分词准确性。

猜你喜欢

词库歧义分词
分词在英语教学中的妙用
一“吃”多用
现代汉语歧义类型的再讨论
输入法词库取证比较研究
eUCP条款歧义剖析
结巴分词在词云中的应用
结巴分词在词云中的应用
语文教学及生活情境中的歧义现象
输入法词库乾坤大挪移
基于关联理论的歧义消除研究