APP下载

略谈辞书编纂中人工智能技术的应用

2018-03-27张国强

出版与印刷 2018年4期
关键词:词目辞书自动

张国强

辞书编纂需要处理的信息量大,故而对善于数据处理的计算机技术有着迫切需求。

目前,计算机技术处理数据的能力和表现形式,已经从依靠“蛮力”发展到了智能时代。这里所谓的“蛮力”,指的是计算机能以极快的计算速度作检索、比对、处理等,但这种检索、比对、处理尚处于一种初级阶段,仅是作“机械”处理,而基本不涉及“智能”的范畴;而所谓的“智能”,则是指计算机利用高速的运算能力,具有初步的理解、分析、判断、推理等能力,即计算机能够“模拟类似于人类的某些智能活动和功能”[1]1558。

相应地,计算机技术在辞书编纂中的运用,也应当从借助于“蛮力”的阶段进入依赖于智能的阶段。

一、计算机数据库技术大大提高了辞书编纂的效率

回顾一下不太久远的历史,我们可以清楚地了解到,借助于计算机的“蛮力”,我们利用计算机技术尤其是数据库技术,使辞书编纂的效率得到了前所未有的提高。笔者十几年前曾写《数据库化的辞书编纂》一文,提到利用数据库技术来提高辞书编纂效率的设想,包括“在辞书编纂中充分运用数据库技术,根据辞书的性质和辞书编纂工艺的特点,将词目、对应外文、注音、释文、作者、资料来源等有关信息有组织地存入数据库内,利用数据库技术检索信息快捷、数据冗余度低、可避免数据的不一致性等特点,对诸如内容编写、汇总合并、参见核查、交叉处理、数据检索、浏览修订、条目编排、索引制作等辞书编纂、出版中的有关信息进行处理,目的是缩短辞书编纂周期,提高编纂效率,提升辞书质量,减轻工作强度”[2]。

经过努力,上述设想在辞书编纂实践中不仅均已得到体现,并且还有进一步的发展。例如,目前正在使用的“《辞海》编纂系统”,除了可以实现上述应用外,还在专项检查等方面细化需求,提供了更多的功能,如“历史纪年检查”“参见落实检查”“古今地名检查”“成套词检查”“书证检查”等。这些具体应用或功能,不仅在目前《辞海》(第七版)以及其他专科词典的编纂过程中取得了很好的效果,而且在可预见的未来,还将对辞书编纂效率的提高继续起到积极而明显的作用。

二、人工智能可使计算机技术在辞书编纂中的运用进入更高层面

“人工智能”也称“计算机智能技术”,其定义目前尚有很多种,而据《辞海》“人工智能”条,这是指“研究用机器(主要指计算机)模拟类似于人类的某些智能活动和功能的学科。……主要研究:问题解决和演绎推理、学习和归纳过程、知识表征、语言处理、专家系统、智能机器人、自然程序编制等”[1]1558。通俗地说,人工智能“就是要让机器的行为看起来就像是人所表现出的智能行为一样”[3]。

智能时代的计算机技术能给辞书编纂带来什么样的变化呢?从辞书编纂的角度来讲,哪些智能化应用是应当留意或加以实现的呢?关注这些问题,对辞书编纂有十分重要的意义。

就“智能”而言,涉及的范围非常广,包括思维、意识、规划等诸多艰深的领域。目前,人工智能技术主要体现在智能模拟以及视觉识别、语音识别、运动控制等几个方面,而与辞书编纂有比较密切关系的大致是智能模拟,包括自然语言处理、大数据处理、文本挖掘、知识发现、智能问答、自动推理(包括规划和决策)以及深度学习、神经网络等。

所谓“自然语言处理技术”,是指通过计算机技术来实现自然语言的理解和自然语言生成,以及大数据处理和文本挖掘。自然语言的理解包括内容提取(含文本分类和聚类)等;自然语言生成包括内容概括、自动文摘等;大数据处理和文本挖掘则指利用合适的工具,对广泛的异构数据源进行抽取与集成,进而进行技术分析,提取、推测出有价值的信息或知识。例如,利用自然语言处理技术,我们可以在辞书编纂中的词目选收、机器人撰稿、机器人问答等方面得到人工智能的帮助,取得单纯依靠人力所不能获得的信息、文本和速度等,从而在“获得知识、使用知识、表示知识”(这也正是辞书应该为读者提供的功能)方面做出一番前人囿于技术而无法做到的事情。通过人工智能的运用,我们可以使计算机技术在辞书编纂中的运用进入到一个更高的层面,展现出看似具有智能的行为。

三、人工智能技术在辞书编纂中的具体运用

通过基于自然语言处理的文本分析技术等手段,人工智能技术可以在辞书编纂中实现如下应用目标。

1.提高辞书的词目选收质量

“词目”是一部辞书的纲目。词目选收是否合理,是决定辞书质量的关键因素之一。从古至今,大概没有一部辞书可以做到收词不精而全书质量较高的。辞书收词是否精到,很重要的一点就是要把那些在特定收词范围之内(如某种专科词典所应反映的某一学科范围之内)的,并且使用频度高(基本上也就是查阅频度高,两者间有着很大程度上的正相关关系)的词语全部网罗。那么,如何做到这一点?传统的做法是依靠人的经验进行人工判断、选择,但单纯依靠人工难免有遗珠之憾,如一部著名的大型百科词典就漏收了“出版社”“电视台”“硬盘”“芯片”“论文”等重要词目。

自然语言处理所用到的分词技术,可以较好地解决这一问题。

所谓“分词技术”,就是利用计算机将句子“拆分”为“词”的技术。由于中文不像西文那样词与词之间有空格,因此中文的分词是自然语言处理中的难点之一。然而,目前各种中文分词技术取得了长足的进步,已进入到可以实际应用的阶段。利用日臻完善的分词技术,我们就可以进行高频词语的统计,从而在选取辞书词目时做到对高频词语不遗漏。这在目前的辞书编纂中可以说是提高收词质量最有效的方法之一。

另外,通过对数据采集的范围、时间等参数的设置,我们可对不同的情况进行分析。如缩小采集数据的时间范围,我们就可以收集到该段时间的“热词”,进行甄别、分析后,决定是否要作为词目收入。

2.加快词条的编纂速度

在内容快速迭代的互联网时代,加快词条编纂的速度,对辞书的竞争力有着举足轻重的作用。要加快词条编纂的速度,利用“撰稿机器人”来编纂某些类型的辞书条目,是一个有效的途径。所谓“撰稿机器人”,就是根据一定的算法自动生成稿件的计算机程序。目前,“撰稿机器人”已经在财经、体育方面的一些分支领域开始应用,主要是完成相关新闻稿的写作。如2015年9月,腾讯财经就发布了由“新闻写作机器人”在一分钟内生成的《8月CPI同比上涨2.0% 创12个月新高》新闻稿。类似的情况在国外发生得更早些,2014年就有报道宣称“美联社开始使用一种新闻书写软件代替人力,自动撰写有关公司财报的新闻”[4]。当然,“撰稿机器人”目前还仅运用于一些消息类的新闻稿写作,在其他类型的新闻稿件(如人物专访、事件背景深度挖掘报道等)写作中尚不能作为主力担纲。

辞书条目的体裁具有“格型性”特点,恰恰与消息类新闻稿具有很多抽象意义上的相似性,如都具有一定的层次模式,都采用类似“倒金字塔”的结构,都有一定的必备元素及其表述格式,都采用注重客观描述事实、很少带有主观评价和个人情感色彩的“政论语体”等。因此,利用自然语言处理中的自动文摘系统,研制、训练出符合辞书编纂基本要求的“撰稿机器人”来撰写事实类条目(如事件条目、人物条目、机构条目、天文地理客体条目、物件条目等)是完全可能的。目前在高校的硕士、博士论文中,有这方面的大量研究。如有的研究课题,就是主要针对互联网上的事件网页信息,开发一个完整的基于事件的多文档自动文摘系统,该系统能够自动获取事件内容,并从互联网上选取相关的事件信息,压缩成事件的自动文摘,提交给用户。[5]自动文摘通常具有的特点是:第一,能将原文的主题思想或中心内容自动提取出来。第二,自动提取出来的文本具有概括性、客观性、可理解性和可读性。第三,可适用于多个领域。这与我们编写事实类辞书条目的做法是多么相近。因此,假以时日,专门用于辞书编纂的“撰稿机器人”一定会面世。

3.提供丰富的知识服务手段

辞书本身就是一类专供查阅、释疑解惑的工具图书,其基本特点之一就是提供知识服务。与传统的纸质辞书相比,数据库时代的数字化辞书所提供的这种知识服务,借助数据库、计算机等软硬件,在知识检索速度上有了飞速的提高,在检索的便利性方面也有了极大的发展,尤其是支持通配符的组合查询,使得基于结构化查询语言(SQL)的各种检索条件几乎都可得到满足。

到智能时代,数字化辞书的知识服务又将有本质性的拓展,知识服务的价值链可以延伸,形成“知识服务系统”。所谓“知识服务系统”,是指在某一知识领域,围绕某一专题或知识点,聚集相关知识,形成知识节点,为用户提供较为系统、全面的知识。实际上,在“提供知识”这一点上,“知识服务系统”与传统的辞书有着天然的一致性,只是在提供的方式、效率、范围、深度等方面有差别。“知识服务系统”能够提供的内容更为丰富,提供的知识更为全面、系统,呈现的方式更为灵活。比如,以“知识图谱”的呈现方式可以描述各种概念、知识之间的语义关系。又如,与“语音识别系统”结合,则可开发出类似IOS系统中Siri这样的智能问答机器人,能即时分析问题,并自动匹配到最佳答案后反馈给用户。

另外,结合自然语言处理技术,开发精准的搜索引擎也是题中应有之意。例如,当我们搜寻作为一个作家的“鲁迅”时,诸如“鲁迅路储蓄所”之类的弱相关信息就应该放在搜索结果的末尾或直接屏蔽掉。采用“内容动态重组”技术,则又可以根据用户需要,将数据库中的有关知识临时组合,系统、全面、有层次地向用户展示。

4.提供智能辅助编校系统

如前所述,我们在“《辞海》编纂系统”中已经能够完成诸如“历史纪年检查”“参见落实检查”“古今地名检查”“成套词检查”“书证检查”等编校功能。但这些功能还是基于计算机的“蛮力”做简单机械的匹配,尚未达到智能化阶段。目前一些通用的校对软件,“虽然可以通过采用大规模词库和重点词监控等技术对汉语文本中的常见错误进行审校,对文本审校起到较大的助益,在一定程度上降低了人工审校的工作量,但仍存在一些不足与局限性,集中表现在以下方面:(1)算法的局限性;(2)词库更新机制的局限性;(3)产品架构的局限性”[6]。从人工智能的角度而言,未来的“智能辅助编校系统”应该具备如下功能:在运用大数据分析和自然语言处理、神经网络、深度学习等技术的基础上,不仅通过比对,也模仿人的推理逻辑,自动发现文稿中字词、语法、语义、常用数据、知识性甚至引文、格式、遵循相关技术标准方面的错误,并提出修改建议。这从表现形式来看,与现在通用的校对软件略有相似,但其背后是人工智能技术的支撑,因而功能应当更为强大、灵活(超越字词校对的层次),效率更高,适应性更强。

以上所述,主要是着眼人工智能技术运用于辞书编纂的外部表现。还有一些人工智能技术的运用将主要与辞书编纂内在的(即后台的)数据处理有关,如非结构化文本的动态标注、图像识别等,因其对辞书编纂的影响不是那么显性地面向编辑或用户,此处姑且从略。

四、结语

辞书编纂需处理的信息繁复,因而对以数据处理见长的计算机技术有着天然的需求。借助自然语言处理、大数据处理、文本挖掘以及深度学习、神经网络等人工智能技术,可以使计算机技术在辞书编纂中的运用进入到一个更高的层面,实现提高辞书词目选收质量、加快辞书编纂速度、丰富辞书服务手段、形成更多编纂工具等应用目标。这对辞书编纂的实践、理论、产品乃至用户都会产生深远的影响。

当然,与数据库技术不同,人工智能技术目前仍处于起步阶段,其发展路径、技术突破、影响的范围及深度目前还难以预测或精确把握。因此,其对辞书编纂的影响也存在着很大的有待于进一步探索的空间,需要有志于此的相关各方持续关注,使这一议题得到更具实效的讨论,并在辞书编纂的具体应用上开展更为有效的工作。

猜你喜欢

词目辞书自动
CISHU YANJIU LEXICOGRAPHICAL STUDIES
大型辞书疑难字考释七则
藏语传统辞书词目编排法探析
自动捕盗机
中国典籍外译过程中存在的问题与策略研究
白编《近代汉语词典》词目补遗
让小鸭子自动转身
自动摇摆的“跷跷板”
关于自动驾驶
日语中“V1+V2型复合名词”的分类
——基于《广辞苑》从有无对应动词形角度