APP下载

故宫导游器智能问答系统的设计与实现

2019-09-10刘肖萌龙飞滕辉王永兴

科学导报·学术 2019年15期
关键词:自然语言处理知识图谱

刘肖萌 龙飞 滕辉 王永兴

摘  要:隨着智能终端的普及,近年来开发具有智能交互功能的系统成为研究热点。智能问答系统通过问答的形式与用户沟通,可以辅助完成智能终端的任务执行,为用户提供短平快的信息。智能问答系统是智能导游器的核心功能模块。本文利用自然语言处理技术,完成了基于故宫知识图谱和常用问答对数据库的智能问答系统设计与搭建,在故宫内实测,实现了智能导游的功能。

关键词:智能问答系统;知识图谱;自然语言处理;智能导游器

1.引言

随着智能终端和物联网的快速发展,迫切需要一种在终端与用户之间交互的软件系统工具。在用户提出自然语言问题后,智能问答(Question Answering,QA)系统完成自动提供信息或者完成某项任务,如订机票。目前智能QA系统在学术界和工业界都得到了广泛的关注,已存在了一些成功开发的工业产品。

智能QA系统是故宫博物院智能导游器中的重要组成部分,相当于智能终端机器的耳朵和嘴巴,用户通过智能问答系统与智能导游器进行语音或者文字互动。借助科大讯飞的语音模块,实现语音与文字的转换,语音识别模块将语音转化成文本形式,语音合成模块将文本转化成语音。本文着重介绍了自主研发的文本输入文本输出形式的中文智能问答系统设计与实现方案。

目前限定领域单轮智能问答系统的常用实现方案包括两种:基于信息检索型和基于知识图谱型[1,2]。考虑系统的可扩展性,采用两个平行的问答子系统架构,分别为基于故宫知识图谱(Knowledge Graph,KG)的问答子系统和基于常问的问题(Frequent Asked Question,FAQ)集的问答子系统,结合两个系统的输出情况,生成最终的答案反馈给用户。

2.智能问答系统设计与实现方案

智能问答系统采用基于KG和FAQ两种不同数据源的问答系统结构相结合的方式实现。两个QA子系统并行完成对用户输入问题的相关处理,得到候选答案。由于KG存储的是与故宫相关的结构化数据,如果能从基于KG的QA子系统中成功获取到答案,则优先选用。而FAQ中存储了较多口语化的问题,拓宽了可以回答的问题类型,作为兜底策略。若两个子系统都没有查找到相关的信息,系统返回无相关信息。后台记录所有用户交互中提到的问题,方便确定查找新数据的方向。定期补充和更新数据到两种知识库中,提高问答系统的知识囊括量。

2.1基于KG的QA子系统

随着语义网的蓬勃发展,开源的关联数据(Linked Open Data,LOD)越来越多,包括众多具有资源描述框架(Resource Description framework,RDF)三元组结构的知识库。这种具有RDF结构的三元组知识图谱天然地包含语义信息,与传统的关系型数据库相比,知识图谱中各实体和属性的关系更加复杂。但是纵观现有的开源LOD,有关北京故宫博物院的数据略显单薄。需要为故宫导游器定制化设计专用知识图谱。在考虑了与其它开放知识库链接的前提下,根据故宫导游应用中可能使用到的实体概念和关系,建立KG本体架构。以故宫官网、百度百科等为主要数据来源,定向收集数据,包括建筑物、人物、藏品等具体的实体与属性。KG数据存储在Apache JENA中,完成数据准备工作。

用户输入自然语言问题,在转化成KG的查询语言SPARQL后才可从KG中获取信息,而这正是自然语言理解(Natural Language Understanding,NLU)模块的任务。NLU模块经过中文分词将问题切分成词组,在词组集中检测到实体词和关系词,并映射到KG中的实体项和属性项,智能地组合各种语义项,获得结构化语义表示形式,进而转化成KG的查询语句,完成查询故宫KG的操作,将答案反馈给用户。NLU智能组合语义项也是语义解析的过程,需要设计并定义基本文法规则和组合语义规则,通过一种动态规划方法CYK算法实现[3]。

2.2基于FAQ的QA子系统

FAQ集知识库中保存用户经常提问的问题和相关答案。用户输入问题后,在FAQ库中查找相似问题。如果找到了最相似的问题,直接将所对应的答案返回给用户。相比于数据源为非结构化文本数据库的情况,基于FAQ的QA系统不需要经过候选文本检索、答案抽取等许多复杂的处理过程,提高了效率[1]。

为了收集关于故宫的FAQ的候选实验数据,从百度问答、360问答等社区问答网站上抓取有关故宫信息的问答对,做数据清洗后入库保存,借助Elastic Search或Solr等开源框架建立常问问题集的倒排索引,提高了系统的检索效率。

3.结论

面向故宫导游应用的智能问答系统的设计与实现,基于KG和FAQ两种问答系统结构相结合完成智能问答功能。在故宫内实测,实现了GPS定点触发问答系统KG中储存的导游词,实时回答用户在故宫内旅游过程中提出的问题的功能。与故宫现有的传统导游器相比,带智能问答功能的导游器更具互动性和趣味性。

参考文献

[1]  D. Jurafsky,J. H. Martin,Speech and Language Processing,3rd ed. Draft,Stanford,CA,2019.

[2]  W.T. Yih,X.D. He,C. Meek,Semantic Parsing for Single-Relation Question Answering,Meeting of the Association for Computational Linguistics,643-648,2014.

[3]  P. Liang,M. I. Jordan,D. Klein,Learning dependency-based compositional semantics,Meeting of the Association for Computational Linguistics:Human Language Techniques,Vol. 39,No. 2,590-599,2011.

猜你喜欢

自然语言处理知识图谱
基于组合分类算法的源代码注释质量评估方法
国内图书馆嵌入式服务研究主题分析
国内外政府信息公开研究的脉络、流派与趋势
基于知识图谱的产业集群创新绩效可视化分析
基于知识图谱的产业集群创新绩效可视化分析
基于知识图谱的智慧教育研究热点与趋势分析
从《ET&S》与《电化教育研究》对比分析中管窥教育技术发展
面向机器人导航的汉语路径自然语言组块分析方法研究
词向量的语义学规范化
汉哈机器翻译中的文字转换技术研究