APP下载

基于多策略混合问答系统模型的图书馆咨询机器人的设计与应用

2022-06-09刘泽徐潇洁邵波

新世纪图书馆 2022年5期
关键词:咨询服务

刘泽 徐潇洁 邵波

摘 要 随着人工智能技术的发展,智能咨询机器人可作为智慧图书馆咨询服务的新选择。论文从图书馆咨询服务的实际需求出发,搭建图书馆智能咨询机器人系统框架,基于知识库、文本硬匹配、相似度匹配、深度学习等技术,分别构建面向寒暄类和咨询类的问答子系统和面向任务类的对话子系统,并研究其应用效果。图书馆通过多策略混合的问答系统模型构建智能咨询机器人,能够提高问答系统的性能,为读者提供更优质准确的参考咨询服务。

关键词 多策略混合;咨询服务;智能咨询机器人;系统框架

分类号 G251

DOI 10.16810/j.cnki.1672-514X.2022.05.008

Design and Application of Library Consultation Robot Based on Multi-strategy Mixed Question Answering System Model

Liu Ze, Xu Xiaojie, Shao Bo

Abstract With the development of artificial intelligence technology, intelligent consulting robots can be used as a new choice for library consulting services. The framework of intelligent library consulting robots was built according to the actual needs of library consulting services. Based on repository text hard matching, similarity matching and deep learning, a question-and-answer subsystem for greetings and consulting and a dialogue subsystem for task-oriented dialogues were constructed respectively. This paper analyzed the effect of its application. An consulting robot platform is built through a multi-strategy mixed question answering system model, which can improve the performance of the question answering system and provide readers with more high-quality and accurate reference consulting services.

Keywords Multi-strategy. Consulting service. Intelligent consulting robot. System construction.

0 引言

现如今,人工智能技术正在影响社会生活和经济发展的方方面面。2019年,李克强总理在政府工作报告中提出“深化大数据、人工智能等研发应用”作为政府工作的重要建议[1]。人工智能的技术创新、软硬件升级以及相关学科的发展,使其渗透至各行各业,推动着数字化、网络化社会过渡到智能化社会。同时,由于图书馆知识资源密集和人力资源短缺的特点,图书馆工作迫切需要人工智能强大的数据处理能力与自我学习能力帮助图书馆馆员完成复杂或重复的任务。咨询服务作为图书馆传统的业务工作,多年来都是由馆员提供咨询帮助,需要较高的人力成本[2]。面对机器学习、自然语言处理、深度学习等多种人工智能技术的发展和广泛应用,图书馆智能咨询机器人作为虚拟的图书馆馆员,可以为读者提供不间断的在线服务,提高咨询效率,减轻馆员的工作量。

然而,即使高校图书馆正努力向“智慧图书馆”进行变革,全国仅有13所“双一流”高校图书馆采用智能机器人提供咨询服务,表明高校智能咨询服务仍未充分发展[3]。此外,当前投入应用的图书馆咨询机器人缺乏与图书馆咨询服务相关的专业知识库,并且不支持动态更新;机器人回答问题不够准确。为解决上述问题,本文构建多策略混合的问答系统模型。以此提高智能机器人的工作效率和用户满意度,以期为图书馆智能咨询机器人的发展提供思路。

1 智能咨询机器人研究现状

1.1 国外研究与应用

国外对图书馆咨询机器人的研究较早,并且范围较广,主要包括理论研究、实际应用和功能优化三个方面。

在理论研究方面,有不少学者探讨了图书馆应用咨询机器人的必要性。Peter Fernandez[4]调查了图书馆新技术将如何影响图书馆,发现许多图书馆已经设有在线专家聊天,相信在不久的将来,完全可以将大多数基本参考问题移交给聊天机器人。2020年,Kane[5]对ANTswers从2014年创建至2018年产生的聊天记录进行分析评估,结果表明ANTswers对UCI图书馆的功用显著,定期分析统计用户请求的资源与服务类型,可以对图书馆馆员的工作起到指导作用。

在实际应用方面,相较于其他学术机构,图书馆一直走在发现、利用和实现创新科技的前沿[6]。事实上,欧洲图书馆最早探索在图书馆中使用机器人,比如德国汉堡大学著名的Stella实验开发的机器人Stella,多特蒙德工业大学开发的Askademicus。此外,Nebraska-Lincoln[7]大学图书馆基于人工智能标记语言的Pixel聊天机器人是美国首批上线的聊天机器人之一,Pixel能够实现模拟人类对话的交互式体验,该系统通过广泛收集图书馆网站的聊天咨询记录构造其数据库,但仅能匹配回答有关图书馆服务和资源的常见问题。此外,还有联机计算机图书馆中心(Online Computer Library Center, OCLC)開发的机器人Lillian,Akron-Summit County Public Library(ASCPL)和Mentor Public Library(MPL)合作开发的咨询机器人Emma等[8],图书馆咨询机器人的应用越来越普遍。

在功能优化方面,J.Hartsell-Gundy[9]认为图书馆参考咨询服务的核心是通过远程呈现系统与机器人相结合,在现有的参考服务中增加远程呈现功能可以扩大咨询机器人的服务覆盖范围,使咨询机器人能够不受空间限制与读者进行互动,并使得其服务内容更加丰富。悉尼科技大学[10]在现有咨询机器人的基础上,开发了一个图书馆咨询机器人原型,进一步研究如何利用咨询机器人提高大学生学术研究的潜力,为图书馆机器人添加了个性化配置。

1.2 国内研究与应用

图书馆咨询机器人的主要应用在于参考咨询服务。郭山[11]对31个省级公共图书馆的参考咨询现状展开深入调研,并讨论了图书馆利用咨询机器人提供参考咨询服务的必要性,总结出咨询机器人主要有准确性高、实时在线、操作简单等优点。此外,焦洁[12]利用UTAUT2模型,对用户使用咨询机器人的影响因素展开问卷调查与分析,最终发现享乐动机、便利条件和绩效期望等是主要影响因素,进而为咨询机器人的参考咨询服务提供改进策略,以提高其用户粘性与使用频率。

国内许多图书馆正积极投入咨询机器人的设计与应用,主要有两种模式:基于开源系统的二次开发和对接商用软件。基于开源系统二次开发的机器人主要包括基于BotPlatform开源平台、基于ALICE开源系统、基于AIMLBot开源平台、基于微信和移动App[13]这4种服务模式。2008年上海交通大学最早利用开放式BotPlatform平台开发出具有“聊天”“参考咨询”和“图书检索”等功能的服务机器人[14]。2011年清华大学创新性地利用ALICE开源软件构建咨询机器人“小图”,“小图”具有自我学习的功能,并且能为读者提供资源查阅、借阅提醒等多种服务[15];此后,2014年清华大学图书馆将“小图”的服务范围扩展到App和微信端等移动端[16]。此外,还有重庆文理学院图书馆基于AIMLBot开源平台的虚拟参考咨询机器人等。

在对接商用软件方面,许多图书馆选择直接与商业客户服务机器人对接,图书馆仅需要将多年来积累的咨询记录和常见问题以软件所需的格式导入知识库,并在线配置相关服务。例如,西安电子科技大学图书馆于2019年采用的晓多智能客服机器人[17],可以与App、网页、微信和其他客户端进行交互,实现多渠道为用户提供咨询服务。但是商用机器人价格昂贵且难以二次开发,并且作为通用智能客户服务软件,它与图书馆业务并不完全吻合。

2 图书馆咨询机器人现存问题及要求

笔者通过对图书馆智能咨询机器人应用现状展开调查,发现存在的问题主要有以下几个方面:(1)线上线下数据没有统一的运营管理后台。对线上咨询渠道如QQ、微信和网页等和线下咨询渠道如实体机器人没有进行统一的管理,导致实时数据无法自动导入知识库,需要定期人工整理添加至知识库,浪费了碎片化数据所带来的巨大价值。(2)商用机器人成本过高。采用商用咨询机器人虽然功能和算法上都相对稳定成熟,但是基于后台算法以及业务处理的逻辑,无法实行定制化,且商业平台成本过高,普通的公共图书馆与高校图书馆通常只能购买商用机器人的部分功能。(3)自建机器人构建难度大。目前高校自建的咨询机器人只能实现最为基础的日常咨询,与商用软件差距较大。知识库与语料库无法实现自动更新,需要图书馆馆员定期人工操作来更新;此外,大多数高校咨询机器人只能完成单轮会话功能,需要进一步开发多轮会话功能,并且自建咨询机器人需要一定的磨合期和调整期才能达到稳定的效果,无法快速投入使用。

通过对图书馆智能咨询机器人服务现状的調研,并借鉴已有系统的成功经验,笔者认为在之后的平台构建中应满足以下需求:(1)实现服务自助化:咨询机器人能够实现24*7全天为用户提供服务,并且线上平台可以同时对接多个用户,以一致、及时地回答解决用户的疑问;此外,对于知识库中没有涵盖的问题,咨询机器人难以做出合理答复,此时,用户可以选择人工服务,转接图书馆馆员,为其提供在线帮助。(2)实现管理统一化:智能咨询机器人能够与多种客户端对接,这样用户可以通过多种平台进行参考咨询服务;同时,图书馆馆员只需管理一个后台,便能够实现对多种渠道知识库的统一管理。(3)实现知识动态化:咨询机器人系统能够自动收集用户咨询数据,定期扩充后台知识库的内容,不断优化参考咨询服务的效果。(4)满足场景全面化:在控制经济成本的前提下,首先针对读者不同咨询问句类型能够智能判断,做出多元应答模式。其次,针对用户提问意图模糊、用户提问拒识、用户提问不完整等多种情形,均能够返回正确的应答提示,形成用户体验闭环。最后借鉴商用客服系统,可以提供特色功能如输入联想、热门问题、满意度评价等来提高读者满意度。

3 图书馆智能咨询机器人系统设计

3.1 系统问答流程

本文设计的是一种多策略融合的自动问答系统,研究在图书馆参考咨询这个专业领域内实现对用户自然语言的分析和理解,通过对用户问句的分析,系统利用不同的策略给出准确的答复。多策略是指针对不同类型的问句系统调用不同的技术模型,提高回复的准确性。系统如图1所示,技术模型主要分为对话系统(针对任务类问句)和问答系统(针对咨询类问句和寒暄类问句)两大子系统,其中问答系统又可以细分为文本硬匹配、相似度匹配和深度学习三种功能模块。

首先,用户根据需求键入自然语言问句,系统会调用对话系统识别其对话意图,如果问句成功匹配为任务类问句,那么用户将进入流程式对话,随后用户需按照咨询机器人的引导提供相关需求信息,咨询机器人将返回相应的答复;若匹配失败,对话则进入问答系统。问答系统会根据已构建的寒暄库,对问句进行文本硬匹配,若匹配成功,则输出答案;否则会利用相似度匹配,若相似度大于阈值,则输出答案,反之,则调用深度学习模块,再根据概率分布和置信区间进行判别,判别成功则输出答案。若系统仍未成功识别,则转接人工服务,将拒识问题发送给图书馆馆员。此外,系统后台会定期挖掘在线日志、聚类、人工标注等,以此训练深度学习模型,提高模型的精确性和灵活性,使系统越来越“智慧化”。

3.2 智能咨询机器人系统框架

根据图书馆参考咨询服务的特点,结合对南京大学图书馆读者参考咨询内容的分析研究,本文将用户所提出的问句分为三类:闲聊类、咨询类以及任务类。闲聊类和咨询类的问句分别对应的应用场景为“寒暄”和“一问一答”,这两种应用场景都采用面向寒暄类和咨询类的问答子系统,模式为单轮对话。任务类的问句属于“多轮会话”的应用场景,采用面向任务类的对话子系统,模式为多轮对话。

基于已有的研究基础,本文构建基于多策略混合问答系统模型的图书馆智能咨询机器人系统,系统总体架构如图2所示。该系统分为物理层、源数据层、知识资源层、技术层和应用层五个部分。

物理层:以基础设施即服务(IaaS)的形式提供基础服务,如安全支持、系统维护和数据存储等,从各方面保障整个平台的正常运作。

源数据层:主要为知识资源层知识库的构建提供原始数据与知识储备,原始数据主要来源于网络数据、词表资源、垂直领域知识库和历史问答数据等。首先,常识和寒暄语料收录于相关网站和调用的API接口。其次,为了扩充参考咨询服务范围,需要利用知识图谱等技术将学术信息添加到对话子系统中,各类词表资源是必不可少的。此外,垂直领域知识库主要包含了学术信息资源。最后,可从图书馆参考咨询服务部门获取历史问答数据,一方面,要获取图书馆线上参考咨询系统中FAQ常见问题、实时咨询和非实时异步咨询产生的相关数据,另一方面要收集馆员在服务过程中积累的问答经验。

知识资源层:为参考咨询服务提供数据来源,同时也是技术层和应用层的数据基础,将源数据整理归纳后得到分词词表、停用词表、同义词表、寒暄库、FAQ库、任务场景库以及本体库。利用分词词表和停用词表将问答子系统中的文本数据进行预处理;同义词表的应用主要是为了提高用户问句的匹配度;寒暄库应用于与用户的闲聊和寒暄;FAQ库为常见的咨询问题提供接单;任务场景库用于为对话子系统提供数据支持;本体库存储了各类学术领域专业知识,为用户的学术资源查询提供数据支撑。

技术层:笔者对图书馆参考咨询服务进行调查研究,发现可以将用户咨询可以分为“一问一答”和“多轮会话”两种模式,“一问一答”模式是基于FAQ(问题—答案对集合)匹配用户问句;而“多轮会话”则是咨询机器人不断向用户获取用以实现特定查询任务的相关信息所进行的流程式问答,针对两种类型的问句,分别调用问答子系统和对话子系统来进行处理。

应用层:包括智能咨询问答和机器人管理两个模块。智能咨询问答模块用于为用户提供图书馆参考咨询服务,既提供智能问答和交互问答等核心功能,还包括输入联想、关联问题、热门问题等个性化功能。机器人管理模块用于帮助馆员对智能咨询机器人进行运营管理,如热门问题管理、数据报表统计分析和知识库管理等。

4 技术实现环节及其应用效果

4.1 知识库构建

智能咨询系统中知识资源层所需要的分词词表、停用词表和同义词表均可从网上获取,此外,寒暄库、FAQ库和任务场景库需要人工构建。

问答子系统的准确率和召回率由FAQ库的质量直接决定。本文主要通过四种渠道来收集问题—答案集:(1)对提供FAQ咨询方式的“双一流”A类高校进行内容爬取;(2)按照用户常用的提问方式,将从各图书馆官网收集参考咨询服务的相关信息与知识进行转换(3)通过采访图书馆馆员,获取其在提供参考咨询服务时所积累的经验;(4)参考学者对问答系统的专业研究。将收集到的问题—答案集进行整理,归纳整合相似问句,得到包含801条问句—答案对的FAQ库。最后邀请图书馆参考咨询服务部门的老师對FAQ库进行复核,完成FAQ库的构建。

其次,通过对图书馆参考咨询服务的场景进行调研,收集并整理其中有关任务型的对话场景,用于构建对话子系统。当问句中存在任务目标以及需要将请求参数化时,则可判断该问句为任务型的问句,通过此依据整理得到任务。

此外,为了提高用户的人机交互体验,本文构建的智能咨询机器人除了能为用户提供专业的参考咨询服务外,还构建了寒暄库,实现与用户的日常寒暄,如“你好”“谢谢”“再见”等[18],增加用户对咨询机器人的好感度。

4.2 面向咨询类和寒暄类的问答子系统

本文采用问答子系统和对话子系统相结合的双策略模式,以改进智能咨询问答系统的服务效果。当用户输入的问句匹配为任务型问句时,则进入对话子系统,进行多轮流程式对话;否则,将进入问答子系统。

本文基于文本硬匹配、相似度匹配和深度学习三个模块,构建问答子系统。因为寒暄语句比较简练,用相似度匹配的效果较差,因此本文采用完全匹配的策略,当对话进入问答子系统后,利用文本硬匹配对问句进行文本硬匹配,快速对寒暄作出回复。若匹配失败,在进入相似度匹配子模块时还可以将寒暄语作为停用词处理用户问句,提高准确率。

本文选择基于向量空间模型和基于语义词典相结合的方法来计算句子的相似度。基于向量空间模型的TF-IDF方法[19],将用户输入的问句利用Jieba库进行文本预处理,即对Query进行去停用词、词性标注和分词等处理[20],再运用Gensim框架中的TF-IDF模型处理用户输入的问句,通过余弦距离进行相似度计算。

当FAQ库中的问答对不断增加,如果单纯地依赖文本硬匹配和相似度匹配模块,将会导致计算效率和准确率低下的问题。因此本文提出利用Bi-LSTM和CNN结合形成的LSTM_CNN深度学习分类模型来改进候选集的质量,得到高质量并且与用户问句语义相关的候选集,从而提高匹配的精确性。该深度学习分类神经网络架构如图3所示[21]。

此外,智能咨询机器人系统的深度学习支持自我学习的功能。系统将无法识别的用户问句定期进行聚类处理,图书馆馆员再对收集到的语料进行清理和标注,接着利用新的语料集训练LSTM_CNN网络模型,并且对模型进行测评,只有当准确度达到阈值时,才将模型投入线上运行,否则继续完善语料集。该模型提高了智能咨询机器人的学习能力,通过持续对模型的训练和语料库的完善,使得机器人的回答准确度得以提高,从而改善用户的人机体验。

4.3 面向任务类的对话子系统

本文调研了国内应用最为广泛的7种具有多轮会话功能的聊天机器人系统,结合图书馆领域的应用场景,调研主要从自然语言理解、对话管理和扩展功能三个方面展开,调研结果如表1所示。根据调研结果,结合平台的实用性、功能种类、应用效果和成本等因素综合考虑,本文最终选择在百度的UNIT对话系统的基础上构建对话子系统。

为了解决用户意图模糊或表述不清的问题,系统首先需要定义意图和词槽,UNIT平台支持自定义词典,也可选择系统预设词典,本文结合图书馆参考咨询服务的应用场景,选择自定义词典,再设置词槽与意图关联属性。其次,导入样本数据集训练模型,样本数据集需要包括真实场景下用户的各种问句与标注部分,需要标注所有问句的意图和槽位。最后,完成模型的训练后,可以进行测试体验。

4.4 应用效果

南京大学图书馆推出了实体机器人“图宝”,并设计出图书馆智能问答系统“图宝在线”,打造了智慧图书馆咨询机器人,统一管理线上线下的咨询服务,帮助读者通过任意兼容的终端来获取精准化的知识[22]。

南京大学智能咨询机器人平台通过API或SDK与图书馆网站、微信公众号、QQ在线咨询、App,甚至馆内移动的实体机器人等客户端进行对接,读者通过访问或者登陆可以和机器人之间建立通信链路。所有咨询都预先进入机器人渠道,通过机器人进行读者识别、问句处理、意图识别、知识库检索、输出答案、学习挖掘等等,只有在机器人无法识别读者问题或者读者主动要求在线馆员服务时才会进入人工服务。

目前,南京大学智慧图书馆智能咨询机器人平台部分实现了本研究构建的框架中的主要模块,如咨询类问答、寒暄类问答、对话类问答等,但由于本平台还在试用阶段,还存在问题—答案的匹配准确率不高,无法使用数据来量化平台运行效果的问题,在日后的研究中还需补足。

5 结语

本文基于对国内外图书馆咨询机器人的研究成果的分析,创新性地提出了一种多策略混合的问答系统模型,并根据问句的类型分别构建问答子系统和对话子系统,实现了以此为框架的图书馆参考咨询机器人平台,该系统现已初步应用于南京大学智慧图书馆系统。为了提高智能咨询机器人的服务水平,未来可从这些方面进行优化:(1)提高问题识别精度。通过提高机器人对关键词提取和问题识别匹配的精确性,加深对用户问题背景、情境和任务的理解,从而提高回答的准确性;(2)健全咨询机器人评价体系,可通过设计自动评分反馈系统,收集用户对咨询服务的满意度与意见,以期提高机器人的服务效果;(3)进一步挖掘咨询机器人在参考咨询服务中的应用,包括引导用户、指定用户个性化服务、智能推荐图书及相关信息等功能。

参考文献:

中国政府网.政府工作报告(文字实录)[EB/

OL].[2021-04-20].http://www.gov.cn/guowuyuan/2019-03/05/content_5370734.htm.

聂亮亮. 基于移动端的图书馆咨询服务研究与系统设计[D].南京:南京农业大学,2017:8-9.

赵苹.“双一流”建设背景下的高校图书馆智慧服务推进路径探究[J].大学图书情报学刊,2019(4):44-47.

FERNANDEZ P. “Through the looking glass: envisioning new library technologies”how artificial intelligence will impact libraries[J]. Library Hi Tech News, 2016, 33(5):5-8.

Creating, managing and analyzing an academic library chatbot[EB/OL].[2020-02-28].http://bid.ub.edu/en/43/kane.htm.

初景利,段美珍.智慧图书馆与智慧服务[J].图书馆建设,2018(4):85-90.

The University of Nebraska. Pixel[EB/OL].[2021-04-20].http://pixel.unl.edu.

ALLISON D A. Chatbots in the library: is it time?[J]. Library Hi Tech, 2012, 30(1):95-107.

HARTSELL-GUNDY J, JOHNSON E O, KROMER J. Testing telepresence remote reference service via robotics[J]. Reference & User Services Quarterly, 2015, 55(2):118-122.

MCKIE I A S , NARAYAN B. Enhancing the academic library experience with chatbots: an exploration of research and implications for practice[J]. Australian Library and Information Association, 2019, 68(3):268-277.

郭山.智能机器人技术在公共图书馆实时参考咨询服务中的应用[J].图书馆学研究,2017(10):58-61.

焦洁. 图书馆智能机器人应用研究[D].郑州:郑州大学,2020:1-2.

何瑶. 基于智能机器人的智慧图书馆服务研究[D].南京:南京大学,2018:9-13.

孙翌,李鲍,曲建峰.图书馆智能化IM咨询机器人的设计与实现[J].数据分析与知识发现,2011,27(5):88-92.

姚飛,纪磊,张成昱,等.实时虚拟参考咨询服务新尝试:清华大学图书馆智能聊天机器人[J].数据分析与知识发现,2011,27(4):77-81.

姚飞,张成昱,陈武.清华智能聊天机器人“小图”的移动应用[J].现代图书情报技术,2014,30(7):120-126.

覃显晶,王祥伟,庄卉卉.基于人工智能技术的图书馆咨询机器人设计与实现[J].情报探索,2019(3):91-97.

陆伟,戚越,胡潇戈,等. 图书馆自动问答系统的设计与实现[J].情报工程,2019(2):5-16.

薛苏琴,牛永洁.基于向量空间模型的中文文本

相似度的研究[J].电子设计工程,2016,24(10):28-31.

黄贤英,谢晋,龙姝言.基于公共词块及N-gram模型的问句相似度算法[J].重庆理工大学学报(自然科学版),2017,31(10):175-179,197.

史梦飞,杨燕,贺樑,等.基于Bi-LSTM和CNN

并包含注意力机制的社区问答问句分类方法[J].计算机系统应用,2018,27(9):157-162.

南京大学智慧图书馆二期:智能机器人正式发布

[EB/OL].[2021-04-20].https://bkzs.nju.edu.cn/0c/42

/c4547a199746/page.htm.

刘 泽 南京大学信息管理学院硕士研究生。 江苏南京,210023。

徐潇洁 南京大学信息管理学院硕士研究生。 江苏南京,210023。

邵 波 南京大学图书馆副院长,信息管理学院教授、博士生导师。 江苏南京,210023。

(收稿日期:2021-07-16 编校:陈安琪,左静远)

猜你喜欢

咨询服务
5G智慧时代公共图书馆参考咨询服务
浅谈12333咨询服务建设的问题和对策研究
中小企业会计咨询服务存在的问题及对策思考
南澳大利亚大学图书馆咨询服务转型研究
论大学图书馆管理服务的构建
图书馆满足社会信息需求的新价值体现与路径对策研究
坚持完善内部审计管理 持续促进组织价值增值
专业安全技术咨询服务与企业安全管理的有机结合
新时期如何更好地开展图书馆信息咨询服务工作
浅析电力工程项目的前期咨询服务