基于脚本分析的数字参考咨询问题类型及其答案准确度研究*

2014-12-25

图书馆 2014年3期

（郑州大学信息管理学院河南郑州 450001）

图书馆开展数字参考咨询服务已经十多年了，这期间正值因特网快速普及，网络服务商推出的众多面向用户的互动问答服务产品（如百度知道、Google Answers和Yahoo!Answers等）与图书馆构成了激烈竞争。本文基于OCLC解密的QuestPoint国际合作数字参考咨询联盟的咨询脚本，分别随机抽取2005年和2011年样本，分析两个样本的问题类型及其准确度，从时间维度观察咨询问题的类型和答案准确度的变化情况，分析变化的原因，探讨因特网的互动问答服务对图书馆的影响。

1 脚本分析的步骤

1.1 样本抽取

在QP的2005年实时聊天咨询的记录中，随机抽取850份记录。为了进行对比分析，在QP的2011年实时聊天咨询的记录中随机抽取350份记录。并在同期的即时信息（IM）Qwidget服务（以下简称QW）会话咨询的脚本中随机抽取210份脚本。这样，抽取该年份的咨询样本共计560份。因为QW软件2008年才加入到QP中，所以在2005年没有出现。为了保护个人（包括用户和咨询人员）的隐私，OCLC对所有记录和脚本都已经去除了可识别的个人信息，包括姓名、性别、年龄、工作单位、联系电话、EMAIL、IP地址等。

1.2 问题分类

参考Arnold 和Kaske，〔1〕Radford 和Connaway，〔2〕以及Ross et al.〔3〕对参考咨询问题的分类研究，本研究团队对抽取的每份聊天记录和QW脚本进行分析，对咨询的问题类型进行了下述分类（见表1）。

表1 咨询问题的分类

3 方针与程序能否在漫长的暑假中在线续借图书？怎样续借？4 无实质问题有关图书馆的方针、政策与程序方面的问题。数字参考系统的测试对话脚本。没有可以识别出问题的用户与咨询员之间的对话交流。（如，对某个咨询员的表扬）5 馆藏资源有关图书馆某些特定藏书，包括纸介质和数字介质的。贵馆是否收藏有对Paris Hilton进行评论的图书？6 研究型问题用户常常是一个学科领域的专家，寻求针对一项特定研究的详细资料。咨询人员常需花费较长时间和精力进行回答。请提供全国范围内的交通普查和交通事故报告的资料。7 不合适的问题某某有几个私生子，这些私生子的现状如何？8 指引型问题对于参考咨询服务不合适的问题，如涉及个人隐私的问题。要求提供就某件事情的引导性信息。暑假青少年阅读项目的URL是什么？9 用户所需的建议帮助查找用户希望阅读的图书、希望听的歌曲、希望获得愉快感受的信息等。是否能够提供任何一种科幻方面的图书？

1.3 答案的准确度分析

将“简单问题”型咨询问题抽取出来，进行准确度分析，结果是2005年的样本中“简单问题”型咨询243份，2011年的样本中“简单问题”型咨询179份。参考Arnold和Kaske，〔4〕Radford 和 Connaway，〔5〕以及 Radford, Connaway,Confer, Sabolsci-Boros, Kwon〔6〕的研究成果，制定了表 2 所示的“准确度的类型划分”作为准确度分析的框架。虽然在有些样本中，在咨询员提供答案之前，用户中断了咨询过程，但对这些咨询问题和答案也进行准确度分析，因为用户提供了Email，答案和咨询脚本随后传到用户的Email中。另外，同一用户就相同问题向不同咨询员进行咨询，后续咨询脚本被删除，这样，在2005年的243份样本中删除63份样本，剩余180份。2011年的179份样本中删除11份样本，剩余168份。

在进行准确度分析时，采用了访问权威网站、相关数据可检索、访问咨询员提供的参考文献及网址、咨询相关专业领域专家学者等方式。每个问题的答案都由两位研究人员进行准确度判断，意见不一致时，进行小组讨论。结果，每个咨询问题的答案准确度情况只归入表2中的其中一种类型。

表2 准确度类型划分

2 脚本分析的结果

2.1 问题的类型

图1 2005年样本的问题类型（850份样本，915个问题）

图1展示的是从2005年的850个样本中抽出的915个问题按照表1进行归类的情况。一些样本包含有两个及其以上可识别的问题，比如，用户提问中包含有两个不同的论题，而不是同一个问题的不同方面。

图1中展示了6种问题（占的比例较高）类型，比例较低的没有展示，包括“研究型问题”（23个，占3%）、“不合适的问题”（10 个 ,占 1%）、“指引型问题”（2 个，占 <1%）和“用户所需建议”型问题（1个，占<1%），所有这些都归到了“其他”类。

图2展示的是从2011年随机抽取的560个样本中包括的575个问题的归类情况。与2005年的样本一样，有些样本也包括多个问题。同样，图2展示的是比例较高的6种问题类型。比例较低的问题类型都归到“其他”类，其中有：“研究型问题”（19 个，占 3%）、“指引型问题”（15 个，占 3%）、“用户所需建议”（6个，占1%）、“不合适的问题”（4个,占<1%）。

图2 2011年样本的问题类型（560份样本，575个问题）

图3 2005年问题类型与2011年问题类型的对比

图3对比了2005年与2011年两个样本集中占比例最高的前5种类型问题，可以看出，咨询问题的类型随时间有所变化。在2005年的样本集中，问题最多的依次为“主题检索”、“简单问题”、“方针与程序”，但在2011年的样本集中，问题最多的依次为“方针与程序”和“简单问题”（都占31%）、以及“主题检索”。其中，针对“主题检索”，2005年所占的比例（占32%）几乎是2011年（占17%）的翻倍。另外，“简单问题”型所占比例稳中略有上升（从2005年的27%，到2011年的31%）。

图4展示了2011年抽取样本的问题类型总量，以及实时聊天咨询（QP）与即时信息咨询（QW）问题分别占的比例。当聚焦在“简单问题”型咨询时，在QP中的比例（21%）要略低于在QW中的比例（24%）。当然，在QP中，占的比例最高的两类为：“简单问题”（21%）、“方针与程序”（17%）。但在QW中，这个顺序被颠倒了，最多的是“方针与程序”（39%）和“简单问题”（24%）。其他类型的问题所占的比例也都有所变化，但变化不很大。

图4 2011年样本的问题类型（QP与QW的对比）

2.2 回答的准确度

根据1.3所述，在对“简单问题”型咨询的准确度进行分析时，在2005年的243个样本中删除了63个样本，剩余180个样本，2011年的179个样本中删除了11个样本，剩余168个样本。图5展示了正确答案和不正确答案的情况。在2005年的样本中，正确答案为141个（占78%），在2011年样本中，正确答案为151个（占90%），说明从时间维度，图书馆提供的数字参考咨询服务的答案正确率逐年上升。图5也展示了“不正确答案”的情况，分别为：2005年为36个（占20%），2011年为7个（占4%），说明从时间维度，图书馆提供的数字参考咨询服务的答案不正确率逐年下降。

图5 “简单问题”的回答正确与否对比（2005年与2011年）

图6 “简单问题”回答正确中有关来源引用情况的对比（2005年与2011年）

图6展示了“正确答案”的三种情况（见表2中的前三种）分别占的数量和比例。总体上讲，虽然从2005年到2011年准确率有所增加（图5），但具体到不同类型上有升有降（图6）。

3 对脚本分析结果的讨论

3.1 咨询问题的类型

由图3可以看出，从时间维度来看，变化最大的是“主题检索”，从2005年的32%到2011年的17%，几乎减少了一半，但这个减少主要增加到了“方针与程序”的问题上（从2005年的18%增加到2011年的31%）。一种可能的解释是，随着时间的推移，用户更倾向于选择数字参考咨询服务解决一些简单问题，而“主题检索”这类比较专业的问题则常通过其他方式（如面对面咨询、电话咨询）解决。“方针与程序”类问题在图书馆网站上越来越难以找到答案，而这类问题又无法到因特网上找到解答，所以只有寻求图书馆提供的数字参考咨询服务来解决。另外，图4也验证了这个判断，“方针与程序”的咨询问题出现在IM即时信息（采用QW软件）中比出现在实时聊天中更为普遍，这也表明咨询模式正在影响用户的选择，Rourke和Lupien〔7〕在比较Guelph大学的实时聊天服务和IM服务中也得出了类似的结论。

Forbes &Brown( 2012)认为，因特网上搜索引擎、维基百科和在线帮助（如Springshare's LibGuides）等普及，越来越多用户选择这些服务进行“主题检索”，导致了图书馆数字参考咨询服务的使用数量减少，这种变化也是虚拟参考咨询中“主题检索”咨询问题数量降低的原因。本文的调查也验证了这个观点。还有，Allen〔8〕发现对检索的主题了解多的用户（一般为专家级用户）倾向于采用范围较广的检索，反之，初学者更倾向于特定检索，年轻用户更乐于选择即时信息方式进行特定咨询。虽然，本次调查无法获得用户的年龄，但不同年龄段用户的咨询行为值得未来研究。

3.2 “简单问题”型咨询：仍然存在且持续增长

美国情报学家Janes针对“简单问题”型咨询的未来做了如下预测〔9〕：“作为对特定问题给予快速、事实型答案的‘简单问题’型咨询一直是图书馆参考咨询工作的一个部分，但随着信息技术的出现，该部分将逐渐消失”。但是，本案例数据分析的结果则相反，这种类型的问题所占比例不仅没有减少或消失，反而稳中有增，从2005年的27%增加到2011年的31%。在另外的一个案例研究中，Numminen and Vakkari〔10〕针对“简单问题”型咨询问题出现的频率进行了统计，结论是从1999年的33%上升到2006年的45%，上升了12%，该案例也验证了本文的调查结论。

虽然从直觉上讲，用户可以使用浏览器、搜索引擎和基于因特网互动问答服务（如百度知道、Google Answers和Yahoo! Answers等），对于事实型问题寻求答案。但是，本案例的调查结果显示并非所有用户都是如此。一些检索技术不娴熟的用户，缺乏查找正确和权威信息的能力，不熟悉或不乐意使用因特网上的互动问答服务。还有一种可能的解释是用户拥有使用数字参考咨询服务的愉快经历，相信图书馆员能够提供准确答案。本案例显示，随着准确度的提高，数字参考咨询服务仍然是对“简单问题”的咨询获得高质量答案的可靠平台。这也说明，因特网服务商推出的互动问答服务产品对图书馆的数字参考咨询服务没有产生实质性影响。

3.3 “简单问题”型咨询的准确度

图5显示，“简单问题”咨询的正确率从2005年的78%上升到2011年的90%，这两个数字都远远高于图书馆界对传统“面对面”咨询正确率的最低要求55%。〔11〕图6显示，在2005年的脚本集合中随机抽取的243个“简单问题”型咨询样品中，有125个咨询问题回答正确且完整并附有来源引用，比例为51%；在2011年的脚本集合中随机抽取的168个“简单问题”型咨询样品中，有114个咨询问题回答正确且完整并附有来源引用，比例为68%；两个阶段相比，正确率增长17%。因此，无论是对“简单问题”型的咨询回答正确率还是提供正确答案同时也提供来源引用的比率都得到了大大提高。

虽然难以准确地确定原因，但可能的解释有几个。一是随着数字参考咨询服务的成熟和普及，在聊天和即时信息环境中，咨询员从事这项工作更加娴熟。二是咨询员采用聊天工具进行咨询服务时不再那么匆忙，他们认识到用户选择虚拟参考咨询服务是因为这项服务的便利性，而不是用户急于获得问题的答案。三是咨询人员可能采纳了一些专家提高咨询准确度的建议。〔12-13〕

一个旨在提高咨询准确度的被业界强烈推荐的一项建议是〔14-16〕：当咨询员回答用户问题的方式是提供一个包含用户所需的网页时，在提交给用户之前，确定该网页包括了能够解答用户问题的特定信息。举一个简单例子，一个2005年的虚拟参考咨询脚本显示，用户的提问是“中国长城的纬度和经度以及附近的城市”，而咨询员提供了一个有关中国长城旅游的网址，但是该网址的网页没有包含用户所需的信息，被鉴定为一个不正确的咨询答案。在本次脚本分析中，这种类型的错误在2005年的数据样本中有36个，但在2011年数据样本中下降到7个。

4 结语

本项研究有两个局限性。①本案例分析采用的数据来自于聊天型咨询的脚本。正如前所述，由于个人隐私的原因，QP和QW的会话记录都进行了匿名处理，删除了所有个人识别信息。因此，对用户的不同分布群体使用数字参考咨询的特征无法进行统计，如：不同年龄段或不同职业的用户群体咨询问题的类型差别等；也无法统计不同群体的咨询员对咨询问题的回答情况，如：咨询员的不同学位、学历、专业背景对用户咨询问题的回答正确率的差异等。另外，也无法与用户和咨询员取得联系，寻求用户对答案的满意程度评估和咨询员对答案的正确度评价。所有这些统计都无法仅仅凭借脚本进行实施。②本文选择的样本均随机抽取自QP的聊天咨询脚本数据库，我们认为抽取的样本可以代表QP在相应期间的整体情况，但并不声称本文的统计结果能够反映其他数字参考咨询联盟或QP的其他年份。

本项研究有两项后续内容。①本文仅对“简单问题”型咨询答案的准确度进行了评估，所以，对其他类型问题答案的准确度分析是本课题的后续研究内容之一。②向用户提供参考咨询，目前除了图书馆开展这项服务外，越来越多的基于因特网内容服务商也提供互动问答服务实现该项功能，并且后者拥有的用户群体更大。因此，对基于因特网的互动问答服务的脚本进行分析，统计出问题的类型和准确度，并与图书馆的数字参考咨询服务进行比较，寻求图书馆可以从因特网提供这项服务中的借鉴之处，是本课题的后续研究内容之二。

1,4.Arnold, J., Kaske, N. K. . Evaluating the quality of a chat service. portal: Libraries and the Academy, 2005(2):177-193

2,5.Radford, M. L., Connaway, L. S. . Seeking synchronicity:Evaluating virtual reference services from user, non-user, and librarian perspectives.〔2013-08-09〕. http://www.oclc.org/research/activities/synchronicity/default.htm

3.Ross, C. S. et. al. Conducting the reference interview: A how-todo-it manual for librarians . New York, NY: Neal-Schuman Press, 2009.5

6,13,16.Radford, M. L. et. al. “Are we getting warmer?” Query clarification in live chat virtual reference. Reference & User Services Quarterly, 2011(3): 259-279

7.Rourke, L., Lupien, P.. Learning from chatting: How our virtual reference questions are giving us answers. Evidence Based Library and Information Practice, 2012(2):63-74

8.Allen, B. . Topic knowledge and online catalog search formulation.The Library Quarterly, 2012(2):188-213

9.Janes, J.. What is reference for? Reference Services Review,2003(1): 22-25

10.Numminen, P., Vakkari, P. . Question types in public libraries’digital reference service in Finland: Comparing 1999 and 2006. Journal of the American Society for Information Science and Technology, 2009(6):1249–1257

11.Hernon, P., McClure, C. R. . Unobtrusive testing and library reference services. Norwood, NJ: Ablex Publishing. 1987. 10

12,14.Connaway, L. S., Radford, M. L. Seeking synchronicity:Revelations and recommendations for virtual reference. [2013-03-09].http://www.oclc.org/reports/synchronicity/full.pdf

15.Radford, M. L., Connaway, L. S.. Getting better all the time:Improving communication and accuracy in virtual reference. NewYork,NY: Neal-Schuman Press, 2010. 7