APP下载

资源发现系统用户行为特征分析
——以北京大学图书馆为例

2023-02-15吴亚平李晓东艾春艳

大学图书馆学报 2023年1期
关键词:全文检索学术

吴亚平 李晓东 艾春艳

用户需求是图书馆一切工作的出发点和归宿,大学图书馆必须要了解用户所在,通过多种方式全面准确地了解用户需求[1]。图书馆的资源建设和服务存在规律,应努力通过大数据技术等新兴技术手段,发现更多的隐藏在图书馆日常工作中的规律,在规律的指引下,开拓更多的甚而来不及命名的原创型服务[2]。美国国会图书馆在其《2022-2026数字馆藏战略评论》(DigitalCollectionsStrategyOverview2022-2026)中也明确强调要通过研究用户行为来拓宽、深化数字馆藏的利用[3]。深入了解用户需求已成为共识,笔者以北京大学图书馆为例,剖析、分析在电子资源发现环境中积累多年的用户行为数据,并基于用户特征和需求提出用户服务优化建议。

1 相关研究

发现系统的内容集成、结果优化、统一发现等方面的优势在逐渐加强,服务场景也在不断拓宽,如嵌入到学习管理平台[4],嵌入到数字教参系统[5],用户使用量稳步上升,用户行为数据规模不断扩大,对其进行分析利用的重要性更为凸显。发现系统用户行为研究是伴随发现系统出现、发展的核心议题,国内外学者已关注到不同类型资源在发现系统中的用户使用差异[6]、不同终端界面的用户行为差异[7]等多方面的问题。其中,用户检索行为分析是一个重要的方面,如搭建搜索日志中间平台[8]或嵌入Google Analytics[9]等网页分析插件收集用户的搜索日志,对用户搜索行为进行各有侧重的分析[10],基于用户基本信息、访问行为、搜索行为等数据,通过智能计算,挖掘出用户的兴趣度[11]等。值得关注的是,当前围绕发现系统的定量研究偏少[12],也有学者提出,发现系统本身积累多年的大量用户行为数据,能够反映电子资源的发现、使用效果,支持对不同的数据资源进行横向比较等,是可用、可对比的比较理想的分析数据源,并呼吁对其加大分析利用[13]。一项70所高校图书馆对“发现系统需要扩展哪些功能”的意见反馈显示,最受欢迎的功能包括可发现统计分析、可视化分析、热点研究,此外,获取全文数、分面点击数、按数据库商统计等方面的统计需求也很高[14]。这表明,图书馆越来越重视且越来越需要通过发现系统多年积累的用户数据来探究用户行为特征、用户关注的热点、资源的发现情况等,而对于期待发现系统扩展的统计功能,其中部分功能已具备,如获取全文数、分面点击数、按数据库提供商统计等,这体现出图书馆员对发现系统统计功能的了解不够深入,或者尚未对相关统计数据进行摸排和分析利用。因此,对已有的发现系统统计分析功能、统计数据进行梳理、分析,为优化服务提供有益参考,具有一定必要性和可行性。

2 概念界定与数据遴选

2.1 概念界定

资源发现系统的用户行为反映用户利用发现系统工具的活动方式和偏好习惯,本文讨论的发现系统工具主要包含北京大学图书馆的“未名学术搜索”和电子期刊/图书导航。文中的电子资源主要指发现系统工具支持发现的电子图书和电子期刊,并将用户通过发现系统工具获取的全文资源量记为电子资源平台的发现量。电子资源平台对应发现系统中的Provider概念,即提供支持发现元数据的供应商对应的所有电子资源。对用户行为特征的分析,首先扫描用户发现和利用电子资源全文的环境,梳理从不同渠道获取电子资源全文的路径及相应产生的、可获取的用户行为数据;其次从数据完整性、可靠性、可比性、数据对应行为的典型性等方面对数据集进行评估,选取分析数据集,通过统计分析、聚类分析等方法[15],得到用户访问、检索、兴趣演化、热门发现电子资源平台、用户访问不同电子资源平台的渠道偏好等行为特征;最后基于结论提出用户服务、资源揭示、数据追踪等方面的优化建议。

2.2 电子资源发现与获取环境及用户行为数据剖析与遴选

北京大学图书馆自2011年引进Summon以来[16],逐渐形成了以“未名学术搜索”学术资源发现门户、360core电子期刊/图书列表、360link全文链接服务以及Journal Linker原文查找工具为核心的电子资源发现与获取环境。电子资源全文发现与获取包含7种行为路径,可归纳为通过进入电子资源平台查找并获取全文、通过在发现系统检索并点击检索结果获取全文、通过其他基于360link链接服务器构造OpenURL获取全文、通过电子期刊/图书导航检索查询到达资源详情页获取全文四大类别,相应产生的、可获取的行为数据标注详见图1。

图1 电子资源全文发现与获取路径与行为数据(目前可获取数据相应字体已加粗)

通过梳理发现,以上数据目前还难以全面反映用户的发现行为,表现为:部分用户获取全文行为数据暂缺,如在“未名学术搜索”的搜索结果页面通过直接链接获取全文的量等;数据粒度未完全统一,如在电子期刊/图书导航中支持按期刊来统计发现量,但“未名学术搜索”却无法按期刊来统计发现量。

虽然当前数据集存在以上不足,但仍然有积累多年的、高质量的、支持横纵向比对的、不可忽视的数据集,包含了用户依托发现系统工具检索、发现电子资源行为的多个重要方面。可归纳为:(1)检索行为数据,即“未名学术搜索”和电子期刊/图书导航中的访问、检索方式、热门检索词等数据;(2)电子资源平台的发现数据,即按同一供应商统计在“未名学术搜索”和电子期刊/图书导航检索结果中的点击量;(3)数据库导航访问数据,即数据库导航中不同电子资源平台的浏览量;(4)使用量统计数据,包括Counter报告中的电子期刊/图书检索量、下载量等电子资源利用量。下文详细展现基于以上数据的分析过程、结论。

3 用户行为特征与演化分析

3.1 用户的资源检索需求在稳步上升,检索技巧的应用能力逐步提升,整体体现出周期性规律

“未名学术搜索”中的用户检索行为包括基于统一搜索框的基本检索和在检索结果基础上进行的分面检索,2017-2021年(以下简称近五年),用户检索资源的频率在波动上升(2020年受疫情及短期停课等影响,数据有所减少),每个基本检索、分面检索会话中用户的检索量在上升,2021年分别达到2.92、4.51,详见图2,这表明用户逐渐熟练使用检索工具,能够频繁切换和应用检索词,使用深度在增强。近五年分面检索量/基本检索量的比例均值为26%,即1次基本检索有0.26的几率继续使用1次分面检索,分面检索类型按使用量降序排列依次为Subject Terms(主题词)、Discipline(学科)、Content Type(内容类型)、Library(馆址)、Language(语言)、Is Full Text(是否有全文)、Is Open Access(是否开放获取)等,其中Subject Terms(主题词)分面占到了八成以上(83%),可见主题是用户检索资源的重要维度。

用户在一年中有两个使用高峰期,不同检索类型具有基本一致的走势,详见图3。整体来看,春季学期开始和秋季学期末是用户检索的高峰期,这与相关研究中通过嵌入网站分析工具Google Analytics得到的用户访问趋势基本一致[17]。

图2 2017-2021年基本检索与分面检索走势

用户逐渐将电子期刊/图书导航作为一种相关资源的检索入口。2012-2021年(以下简称近十年)中,自2011年Summon系统在图书馆启用后,起初用户使用呈快速增长趋势,2013年达到巅峰,而后有部分回落并逐渐趋于平稳,2019年后整体呈稳步缓慢增长趋势。用户行为类型可细分为浏览行为(按学科浏览,按A-Z浏览)、精确检索行为(标题等于、ISSN等于)、模糊检索行为(标题开头等于、标题包含),其中模糊检索行为占比最多且呈上升趋势,浏览行为次之,且在缓慢下降,精确检索行为最少,趋势较为平稳。可见,用户有模糊需求且进行模糊检索的行为在增多,尤其是“标题包含”的检索;泛化浏览的行为有所下降;用户有明确、细化的需求,且进行精确检索的行为在降低,详见图4。

图4 2012-2021年不同浏览类型使用量走势

3.2 “未名学术搜索”能体现出用户周期性、结合突发事件及时事热点的信息检索与资源需求

检索词是用户检索学术资源需求的表达,热门检索词是用户当下资源需求和兴趣的集中体现。“未名学术搜索”记录每月前500个热门检索词,2017-2021年共有29980个热门检索词,其中中文检索词占比77%,高级检索式占比4%。从热门检索词中挖掘焦点词,即前期不是热门检索词但在当期出现为热门检索词并在后期保持一定检索热度的词,可以看出用户关注点和信息需求的变化。焦点词需要比较检索词在历史周期、当前及未来周期的热度情况,笔者将焦点词定义为在[前6个月-当前月]的历史周期内不是热门检索词,但[当前月-后2个月]均为热门检索词,且[当前月-后2个月]每月的检索次数均大于平均水平(即36次),得到71个焦点词,详见表1。

表1 2017-2021年热门检索词中的焦点词

可见,焦点词涉及多个学科的研究主题、经典著作、作者等多个维度,体现出用户周期性的、结合突发事件及时事热点产生的信息需求。如在2018、2021年分别发布了2017、2020年版《中文核心期刊要目总览》,“中文核心期刊要目”“北大核心期刊”等词成为了相应年度的焦点词,体现出用户周期性的关注度,类似地在集中撰写论文的春季学期,“学位论文”“查重”等焦点词也随即出现。在突发事件及时事热点下,用户突增的资源需求也得以体现,如2020年1-2月持续出现的“新型冠状病毒”“Covid-19”“新冠肺炎”等焦点词,反映出了抗击新冠肺炎疫情初期,用户对此主题的资源需求大幅提升,以上印证了“未名学术搜索”作为学术资源发现的门户,是用户搜索相关资源的重要入口。

3.3 电子资源发现量分布呈长尾特征,支持发现的资源规模、呈现的结果优先顺序等是关键影响因素

“未名学术搜索”和电子期刊/图书导航是用户发现电子资源全文的两个核心渠道,两个渠道中以不同的电子资源平台为单位统计的2021年电子资源发现量分布均呈长尾特征(见图5,横轴为电子资源平台,纵轴为电子资源发现量)。

图5 “未名学术搜索”(左)、电子期刊/图书导航(右)中电子资源平台发现量的长尾分布

以下分别列出2021年“未名学术搜索”、电子期刊/图书导航中的热门发现电子资源平台(即发现量总和占总量80%的头部热门电子资源平台)并分析其主要影响因素。

用户通过“未名学术搜索”可发现馆藏数据、电子图书全文、电子期刊文章全文等多种资源类型。2021年,“未名学术搜索”中的馆藏目录、机构知识库或一些特有资源如燕京大学学位论文等资源占总发现量的28%,对剩余的电子资源平台结合二八定律测算出热门电子资源平台,根据热度由高到低排序为:维普、万方、Elsevier、ProQuest、方正、Wiley、Springer Nature、JSTOR、EBSCOhost、知网、Taylor & Francis、SAGE、DOAJ。电子资源平台在“未名学术搜索”的发现热度与三方面的因素直接相关:一是在Summon知识库中所包含的该电子资源平台的电子期刊文章/电子图书全文的数量,即Summon的中央索引中心(Central Discovery Index, CDI)中拥有该平台电子资源元数据的数量;二是图书馆的电子资源在发现系统后台知识库的配置情况,是否将可访问的电子资源全部配置完成;三是该电子资源平台在同一检索结果下的全文链接类型和呈现优先顺序设置,如同一资源的链接类型选择顺序为直接链接、OpenURL链接,同一链接类型下则选择排序优先级更高的电子资源平台。

用户通过电子期刊/图书导航主要来访问电子图书全文和期刊主页进而获取文章全文,2021年电子期刊/图书导航中的热门发现电子资源平台根据热度由高到低排序为:万方、EBSCOhost、知网、方正、Elsevier、Springer Nature、超星、ProQuest、Wiley、JSTOR、DOAJ、CUP、Ovid,与2021年“未名学术搜索”中的热门发现电子资源平台有部分一致性。类似地,电子资源平台在导航中的发现热度差异与以下三个因素直接相关:一是电子资源平台支持发现的电子期刊/图书数量;二是图书馆在发现系统后台知识库的电子资源配置情况,是否将可访问的电子资源全部配置完成;三是同一检索结果下不同电子资源平台的链接呈现优先顺序设置,这一定程度上引导用户以更大的概率使用排序优先级更高的电子资源平台。此外,学科热度、研究主题热度、用户习惯等差异也很关键。

3.4 用户通过不同渠道偏好访问不同电子资源平台,发现渠道的通畅对电子资源利用有明显的促进作用

用户访问电子资源有多个渠道,通过发现系统工具(“未名学术搜索”、电子期刊/图书导航)、通过导航工具(数据库导航)、直接进入电子资源平台是三个主要的全文获取渠道。为探究不同类型电子资源平台的用户访问渠道偏好,综合分析评估电子资源使用情况,以“未名学术搜索”发现量、电子期刊/图书导航发现量、数据库导航浏览量、电子资源平台检索量、电子资源平台下载量为指标,通过lg变换、归一化后,基于k-means方法[18]对2021年数据较为完整的31个电子资源平台进行聚类分析,得到聚类结果如图6所示。对每项指标数值的高低水平采用四分位数(Quartile)来衡量,即把所有数值由小到大排列并分成四等份,处于三个分割点位置的数值即四分位数,将数值>=Q3的记为高等水平,数值[Q2,Q3)的记为中等水平,数值

图6 电子资源平台聚类结果

表2显示了用户通过不同渠道访问不同电子资源平台的差异及电子资源下载量,类别一中的电子资源平台各访问渠道整体均较为通畅,下载量较高,说明读者访问和利用电子资源的情况较好,其中万方、Elsevier的各个访问渠道都比较通畅,下载量高。类别二中的电子资源平台各类访问渠道通畅程度和全文下载量整体处于中等水平,其中用户更多依赖数据库导航访问CUP平台资源,而对于TWS则更多选择直接进入平台查找资源。类别三中的电子资源平台各类访问渠道通畅程度和全文下载量整体处于较低水平,其中用户更多选择直接进入Kluwer Law International平台查找资源,而对于Annual Reviews、AIAA等更多依赖数据库导航来访问资源。值得关注的是,类别一中的大多为综合数据库,资源整体规模较大,类别二、类别三中的专业数据库占比较多,用户相对来讲从发现系统获取全文的比例较低,后续需结合资源规模和不同学科用户的使用习惯差异进行更有针对性的案例分析。

4 研究结论与建议

用户需求是图书馆优化服务的指南针,结合用户在以发现系统工具为主要依托的电子资源利用环境中的行为特征和已有学者的研究结论,提出以下用户服务优化方案。

4.1 把握用户使用高峰期,瞄准、扩大核心用户群体,优化信息素养教育方案、提升信息素养教育效率

从时间和对象上看,春季学期开始和秋季学期末是用户检索、发现、利用资源的高峰期,同时研究也发现,发现工具最好介绍给大学一年级的学生使用[19],即对于低年级的大学生,发现系统可减少他们的认知负担,减缓其查找资源的学习曲线,以一种广泛搜索的方式作为他们的研究起点,相较而言,高年级学生或者图书馆员则更偏向于将发现系统作为次要选择的研究工具,因此每年的新生入学季无疑是开展培训讲座的又一个最佳时期,能够最大概率匹配用户需求,获得更多关注度。也有研究发现图书馆员和学生的使用率较高,而教师的使用率则低得多[20],这也启发图书馆需关注使用率低的用户群体,通过用户访谈等调研方式,深入了解低频用户背后的原因和信息需求,改善其使用情况。

从内容和形式上看,一方面在相关讲座内容的设置上,要避免偏重电子资源平台的界面和使用方法介绍,应认识到教授的内容不应只局限于如何使用界面,更多的精力应放在培养用户的批判性思维和选择优质资源的能力方面。另一方面,用户在电子期刊/图书导航中的模糊检索行为占比最多且呈上升趋势,逐渐将其作为一种相关资源发现的入口,因此还需加强检索策略的培训,帮助用户就某一检索主题优化检索词和检索策略等,以便更好地匹配到资源。

4.2 明确用户访问资源的渠道特征,优化资源配置方案,提升资源的可发现性、可获取性

用户访问电子资源平台的渠道包括通过发现系统工具、通过导航工具、直接登录平台三种,明确用户访问各电子资源平台的渠道偏好差异,可帮助图书馆及时发现和明确原因,以畅通用户访问渠道,提升电子资源的利用率。如对发现系统工具访问渠道不通畅的电子资源平台及时排查电子资源配置的情况,对热门发现电子资源平台增加电子资源配置的更新频率等。同时还需注意结合电子资源规模、学科特征等进行更有针对性的案例分析,在改善现有访问渠道的基础上,针对相应的目标用户开展重点调研,明确其电子资源利用习惯,增加定向邮件推送等多渠道访问方式,提升资源的显示度与利用率。

4.3 及时把握用户信息资源需求,聚合相关资源,开展专题资源推荐服务

发现系统能体现用户周期性的、突发性的、结合时事热点产生的资源需求。相比传统的用户调研等方法,发现系统提供了一种更经济、有效的捕捉用户需求的方式,即通过焦点词透视、追踪用户当前的信息需求,基于用户需求,提供多样化的主动服务,如围绕焦点词聚合相关资源,开展专题资源揭示与推荐服务,提升资源推荐与用户需求的匹配度和有效性;围绕焦点词遴选优质资源,开展专家领读、精读等阅读推广服务等。

5 总结

发现系统工具中多年积累的用户行为数据,能够体现出用户发现、利用电子资源的行为特征的重要方面,对用户服务的优化有实际参考、指导意义。但受限于当前数据仍无法全面呈现用户使用发现系统的所有行为,以及电子资源平台的发现行为数据与其他数据整合力度不够,本研究仍存在不足,如在对电子资源平台进行聚类分析时,只考虑了电子资源平台总体资源的数据指标,以致于资源规模较大的电子资源平台整体表现较好,未来还需结合电子资源平台的资源量,基于更合理的篇均指标、不同学科的用户使用偏好差异等进行分析,以增强研究结论对业务工作的指导意义。

未来,首先需要认识到完善用户行为数据的追踪、记录方案是用户行为研究的基石,图书馆需协同发现系统技术支持共同制定可行的数据追踪方案、数据质量控制规范、同一指标下不同统计标准数据的整合利用等,还可集成Google Analytics等网页分析工具记录用户网页访问数据,与发现平台的数据互为补充。其次要加强发现数据与用户身份数据、资源数据、利用数据等的关联,加强运用调研法、访谈法、行为追踪法等多种用户行为研究方法,针对重点用户群体展开深入研究。最后对分析结论的探讨和应用也需进一步深入,如结合资源规模、学科特征等开展针对性案例分析等,以产生更大的数据效益、增强基于数据优化工作及服务的能力。

猜你喜欢

全文检索学术
全文中文摘要
如何理解“Curator”:一个由翻译引发的学术思考
2019年第4-6期便捷检索目录
全文中文摘要
对学术造假重拳出击
青年再造
专利检索中“语义”的表现
构思精巧余味无穷 讽刺鞭挞淋漓尽致——再谈“虚荣”贯穿《项链》全文
学术
国际标准检索