基于图书馆读者大数据应用的思考

2021-05-25只莹莹国家图书馆

图书馆理论与实践 2021年3期

只莹莹（国家图书馆）

1 读者大数据的意义

近年来，快速发展的大数据技术已成为推动公共文化服务发展、促进业务创新增值、提升公共文化机构核心价值的重要驱动力。图书馆读者服务工作中产生的数据也越来越具备大数据的特征，以国家图书馆为例，截至2020 年8 月，已有282 万到馆读者用户、2,360 万条借还记录。随着数字图书馆的进一步发展，个人身份信息、借阅记录、搜索方式、行为痕迹等都成为了非常有价值的大数据样本。

大数据时代，海量的馆藏资源会加大读者获取信息的难度，因此，公共图书馆必须建立现代信息技术应用发展背景下的图书馆服务新生态，利用大数据技术突破图书馆变革发展瓶颈，提升读者大数据分析服务能力。图书馆在读者大数据的基础上对读者个性化服务模式进行研究既是“数据驱动图书馆变革”的共识，也是促进图书馆可持续发展的必要手段。

2 读者大数据的应用现状

2.1 基于读者大数据的个性化服务研究

基于读者大数据的个性化服务大多是针对读者、时间、文献三个维度进行的交叉挖掘分析。读者可分为年龄、性别、学历、学科背景、职业等不同属性；时间可分为年、季、月、星期、小时等不同间隔；文献可分为题目、中图分类号、语种等不同类别。对这些信息项进行挖掘可以发现读者的借阅倾向，对图书馆的个性化主动服务、学科文献资源建设决策、优化服务格局等有重要的指导作用。通过读者大数据还可挖掘出不同读者群体间借阅兴趣的相似性和相异性，找出读者群与文献类别的关联性，发现不同读者群对不同类别文献的需求模式，建立针对读者群体兴趣的个性化服务。在互联网时代，要全方位、多渠道搜集、分析读者行为数据，研究读者的使用习惯和阅读偏好，更要保护读者隐私安全，在合理使用读者个人信息的基础上进行满足读者需求的主动、个性化推荐，构建精准服务体系。

2.2 基于读者大数据的文献采访决策研究

图书馆采访是馆藏建设的首要内容，也是为读者提供优质服务的资源基础。采访质量影响着图书馆整体服务水平，因此文献采访策略要最大程度地契合读者阅读需求［1］。随着信息载体形态、知识传播方式、资源建设途径的日益多元，原有的采访模式已不能满足图书馆高质量馆藏要求和读者个性化需求，大数据技术给文献资源采访和馆藏建设提供了前所未有的数据支撑。图书馆采访策略包括文献种类、采访周期、经费配比等，对需求多、时效性强的文献要优先采访编目，通过分析读者检索、借还、阅览、查询、学习等行为大数据，可以评估馆藏文献利用情况和文献资源保障水平，分析挖掘出冗余文献种类、急缺文献种类、读者阅读趋势、文献利用率、服务布局是否均衡等信息，为实施科学的采访决策提供依据，进而实现优化馆藏布局、设置合理的剔旧周期、制定高效的服务政策目标［2］。基于读者大数据分析挖掘的文献采访策略既能充分满足读者需求、合理执行经费预算，又能避免文献资源闲置和浪费，使馆藏资源实现科学配置。

2.3 基于读者大数据的业务流程优化研究

读者大数据为图书馆业务决策管理提供了数据支撑和参考，从而促使图书馆优化业务流程，缩小读者需求与图书馆信息服务之间的差距。① 根据读者在某一时间段内的使用频次划分读者群并调整最大借阅限量和借阅周期，从而满足不同读者的需求；②通过文献在不同时间内被借阅次数、文献利用类别的关联，挖掘馆藏文献的供需和闲置情况，辅助图书馆学科建设决策和优化馆藏布局；③挖掘出读者感兴趣的图书类别之间的相关性，将关联图书排架在相连的架位上或者同一区域内，方便读者查找；④通过分析各册图书的利用情况、读者的需求以及馆藏满足情况等有效控制藏书的走向和范围，将活跃单册数字化，确保各个阅览室均具有较强的文献服务能力；⑤图书馆可以依此安排不同时段的工作重心，根据读者需求动态地调整工作人员数量［3］，提高工作效率和服务质量。

2.4 基于读者大数据的服务创新研究

知识服务、用户画像是图书馆服务创新的两大热点，已有研究集中在信息服务匹配推送、用户画像建模、用户隐私保护、知识服务内涵和运行机理等方面［4］。图书馆之间应加强馆际交流，依托读者大数据加强相互合作、共建共享，实现开放获取和行业联盟的发展，打破图书馆之间流通的壁垒，不断拓展服务方式、延伸服务范围、探索新的服务体系［5］。图书馆不仅仅是提供阅读的场所，更应该在推广阅读、培养国民良好阅读习惯方面发挥重要作用，读者大数据能够帮助图书馆从形式、群体、内容、平台等方面进行精准高效的阅读推广服务。阅读推广要以线上活动为主、线下活动为辅，通过移动服务等多媒体渠道搭建交流互动的桥梁，挖掘公众的隐性阅读需求，激发其阅读热情，促进其阅读行为的产生［6］。

3 读者大数据的延伸应用

3.1 读者分群模型研究

公共图书馆和高校图书馆都拥有海量的读者群体，但这些读者对图书馆的使用情况差别很大，因此，可将图书馆读者分为高价值读者和低价值读者，高价值读者的基本信息和行为大数据是图书馆研究的重点。2014 年，思域科技（Civic Technologies）在美国10 所图书馆展开用户研究，这10 所图书馆共拥有400 万用户，占涉及区域总人口的52%，2014 年借阅量达6,749 万次（包括书籍、VCD/CD）。Civic Technologies 以2014 年全年借阅量居于前20%的活跃持卡者为研究对象，这种划分符合帕累托二八定律，且研究数据也验证了图书馆80%的流通率是由20%的重要用户创造的［7］。可见，借阅量前20%的核心读者是图书馆的高价值用户，图书馆要提高对这个读者群体的关注度，深入挖掘高价值读者的需求，增强用户黏性，以实现馆藏资源的最大利用和高效服务。

除了直接将借阅量前20%的读者视为高价值读者群体外，还可以通过聚类分析的方法找出高价值读者。聚类分析是指在没有给定划分类别的情况下，根据数据的相似度进行分组的一种方法，分组的原则是组内距离最小化而组间距离最大化。结合图书馆的具体情况，可选取读者借书时间间隔、借书频率、借书量、年龄、性别等数据（高校图书馆还可以增加学历、专业、职称），通过K-Means 聚类分析来识别最优价值读者。根据读者的属性特征进行分析，将具有不同特征的读者进行归类，再针对这些群体的客户制定相应的服务政策，极大地提高服务效率。

3.2 读者流失趋势分析

目前，对读者流失的研究主要集中在：图书馆工作人员缺少危机意识，服务观念陈旧，热情服务和主动服务较少［8］；读者的“图书馆意识”比较淡薄，对图书馆的整体业务能力知之甚少［9］；新媒体的迅速发展使读者的阅读方式发生了根本性改变，特别是年轻人更多选择了电子阅读［10］；快节奏的生活和竞争压力使人们读书更具功利性，快餐化的浅阅读变得普遍［11］。这些客观原因能够真实地说明读者流失的问题，但是无法描述读者流失的趋势。图书馆必须由基于实践经验的认知模式向基于数据的认知模式转变，提高对数据、事实研究的精确性。

笔者认为，认知读者流失趋势可以促使图书馆进行自省，从读者大数据中获得定量的流失率可以使图书馆工作更加精准，更有针对性地对读者流失问题进行思考和调整。当定量的流失数据（读者借阅量、借阅频率、到馆频率、数字资源访问频率）低到一定程度，说明这个读者正在慢慢退出图书馆，是一个具有流失倾向的读者，具有流失倾向的读者在整个读者群的占比就是流失率。分析读者流失率不仅可以帮助图书馆合理调整服务能力和服务范围，还可以更加有针对性地思考流失原因，比如服务设施不够人性化、针对老年人的服务内容较少等是否为导致老年读者减少的原因。

读者的流失率在一定范围内波动是正常现象，说明新加入读者和流失读者达到一个平衡，能够保证图书馆的服务效益和在社会生产中发挥的作用。当读者流失率过高，图书馆需要及时分析原因，调整服务策略、加大宣传力度，吸引读者回流；当读者流失率较低，图书馆则需要检查各项服务是否能满足日益增加的读者需求，及时扩大服务范围或增派服务馆员。

3.3 读者检索结果重排序研究

资源检索是图书馆知识服务的主要内容，检索平台大都按照一定的规则对检索结果进行排序，然后将排序结果分页显示给读者，如OPAC 是将检索结果按照单册的编目年份进行排序。检索平台默认的排序规则和呈现给读者的排序结果并不完全合理，比如新出版的单册虽然排在检索结果的最前面，但是可能正处于采访中或者编目中的状态，读者并不能获得该文献资源。目前，图书馆对不同层次的读者提供同样的资源发现服务，面对千百条检索结果却无法对读者提供更加有效的排序。而将适合读者需求、读者更加感兴趣的资源放在检索结果的最前端，在提升服务质量、节省读者时间方面有非常重要的作用。

图书馆读者数据具有大数据、大计算、大模型的特征，可以通过机器学习的算法对已有的读者样本数据进行学习和预测，再结合实际情况不断调整优化参数设置，来提高排序结果预测的准确性。机器学习以读者大量的检索、借阅行为和个人基本信息为样本，进行反复学习、训练和预测，再将预测的结果应用于读者检索结果重排序。比如：根据读者的检索内容和检索频率推测出此读者是一个研究型学者，可以将检索命中的相关领域的权威核心期刊和博士论文排在前列；如果用户的检索内容不专业具体，并且检索次数不多，可能是一个刚使用系统的入门者，可以将时间较新、整体概括性强、内容简单易懂的命中资源在排序结果中往前提［12］。下面举例说明，以3 年内借书超过50 本的读者为样本，读者A 输入“计算机软件与理论”进行检索，会出现一个检索列表：

计算机软件与理论相关图书1

计算机软件与理论相关图书2

计算机软件与理论相关图书3

……

将借过图书1 的所有人与读者A 的相关度相加，得出图书1 对于读者A 的权重。在计算出所有检索结果对于读者A 的权重后进行降序排列，使检索结果更符合读者A 的实际需求。由此说明，这本图书借的人数越多越受欢迎；与读者A的相关度越高越符合读者A 的个性化定制。

3.4 读者服务效能评估模型研究

读者服务效能是图书馆在软硬件上的投入与为读者提供的服务能力之比，其决定了图书馆的工作效率、服务质量和读者满意度，研究读者服务效能的最终目的是提升图书馆服务水平。目前，提升读者服务效能的观点包括：优化资源组合，以读者需求为导向，推动馆藏资源科学建设［13］；健全馆员培训机制和加强人才队伍建设，完善图书馆服务体系和管理；坚持以读者为中心的服务理念，发挥新媒体优势，提速智慧图书馆建设［14］；打造品牌服务、特色服务，实现文化增值［15］；积极吸引社会力量参与，建立志愿服务等机制；引入读者评价，完善监督机制等［15］。

以上列出的对服务效能提升的观点均是基于实践经验的总结，对读者服务效能的提升起到了重要的推动作用，但是并没有定量的评估和针对性的精确调整建议。在信息化飞速发展的今天，图书馆更应该探讨如何构建科学合理的读者服务效能模型，对读者服务效能进行定量评估，从而用真实的数据、科学的评估模型来对读者服务效能进行精准的评测。笔者认为，可以充分利用读者大数据，通过读者注册地址或IP 地址确定读者所属区域，获取读者对各类资源的使用情况、利用率以及对资源的评论、分享等信息，将数字资源的点击数、评论数、分享数、完播率和读者的基本信息、门禁信息、流通信息等作为读者行为相关的指标数据，在时间、空间、人群等维度构建读者服务效能评估模型，确定评估模型中每个评估指标的定量表示方法，对服务效能评估指标体系进行研究，确定每个评价维度的要素，并通过大数据智能挖掘算法对原始指标数据进行分析计算，建立指标之间的关联关系，实现对读者大数据的智能分析与挖掘，提升服务效能评估能力和评估准确性。读者服务效能模型为图书馆提供公共文化设施及资源建设、供给、分发、共享等事务的决策提供支持，及时合理地调整供给形式和内容，实现设施的高效投入、资源的按需供给。

3.5 读者信用评估

在信息化社会中，信用是一个用户最重要的标签。图书馆是与读者生活密不可分的活动场所，欠费、毁书等不良现象均有迹可查，能形成非常全面的读者信用记录，将读者长期的行为大数据与信用挂钩，能够真实透明地反映其诚信度。比如国家图书馆流通业务领域的款项信息主要有加减中文外借、加减外文外借、补办长期读者卡、丢失图书、图书污损、赔偿新书加工费、预约未取、逾期等，其中加减中文外借、加减外文外借、补办长期读者卡属于常规业务操作，丢失图书、图书污损、赔偿新书加工费属于偶发事件，因此本研究对预约未取、逾期这两种欠费现象进行研究。以国家图书馆2010-2020 年的款项信息为例，发生过预约未取或逾期次数最高的普通读者欠费达349 次，欠费读者的比例为46%，其中产生10 次以上欠费的读者比例为10%，女性读者欠费比例为55%，男性读者欠费比例为45%，欠费超过3 年且至今未还的比例为3.8%，每个年龄段的欠费比例见表1。

表1 各年龄段欠费比例

由以上数据可以看出，读者欠费比例不低，但是欠费超过10 次的读者数量不多，大部分读者都是偶有逾期或者预约未取。读者在图书馆产生的不良行为虽然只是生活中的小事，但是却能充分反映出一个人的素质，特别是对于长期欠费不缴清和经常毁书的读者来说，其诚信度则大打折扣。安徽宿州市图书馆投入使用了“信易阅”管理系统，对读者进行信用月季评分，为评分登记较高的读者延长借阅时间和增加借书数量［16］。这意味着图书馆也逐渐加入了推动信用社会建设、营造诚信环境的队伍中。

4 未来读者大数据应用方向

4.1 新技术带来读者大数据的新应用

继云计算、大数据、人工智能等信息技术迅速普及发展后，5G、区块链、数字人文、数据科学等新一轮的科技革命也已到来，未来将会是技术驱动下的图书馆变革。区块链技术让读者之间互借成为可能，每个读者都是链条上的一个节点，所有读者都可以看到图书的流通记录，可以对感兴趣的书或者距离自己近的书发起预约请求，或者读者之间可以进行协商互借。5G 时代下的物联网发展，将支持数十万节点的同时连接和大容量视频、图片数据的高速传播，更多的读者会通过5G 技术自然无感的体验图书馆提供的在线服务，图书馆会迎来读者基数增加和读者黏性提升的发展机遇，弥补了传统移动服务与终端用户连接不足等缺陷。5G 智能终端可以实时反馈移动读者行为动态并准确上传，图书馆可以根据读者动态行为信息不断调整最新服务配置，实时满足读者需求［17］。新技术驱动下的图书馆读者大数据会更加庞大、多态、丰富和有价值，对读者大数据的获取、分析和挖掘，是重塑图书馆知识管理与知识服务的关键所在。

4.2 智慧图书馆下读者大数据的变化

智慧图书馆是一种基于智能化、网络化、数字化信息技术，实现以人为本、绿色发展、广泛互联的具有高效、便利、互联、智慧等特性的图书馆［18］。当前智慧图书馆的研究意在提升和丰富读者的感官体验，打造万物互联、智慧共享的图书馆新生态，但并没有意识到智慧图书馆下产生的大数据的庞大体量、财富价值和重要意义。其实在智慧图书馆环境下，通过物联网技术，利用手机、电脑、射频识别装置、全球定位系统、红外感应器、激光扫描器等感知设备，能够对文献、数字资源、图书馆运行状态以及用户需求等信息进行深度感知、测量捕获和传递［19］，获得更加多样的非结构化数据。图书馆与读者之间不仅是服务与被服务的关系，更多是知识互相提供、互相传播、达成共识的关系，读者与读者之间的信息交流、知识交互、思想共识能产生丰富多彩的数据类型［20］。随着大数据技术、分析工具、深度学习算法等不断改进提升和国家战略、政策的扶持，未来智慧图书馆才是大数据应用的肥沃土壤，读者大数据一定会产生更大的价值和效益。

5 结语

在未来，无论是人工智能，还是物联网和云计算的发展，都离不开大数据的支持。对大数据的管理、应用能力能够直接体现出图书馆的核心竞争力，使图书馆服务质量大幅提升。通过对读者大数据进行加工、分析和挖掘，能够实现数据的不断增值，对图书馆服务的公益化、均等化、精准化和融合共享等都起到重要作用。大数据的优势是它的不可知性和无限的可能性，图书馆与大数据不断地交接、碰撞，以数据促进科学决策，吸引着众多学者深入探索。