基于用户数据挖掘的图书采购模式研究＊

2020-06-08廖宇峰

科技与创新 2020年10期

关键词：馆藏数据挖掘图书

廖宇峰

基于用户数据挖掘的图书采购模式研究＊

廖宇峰

（广东食品药品职业学院，广东广州 510520）

国内图书馆人对基于用户数据挖掘的图书采购模式方面的研究做了一些探索。图书采购决策过程中用户数据挖掘的全过程包括收集数据、数据预处理、建立模型和结果调整。探讨如何引入数据挖掘技术，深入挖掘用户数据，为图书采购决策、管理和服务提供决策支持。

用户数据；数据挖掘；图书采购；采购模式

1 前言

作为学校的文献信息交流和储存中心，图书馆一直为学校的教学和科研提供服务。因此，高校图书馆的发展必须与学校的发展保持一致，除了专业教育，通识教育和终身学习习惯也是高校人才培养战略的重要培养目标。图书馆的馆藏资源建设必须与学校的专业设置、教学计划紧密结合，在为学校提供专业文献资源保障的同时，也为通识教育和终身学习习惯提供保障。

目前，图书馆的馆藏资源建设所遇到的需要重点探讨的问题，主要集中在怎样构建快速、真实反映馆藏结构分布、用户实际需求和图书利用率的动态图书采购决策方案。

利用目前方兴未艾的数据挖掘技术，可以在海量数据中迅速获取到有价值的信息。本文将探讨引入数据挖掘技术，深入挖掘用户数据，以期帮助馆藏文献资源的建设，充分掌握馆藏文献资源的建设动态，更好地开展图书采购业务，充分保障用户的知识获取权益。

2 目前高校图书馆图书采购的主要工作方式

2.1 专业采编部门组织采购

部门内部的采编工作人员按照采购计划，根据各个渠道获取书目，按照馆藏建设制度，挑选合适的书目。由于多个工作人员的知识结构不同，一定程度上增加了选书的多样性，但因为人员素质不尽相同，可能导致效率低下、选书标准差异分化严重。此外，因长期没接触一线流通工作，导致采编工作人员与用户沟通不多，不能完全理解用户的需求。

2.2 用户荐购方式

用户荐购也称为PDA 模式（Patron-Driven Acquisition），用户可依据图书馆给出的清单挑选图书，也可以自选书目，利用现场填写书单，电子邮箱、电话、微信和QQ等方式告知采购工作者完成图书推荐过程。目前有条件的图书馆也开始推广“图书荐购系统”，用户可以随时随地在系统中选择图书，后台也可以随时获取用户需求清单。

“用户荐购方式”在很大程度上可以满足用户的需求，但是一般用户只是按照自己的想法来选择图书，具有一定的片面性、随机性和偶发性。此外用户荐购数量无法与馆藏建设规划相比，只能作为图书馆采购图书的一种补充。

2.3 馆配会和书展现场采购

书展一般展示的是热门书籍和畅销书籍，而馆配会现场的图书数量也有限制。图书馆组织人员参加书展和馆配会，是对纸质馆藏的一种有益补充，但是无法解决专业性强、全面而且有深度的图书采购。同时，因为经费的问题，参与现场采购的人员不可能数量太多，因受限于各自的知识面，因此也只能满足少部分用户的需求。

3 采购决策相关因素

3.1 流通借阅数据

正常情况下，用户一般都会按需借阅，因此本馆的用户借阅数据基本能反映用户的实际需求。后台工作人员可以根据历史借阅数据，统计分析出用户的偏好和兴趣，为图书的采购工作提供一定的科学依据。

3.2 主管机构的战略规划

对于高校图书馆而言，图书馆的纸书采购必须与学校的长远规划和专业设置相匹配，一旦学校开设了新专业，高校图书馆也必须增加相关的专业书籍；而如果高校希望增加学生的通识教育，图书馆也理应增加相关的书籍，以配合学校教学、科研和全面育人的战略规划。

而对于公共图书馆而言，图书采购必须充分考虑当地监管部门的发展战略和规划，例如广州致力于新一代信息技术、人工智能、生物医药和新能源、新材料等新兴产业的发展，因此相关地区的公共图书馆应该适当增加相应的藏书，以配合广州的发展规划，促进相关知识的广泛传播。

3.3 图书出版时间及价格因素

根据市面上纸质图书的出版规律，纸书的价值一般会随着时间的推移而降低，这在一些发展迅猛的高新技术类图书上更为明显。图书出版时间是采购人员需要重要考量的因素。同时因为经费有限，所以大多数图书馆也会将图书的价格考虑进去，以达到效益最大化。

随着信息技术如火如荼的发展，图书馆获取和挖掘用户的数据变得越来越科学和便利。深度挖掘用户数据，可以全方位获取到用户的真正需求，因此，用户数据已经成为越来越多图书馆制订采购书单时的重要决策依据。

通过对用户数据进行深入挖掘，进而形成重要的报告，不仅可以事前为图书采购提供依据，同时在事后可以作为图书采购质量的评判标准。在对用户数据进行深入挖掘分析之后，制定图书采购计划，确定图书的类型比例，同时在过程中可以纠正偏差，有效提高所购图书的针对性，充分保障用户的需求，同时保持馆藏资源建设的动态平衡。因此，基于用户数据挖掘的采购模式已经越来越受到广大图书馆采购工作者的关注。

4 用户数据挖掘对图书馆图书采购决策的驱动

4.1 本馆电子资源使用记录

目前大部分高校图书馆都会自建具有学校特色的专业数据库或者购买知网、万方、超星之类的学术数据库，这些数据库内容丰富，囊括了电子报刊、电子书、试题库和学习库等电子资源。用户利用此类数据库的记录，可以在很大程度上反映需求状况和阅读偏好。

4.2 用户借阅数据

用户的借阅数据，例如用户借阅类目、借阅时间、借阅偏好和借阅数量等借阅数据，为图书馆馆藏结构的科学性和合理性提供一定的依据。

4.3 用户需求信息

用户需求信息包括用户通过“荐购系统”、圈选清单或者QQ、微信发送给图书馆的实际图书需求。因此必须发动师生用户，积极参与到馆藏资源建设中，图书馆准确地掌握用户的真实需求。特别是学校的学科专家、科研人员提交的图书需求信息，馆内工作人员应该特别加以关注。此外，也应该注意收集用户与馆员在沟通交流中产生的一些隐含需求信息。高校教师获取馆藏文献资源主要用于教学和科研，而科研需求在研究型院校中尤为明显。对于学生用户而言，低年级学生获取馆藏文献资源主要是为了了解与专业相关的知识，或者通过课外学习增加全方面的知识储备，而硕士、博士借阅图书主要是希望有助于开展科研。

4.4 学校专业建设数据

学科建设数据主要通过全校专业设置情况、重点专业、各专业师生数量等数据进行描述。重点专业是学校学科建设的重中之重，一定程度上体现了一所大学的办学传统和优势，而新增专业是各个大学专业建设新的突破口和新的增长点。

4.5 图书流通记录

在图书馆的自动化管理系统中，保存着图书馆全部的图书流通记录，包括各专业相关的图书借阅情况、按分类号统计的各类图书借阅情况、每种图书的续借情况、各学科馆藏占比（各个不同的学科与图书馆所有的馆藏数量的比例）、某图书的借阅率与该图书所在学科的平均借阅率的比较数据，该数据可以充分反映某学科内的热门和冷门图书，从而反映用户的需求。

4.6 OPAC检索信息

OPAC检索信息中包含着非常庞大的用户需求，此类信息包含用户检索字段的频率、检索时间、点击浏览具体类目情况，甚至还有用户的所属专业、性别和年级等信息。此类数据能够全方位地了解检索者的需求和借阅偏好，非常有助于对用户需求进行深度挖掘。

4.7 其他相关数据

除上述数据以外，图书馆的整体馆藏数据、大型出版社信息、供应商信息、著者信息和新书书目数据对于数据挖掘也具有重要的意义。例如著者信息，不同著者知识结构、职称和科学人文素养不尽相同，名家经典、权威专业人士的质量总体会更高一点，因此，著者信息也是必不可少的因素之一；而新书书目数据需要尽量做到覆盖面广、保证时效、书目信息完整，否则会影响到数据挖掘的效果。

5 图书采购决策过程中用户数据挖掘的模式

收集图书馆的大数据尤其是用户数据，包括本馆电子资源使用记录、用户借阅数据、用户需求信息、学校专业建设数据、图书流通记录、OPAC检索信息和其他相关数据等数据，然后导入到SQLServer数据库中开始数据预处理[3]，删除冗余、不完整和噪声较多的不科学、不准确的数据；同时剔除已经失效的用户信息，最后将预处理后的数据表导入到SPSS Clementine软件中建立模型；最后依据导出的结果，反馈给用户，进行结果调整。用户数据挖掘模式如图1所示。

图1 用户数据挖掘模式

5.1 大数据的采集

图书馆在馆藏资源信息化建设过程中，产生了大量蕴藏着对于图书馆来说价值连城的数据，包括结构化、半结构化和非结构化数据，包括本馆电子资源使用记录、用户借阅数据、用户需求信息、学校专业建设数据、图书流通记录、OPAC检索信息和其他相关数据等数据。

5.2 数据预处理

收集本馆电子资源使用记录、用户借阅数据、用户需求信息、学校专业建设数据、图书流通记录、OPAC检索信息和其他相关数据。这些数据可以通过图书馆自动化管理系统以标准格式导出，然后导入到SQLServer 数据库中进行数据预处理，删除冗余缺漏、不完整和噪声较大的不准确数据。

数据预处理过程中，应对所获取数据进行统一处理，删除其中的异常数据，同时进行填补缺漏，确保数据格式的一致性；因数据来源各不相同，所以需要将数据格式进行相应统一转换；合并重复的数据，确保关键数据的准确性、完整性和有序性。

5.3 建立模型

决策树算法通过标引数据中的独特、显著特征，并根据这些特征进一步缩小数据集，直到建立清晰、完整的相关性。该算法可以对源数据中的信息做出科学、明确预测；聚类能够查找多维空间中数据的自然分组，为用户呈现数据更直观的一般分组[4]。

SPSS可将用户各种相关的数据严格地按照要求进行全方位、多角度的整体综合分析，从而深入挖掘用户对馆藏图书的真实需求，最后根据反馈结果调整本馆图书采购策略，丰富、完善整体馆藏结构，进一步提高图书资源的利用率，更好地实现用户的需求和完成本馆的工作目标。

在SPSS工具中利用分类和回归树（C&RT）算法来构建决策树，对之前预处理过的用户信息进行深入地数据挖掘。具体操作路线：将预处理后的结果导入到SPSS Clementine软件中建立模型；然后将各个数据源节点、导出节点、过滤节点、类型节点、分布图节点和C&RT节点依次连接起来，按照既定方针配置各个参数；最后执行数据分析处理程序。

5.4 结果调整

按照之前的部署，将各个相关数据导入并进行数据挖掘后，导出完整的结果报表，这份价值连城的结果报表可为工作人员提供科学、严瑾和全面的采购决策。

系统不仅能通过决策树方法为图书采购工作提供决策依据，而且还设计出新书书目，同时可以吸引潜在的用户群。图书采购工作人员可以把导出的新书目发送给学校的师生用户，让这些用户再次挑选、评估新书目。根据用户们的反馈，工作人员可以对决策结果进行人工干预和修正。系统不仅能够提供科学工具分析后的决策，而且还能让广大用户群体直接参与到采购评估工作中，两者相辅相成，进一步提高新书采购的科学性和合理性。

数据挖掘是图书馆信息化决策系统的重要组成部分，如何充分利用信息技术、发挥图书馆工作人员的主观能动性和创造性，构建科学而高效的数据挖掘系统是一个现代化的图书馆必须面对和研究的课题。越来越多的案例证明，利用数据挖掘技术为图书采购提供决策依据，不仅可以显著地提高新书采购质量，同时也有助于图书馆能够采购到学校和用户都需要的图书。本文探讨了基于用户数据挖掘的图书采购模式，为图书采购决策、管理和服务提供决策支持，是信息技术在图书采购领域的一次有益尝试。

［1］宋宇.基于数据挖掘的图书采购模型研究［J］.图书馆学研究，2014（17）：53-55.

［2］王芙蓉.大数据环境下基于读者决策的图书馆文献资源采购模型研究［J］.图书馆学研究，2017（12）：54-59.

［3］廖宇峰.基于用户数据挖掘的图书馆图书采购模式研究［J］.情报探索，2017（4）：31-34.

［4］孙元军，郑新奇.基于SQL Server的城市地籍空间数据挖掘探讨［J］.计算机工程与应用，2007（13）：200-202.

2095－6835（2020）10－0118－03

G253.1

10.15913/j.cnki.kjycx.2020.10.052

廖宇峰，男，硕士，广东食品药品职业学院图书馆馆员。

2016年广东省图书馆科研课题“基于用户数据挖掘的图书采购模式研究”（编号：GDTK1611）的研究成果之一

〔编辑：严丽琴〕