大数据挖掘在保山学院图书馆中的个性化服务应用研究

2020-08-20李朋飞高艳兵刘荣虎王波

现代经济信息 2020年11期

李朋飞高艳兵刘荣虎王波

摘要：互联网发展的速度非常之快，也导致了信息化的盛行，在高校图书馆这一方面，图书馆就积累了大量数据，也导致了数据的冗余和驳杂，读者需要更多的时间来查找信息，想要更方便就要促使高校图书馆优化服务手段，形成符合图书馆的个性化服务。作者以保山学院图书馆个性化服务为研究对象，对国内外图书馆的个性化服务研究，对比分析二者之间的优缺点;然后对个性化服务需要用到的数据挖掘技术进行了系统的阐述，了解图书馆个性化服务的知识;其次对学校图书馆的个性化背景、问题和技术手段进行分析;最后，以保山学院图书馆的借阅信息为挖掘对象，进行具体的分析，再根据数据挖掘的结果提出建议。

关键词：高校图书馆;个性化服务;数据挖掘

一、绪论

发展至今，高校的图书馆存在着大量的图书数据和用户群体，图书馆每天都会产生大量的数据信息，随着图书馆各种文献的增加、资源的丰富、形式的多种多样，读者在获取信息上面的问题也就从获取困难转移到选择困难了，给图书馆开展服务带来不良的影响。

高校图书馆基本上以书籍为基础来给读者提供服务，因为图书馆庞大的书籍信息，使得读者在图书馆中查询信息的效率会很低，远不如直接从网上搜索来的方便快捷，就会导致读者获取信息的目标从繁琐的图书馆上面转变到快捷的互联网上面，使得图书馆的利用率逐渐减低。由此看来图书馆传统服务已经不能满足读者的需求了，高校图书馆的服务模式也应该进行转变，从被动向主动转变。图书馆个性化服务的提出打破了传统的被动服务的模式，能够充分利用各种资源优势，主动开展以满足用户个性化需求为目的的全方位服务[1]。

二、数据挖掘在保山学院图书馆个性化服务中应用现状调查

目前，大部分高校图书馆都在积极地引进个性化服务系统，对个性化服务系统的研究也还在继续，但个性化服务开展参差不齐，服务能力还有待提高。为了准确了解读者对信息的需求，对个性化服务的满意程度，笔者以个性化服务相关方面的内容向学校的读者设计了问卷调查，本次调查共随机发放问卷调查，回收了235份，并进行分析。

（一）读者一周去图书馆的频率

对读者一周去图书馆的频率进行分析，从得到的饼形图中可以看出大部分读者每周都会去1—3次，图书馆对师生是有一定的帮助的，也表明了图书馆的个性化服务对读者们是有必要的。

（二）是否了解个性图书馆的个性服务

对读者是否了解图书馆个性化服务进行分析，从中可以看出很多读者对于图书馆的个性化服务不是特别的了解，表明了学校图书馆对此的宣传力度不是很大，个性化服务的使用不普遍。

（三）读者对个性化服务的需求情况

对读者是否需要个性化服务进行分析，得知读者对图書馆个性化服务是想去了解和使用的，当然，也不排除其中有些人已经接触过个性化服务，比如：图书续借，新书推荐，参考咨询等。

（四）读者对已开展个性化服务的满意度

对个性化服务是否满意进行分析，从中可以看书读者对保山学院图书馆的个性化服务有过接触，对其还是比较满意的，可能还有些地方不够完善。

（五）读者需要的服务种类

读者对个性化服务的要求分析，对于“需要什么样的个性化服务”从问卷中筛选出有用的信息，从中可以看出读者对图书馆个性化服务的要求还是多种多样的，并不局限于某一种服务。

三、数据挖掘在图书馆个性化服务中的实施

（一）数据源选取

搜集保山学院图书馆的图书流通数据、学生信息、图书信息等需要的数据，可以通过网络爬虫软件来搜集或者找图书馆的工作人员要一份图书馆的图书流通数据和图书信息。包含了读者基本信息，借阅信息，图书信息，选择2015—2018四年的图书馆数据，图书信息有1 032 839条，借阅记录870 388条，读者信息记录13 256条。

（二）数据清洗和集成

数据一般是不完整、不一致的，数据清理用来填充空缺的值，识别孤立点，消除噪音，纠正数据中的不一致。在数据的处理和整合上可以利用SAS Data Mining和Pentaho等软件工具。

1.数据清洗。在清洗数据方面可以利用忽略该记录，手动填写空缺值、默认值、平均值，使用最可能的值，分箱、聚类、回归等方法来清洗数据。

2.数据集成。将读者信息和借阅信息汇总成借阅次数表，从上面的数据中根据自己需要的内容创建表，图书借阅数目表包含书号、书名和借阅数量几个字段，读者借阅数目表包含借阅号、姓名、借阅数量、类型和院系结构

信息。

（三）关联算法

关联规则挖掘算法是关联规则挖掘研究的主要内容，其中Apriori算法是发现关联规则领域的经典算法。如算法过程下图1表示，设事务数据D，利用算法筛选出最小支持度为2的项集。

考虑到很多因素，本文将采用Apriori算法，具体的算法如下：

1.L1={频繁1项集};

2.for （k=2;Lk-1≠φ;k++） do begin

3. Ck=apriori-gen（Lk-1）;//产生新的候选项集

4. for 所以事务 t∈D do begin

5. Ct=subset（Ck ，t）;//t中所包含的候选k项集

6. for 所以候选 c∈Ct do.

7. C，count++;

8. end

9. Lk={ c∈Ck | c.count ≥minsup

10.End

11.结果=∪kLk [2]

（四）聚类算法

在聚类算法中选择K-Means算法。它也称为k-平均算法，是一种常用的基于划分的聚类方法，用来根据样本属性值之间的相似度来对样本进行分组。在聚类方面采用K-Means算法建立挖掘模型，对读者进行细分，定义式见（3-1）：

（1）

这里的E是数据库所以对象的平方误差的总和，x是空间中的点表示给定的数据对象，是簇Ci的平均值。k-平均算法的算法描述。

输入：簇的数目k和包含n个对象的数据库，

输出：k个簇，是平方误差准则最小

1.assign initial value for means;//任意选择k个对象作为初始的簇中心

2.REPEAT

3.FOR j=1 to n DO assign each xj to the cluster which has the closest mean;//根据簇中对象的平均值，将每个对象赋给最类似的簇

4.FOR i=1 to k DO ;//更新簇的平均值，即计算每个对象簇中对象的平均值

5.Compute ; //计算准则函数E

6.UNTIL E不再明显变化[3]

（五）基于聚类对读者的细分

从学校图书馆的数据库中可以知道，借阅记录中都有这些信息：读者证、借阅数量、借阅图书、读者信息等。因此对读者可以这样细分：一是利用聚类挖掘将图书馆全部读者的信息细分出来，进行分组;二是将读者的兴趣和借阅情况进行聚类挖掘，在从得到的聚类结果中分析出聚类中的共同点，以此来建立读者借阅模式。

1.借阅情况聚类。笔者将聚类数k定为4，读者细分成4个大类，生均借阅为60、25、12、5本，总共13 256位学生记录，其中类1占了13.5%，利用率在45.12%;类2占20.2%，利用率为25.25%;类3占26.2%，利用率为19.61%;类4占40.1%，利用率为10.2%。从这个结果可以知道有五分之二多的学生年均借阅不足五本，总体上来说，学生对图书馆资源的利用率低。

2.读者喜好、信息聚类。将读者的信息和借阅喜好通过聚类分析出用户在总体上借阅的兴趣，将具有相似兴趣的读者进行分类，划分出不同读者相同爱好的类别，有针对性的提供个性化信息服务，从部分读者借阅信息表和部分借阅事务数据表中可以看出，学生在图书馆借书基本上都是借与专业相关的图书，对其它的图书都不感兴趣，这样就比较简单了，将组内读者的借阅信息进行关联挖掘，找出里面的规则，形成一个整体的信息库，向读者提供个性化推荐服务。

（六）关联规则的挖掘

关联规则挖掘寻找给数据库中不同项之间的联系，将读者的全部信息当作关联规则挖掘的数据源对读者进行分类，再找出每个类中产生的借阅信息之间的联系，对读者实行规则推荐。

1.图书的关联分析。图书的关联分析主要是对读者的借阅信息进行分析，也就是找到读者借过的图书中存在的联系。采用的是Apriori算法。

由频繁项集产生的规则，每个规则都自动满足最小支持度，是形如AB的蕴涵式，其中A∩B=φ。支持度S和置信度C的定义式为（3-2）（3-3）：

S（AB）=P（A∪B）（2）

C（AB）= P（B | A）（3）

2.读者所借图书类别关联挖掘。将最小支持度设为70%，最小置信度为70%;挖掘图书类别，得到挖掘结果，比如：关联规则C→I，P表示读者借阅C类图书的同时有72.49%的概率借了I和O类图书，置信度也在70%以上，还是比较准确的，从计算出的结果来看，将舍弃那些支持度小的结果。将支持度和置信度高的书籍放在一起可以方便管理和学生的查找，也可以在学生搜索某类书籍的时候向他推薦规则中的另一类书籍，满足个性化的推荐。

（七）改善图书馆个性化服务的建议

数据挖掘后可以知道，一是图书馆应该加强与学生的联系，在表中学生对于图书馆的利用率极低，里面的书籍对学生帮助不大，四年来甚至有些同学没去过图书馆，现在更多的学生只是利用图书馆提供的浏览室和自习室学习自己的东西，图书馆也失去了提供知识的意义。应该构建学生个人信息数据库，根据读者的专业，爱好为其提供知识，将学生的兴趣引入挖掘算法中，生成规则，建立模型，提高图书馆对学生和学校的作用。二是当某类借阅频率的支持度满足最小支持度时，学生借了一本书，根据支持度和置信度形成的规则模型，系统向其推荐另一本图书，最大化地满足学生的需求，提高馆藏利用率。三是从表中得知学生是什么专业的就借什么样的书，其他的书籍学生并不感兴趣，图书馆馆藏资源利用率低，图书馆在宣传方面力度也不够，现在开展了保山学院数字图书馆，但是有很多学生却不知道有这个东西，依然以为保山学院还是传统的信息服务，这方面要重视推广。四是建立一个评论模块，学生在接受平台服务的时候遇到问题，可以对平台做出评价，让图书馆的个性化服务不断地

优化。

四、结语

信息技术的发展使得图书馆的数据大量增长，这样个性化服务应用在图书馆中也是必然的了，它的优点在于可以有针对性的为读者提供服务。所以图书馆就要利用数据挖掘技术，挖掘分析图书馆中借阅信息。本文首先对保山学院图书馆的个性化服务现状做了了解，找出它的优点和缺点，其次就是将用户的信息聚类分析，把类似的数据分成一组，建立模型，将每组的信息关联挖掘，找出它们联系，再根据得到的结果，为读者提供个性化服务。在图书馆中构造个性化服务，有助于图书馆的信息管理，了解读者的信息，方便读者的借阅效率，还可以让图书馆针对读者借书的情况来扩充馆藏;并且可以优化图书馆的服务模式。

参考文献：

[1]李灵芝.数据挖掘在图书馆个性化服务中的应用研究[D].长春：吉林大学硕士论文，2014.

[2]邵峰晶，于忠清，王惊龙，孙仁诚.数据挖掘原理与算法 [M].北京：科学出版社， 2009：96.

[3]毛国军，段立娟，王实，石云.数据挖掘原理与算法 [M].北京：清华大学出版社， 2005，7：164-165.