基于数据挖掘的个性化资源推荐服务研究

2015-08-28胡勇祥

卷宗 2015年7期

关键词：数据挖掘图书馆

胡勇祥

摘要：“以读者需求为导向”的服务理念是图书馆永恒的话题。本文通过针对具有不同资源偏好用户的数据记录进行关联挖掘，找出用户所偏好的文献资源，从而实现图书馆为每一位用户提供个性化资源推荐服务。

关键词：数据挖掘；关联关系；个性化资源；图书馆

科研基金项目：黄冈师范学院2014年科研基金项目（项目编号：2014016703 ）

1 引言

随着网络化的发展以及数字图书馆的崛起，读者从事科研教学时要面对数字图书馆中浩瀚的数字化资源，而为了获得自己所需文献资源，读者不得不花费大量的时间和精力来进行选择，高校图书馆信息管理系统和信息资源库中存储着大量的书目数据、借阅信息和访问记录，这些信息中隐含着大量能够反映读者兴趣特征、图书关联性等潜在的、有价值的知识。但目前高校图书馆只能通过自动化管理系统进行简单的借阅和统计分析，而无法预测读者的需求及图书文献的借阅趋势。应用数据挖掘技术通过分析读者的使用行为与研究方向，找出它们之间的关联关系，挖掘出读者感兴趣的文献资源，为其开展个性化文献资源推荐服务。

2 数据挖掘在高校图书馆中应用的必要性

2.1 个性化文献推荐服务是馆员应用数据挖掘的首要原因

了解读者文献借阅需求，做好读者文献的借阅服务是图书馆服务工作的基础。图书馆馆员应尽量为读者推荐感兴趣、有价值的文献资源[1]。利用数据挖掘技术，在读者使用的文献记录库中找出读者与文献资源之间存在的关联关系，通过关联规则的支持度和置信度来为读者提供相关偏好和有价值的文献资源[2]。这样既可以帮助读者更好地利用文献资源，也为读者节省了大量的查找时间，从而提高了图书馆的服务质量。

2.2 文献检索需要数据挖掘技术的支撑

图书馆传统的文献检索方式是读者通过图书馆信息集成系统OPAC来检索书目库中的简单书目信息，而不能根据读者的需求提供个性化推荐服务。利用数据挖掘技术则可轻松实现这一服务方式。读者每次文献检索时自动将文献检索记录转入到相关读者的推荐数据库中。当读者下次检索文献资源时，通过历史数据挖掘形成的文献资源推荐集，检索后系统会自动为读者推荐与检索文献相关联的其它文献资源，并且将这些数据信息快速地展现在读者面前，大大地节省了读者对文献资源检索和选择的时间。

2.3 数据挖掘的应用更有利于图书馆藏上架排架的管理

图书馆馆藏文献资源丰富，类别齐全，馆藏书架调整管理是图书馆馆员经常考虑的一个重要内容。图书馆馆员可利用数据挖掘预测分析技术中的回归与时序分析方法对图书馆文献借阅历史记录进行分析，找出文献资源被借阅的周期性和频率，预测文献资源的变化趋势。对频繁借阅、借阅量较小的和即将剔除旧的文献合理地规划文献采购数量和藏书位置。这样不断减少了图书馆馆藏图书倒架次数，也为全校师生在借阅查找方面提供了方便。

3 数据挖掘的用户个性化资源推荐模型研究

读者在借一些文献资源后则可形成读者的借阅倾向与被借阅的书籍的相关程度。若能从数量庞大的历史借阅史纪录信息中，找出书籍项目之间的关联及次序，将可提供图书馆发掘出最适合的读者。下面以书籍B为挖掘的目标，从借阅资料中借阅的记录与读者关联关系来发掘书籍B适合借阅的读者。

3.1 关联规则挖掘适合借阅读者模型

假设欲挖掘的书籍为B，必须找出以下形式的关联规则：X→B，X为包含一个或一个以上书籍项目的项目集，X∪B为高频项目集。以上关联规则的形式中，其显示出的借阅倾向为：若读者曾经借阅书籍X，

科学技术

则也会有借阅书籍B的倾向。由以上形式的关联规则可以挖掘书籍B适合读者借阅的依据。

为了避免计算未包含书籍B的项目集及配合挖掘的需要，则可修改APRIORI算法[3]，直接组合书籍B與其他书籍项目形成项目集（itemset），并判断这些项目集是否为高频项目集（frequent itemset），其挖掘的过程模型如下：

找出frequent1，若借阅资料∩B=.，则删除此借阅资料，否则保留此借阅资料。

（1）组合B与frequent1形成itemset2，然后从整理后的借阅资料中检查itemset2是否满足最小支持度，若符合就成为frequent2，否则就删除。

（2）找出所有的frequentk-1，k>2。

（3）组合其中两个有k-2项目相同的frequentk-1，形成itemsetk。

（4）判断找出的itemsetk，其包括的所有子集合frequentk-1是否都有出现在步骤（3）中（若itemsetk-1 ∩B=. ，则不予列入计算），若成立就保留itemsetk，否则就删除。

（5）从（1）整理后的借阅文献记录中检查并找出itemsetk是否满足最小支持度，若符合就成为frequentk，否则就删除掉。

（6）计算frequentk形成的关联规则形式为：X→B，{X∪B}.frequentk

（7）转至步骤（3）继续找出frequentk+1，直到无法产生高频项目集为止。

以上算法从步骤（2）开始，选取出的frequentk必定为frequentk∩B1.，如此才可避免挖掘未能符合目标项目集的计算。从步骤（1）整理后的借阅资料中检查itemsetk是否为高频项目集，然后，计算高频项目集形成的关联规则X→B，若满足最小信赖度，则关联规则成立。因此由关联规则X→B显示的借阅倾向，我们对书籍适合借阅的读者定义如下：关联规则X→B成立，则曾经借阅书籍X且尚未借阅书籍B的读者即为书籍B适合借阅的读者。

3.2 关联规则挖掘的实现过程

以表3.1借阅资料库D1为例，说明挖掘书籍适合借阅的读者的挖掘的过程。I={A，B，C，D，E}为书籍文献项目的集合，R={R1，R2，R3，R4，R5}为5次某读者的借阅资料的记录集合，最小支持度为40%（即最小支持数量为2），最小信赖度设为70%。假设欲挖掘的书籍为B，以下说明挖掘书籍B适合借阅的读者的挖掘过程。

选取frequent1的过程中，将不包含B的借阅资料删除，而形成表3.2的借阅资料库D2

选取包含B的高频项目集的过程如下：

从上图挖掘过程可知项目集4没有。以高频3项目集BCE为例，计算形成的关联规则CE→B，其信赖度为3/4（75%），满足最小信赖度，关联规则成立。因此由关联规则CE→B显示出的借阅倾向特征可挖掘出曾借阅书籍CE且尚未借阅书籍B的读者中，读者R1为书籍B最适合的借阅者，因此可将书籍B推荐给R1读者。

4 总结

根据用户的需求提供个性化的信息资源推荐服务将是高校图书馆未来发展的趋势。它使图书馆的个性化服务更具有针对性。未来我国高校图书馆需要借鉴国外高校图书馆个性化服务的研究经验，并结合本国各高校图书馆的实际情况，不断推进数据挖掘技术，在实践中不断地总结与提高，逐步完善我国高校图书馆的个性化信息推荐服务。

参考文献

[1] 荣丽波. 浅谈图书馆读者服务工作[J]. 黑河学刊， 2011，（3）：134 -135

[2]熊拥军.基于关联挖掘技术的数字图书馆个性化推送服务[J].图书情报工作，2010（01）：125-129

[3]周凤丽.改进的关联规则挖掘算法在Web个性化服务中的应用[J].计算机与数字工程，2011（05）：34-36

[4] 陈燕.数据挖掘技术与应用[M].北京：清华大学出版社，2011：26-52