APP下载

数据挖掘技术在高校图书馆个性化书目推荐服务中的应用

2015-05-13王蕾山东中医药大学图书馆山东济南250300

图书馆学刊 2015年9期
关键词:馆藏数据挖掘个性化

王蕾(山东中医药大学图书馆,山东济南250300)

数据挖掘技术在高校图书馆个性化书目推荐服务中的应用

王蕾
(山东中医药大学图书馆,山东济南250300)

[摘要]数据挖掘技术在高校图书馆个性化书目推荐服务中的应用很有必要,阐述个性化书目推荐服务系统的设计目的和设计思路,设计其整体构架、功能模块和工作流程,并指出数据挖掘的主要实施过程、数据源的选取和借阅信息处理等。

[关键词]数据挖掘技术个性化服务书目推荐高校图书馆

[分类号]G252.1

随着数字化时代的到来,高校图书馆馆藏信息资源越来越丰富,种类和形式日益多样化,面对这些海量的资源,读者在查询自己所要的信息时不仅要花费大量的时间,而且到最后得到的信息也可能价值不大。对广大读者来说,目前的难题是如何从海量的资源中准确寻求到自己所需的信息资源,这对高校图书馆而言这也是一个不小的挑战。

基于读者的个性化阅读需求,管理者应该逐步创新高校图书馆的服务模式,把图书馆的服务功能变被动为主动。在图书馆服务功能中,数据挖掘技术的产生和发展,为图书馆个性化服务的开展创造了有利条件。

1数据挖掘技术及其特点

数据挖掘是从数据库中发现知识,是一个对大量数据进行分析的复杂过程,通过这一过程可以把未知的、有价值的知识抽取挖掘出来。数据挖掘设计的学科领域很多,是一个交叉学科领域,使用的方法也很多,包括数据库技术、神经网络、可视化等。

数据挖掘首先把数据库中的数据进行清洗并集成进入到数据仓库中,数据清洗不仅可以清除噪声,还可以把与主题无关的数据都清除出去;数据的集成是把组合多数据源的相关数据有机地集中。进入数据仓库中的数据还要进行选择和转换进入到特定的数据集中,这部分主要是转换数据的存储形式,以便于数据挖掘的进行。其次,针对特定数据集中的数据,数据挖掘技术的利用主要体现在对数据模式或者数据规律的挖掘,其仅仅是数据挖掘总体中的一部分。最后进行模式评估和知识表示,利用评估标准和可视化表达技术,筛选出有意义的知识模式并向用户进行展示。

2数据挖掘技术在高校图书馆个性化书目推荐服务中应用的必要性

2.1高校图书馆信息资源的极大丰富

图书馆经过多年的积累和沉淀,不仅有浓厚的文化氛围,更有系统的专业知识和丰富的馆藏资源。伴随着人们对与数字图书馆相关的多媒体大数据信息的研究,图书馆与网络技术的结合也逐渐成为一种趋势。现在,人们对馆藏资源可视化的研究主要包括可视化检索的研究和可视化检索结果的研究。数字图书馆信息资源可视化当前突出的问题不只是数据资源的丰富和可视化效果要好,馆藏资源的数字化过程也是个大问题,有些资源的保存介质是很久以前的纸质,这些信息数据的数据库录入工作就不是件容易的事,这在很大程度上影响到数字图书馆的馆藏资源的可视化过程。2.2高校图书馆用户信息需求的多样化

在高校图书馆中,用户信息需求有其多样化的特点[3],主要表现在3个方面:首先是用户信息需求主体的多样化,导致信息用户不断增多,而这些用户群体之间又存在不同的信息需求;其次是信息需求内容的多样化,使得用户有了更多可选择的信息源,不同的用户可以获取不同的信息内容;最后是用户信息需求方式的多样化,提供了更多的途径方便用户获取信息。不同的用户可以根据自己本身的阅读需求,从高校图书馆中可以自由地选择信息获取的方式和内容。

3数据挖掘技术在高校图书馆中的应用

图书借阅服务是高校图书馆主要工作内容,图书馆要做好这项工作的关键就是通过对用户阅读习惯及喜好的分析,总结出不同用户的借阅规律。而且在图书馆提供的服务中,借阅服务更能把高校图书馆“以人为本”的理念体现出来,同时也是做好图书馆服务的一项基础工作。高校图书馆中数据挖掘技术的应用可归纳为以下几点。

3.1图书文献推荐工作中的应用

高校图书馆中最主要、最基础的就是图书文献资源,图书馆中文献资源的利用率是评价图书馆各项服务质量高低的最主要因素之一,特别是个性化服务质量的评价所占比重更大。所以在高校图书馆中,个性化书目推荐工作是整个图书馆服务的重点。

采用聚类分析或者关联分析的方法研究读者的历史借阅数据时,利用数据挖掘技术有利于关联规则的发现,可对读者图书文献的借阅提供理论支持,简单地理解也就是不同的读者借阅的图书类型不同,而且同一读者也可能会借阅不同类型的图书,通过计算类型相关图书文献之间的关联规则,可以分析得到置信度和支持度,进而得出读者的借阅模式,形成在图书馆馆藏资源基础上的图书推荐数据库,通过对读者借阅行为的分析,从数据库中推荐相对有用的图书介绍给读者。例如,通过关联分析读者的借阅行为,关联性较强的有计算机编程和数据库类型的文献,那么当读者有意向对计算机编程语言图书进行借阅时,就可以向读者推荐数据库类别的资源,不仅节省了读者的查找时间,图书馆服务的质量也能得到有效提高。

3.2文献检索中的应用

在高校图书馆提供的个性化信息推荐服务中,其中的重要一环无疑就是文献检索。在传统的文献检索中,图书馆仅能把一些简单的馆藏文献资源提供给读者,而不是进行个性化推荐服务。

图书馆在对读者提供个性化推荐服务时,在目标的实现过程中应用数据挖掘技术可以减轻工作强度。首先是数据准备阶段,数据信息是数据的基础,所以数据的收集对应的也是数据挖掘技术应用的基础,收集的数据主要是读者历史借阅行为,这种类型的数据收集本身就是一项巨大的工程,在图书馆后台数据库中,数据资源是海量的,数据的收集不仅要收集读者的历史借阅记录,还要把相关的读者预约和续借等信息都收集起来。其次,是数据筛选和处理阶段,该阶段的数据筛选主要是处理上阶段收集到的数据,包括噪声和重复数据的消除等。然后把处理后的数据进行预处理和转换,至此构建完成结构化的数据库,有助于数据挖掘算法的进一步实施。第三,是数据挖掘阶段,该阶段是运用关联分析和聚类分析等方法研究建立的数据库,把不同类型读者阅读的喜好和借阅书目信息分析出来。最后,结合可视化技术利用以上分析结果把个性化的文献推荐服务提供给读者,当读者进行文献的检索时,通过推荐集把与读者搜索文献相关的其他文献自动推荐给读者,同时根据读者喜好进行相关优秀文献的推荐,不仅能有效进行读者的导读推荐,还能以可视化的方式把有用的数据信息呈现给读者。

3.3馆藏书架管理的优化

高校图书馆的馆藏文献资源十分丰富,其包含的内容不仅囊括了本所高校设置的专业领域资源,还涉及了其他相关的研究领域,有效帮助全校师生的教学和科研,并能提供给师生个性化的推荐服务。高校图书馆有着种类繁多的馆藏资源,正因如此,在高校图书馆科学发展中馆藏书架管理工作的优化极其重要,而其中的一个重点方向就是图书文献变化趋势预估,在书架上给预测出的最新文献预留出位置,尽量减少书架上图书的倒架次数,做到旧文献及时剔除,新文献迅速上架。

上面所述馆藏书架的优化管理,可以通过数据挖掘技术的引入来实现,首先针对图书馆的历史图书文献借阅日志,选择预测分析技术进行数据分析,选用的方法为回归与时序分析方法,可以得出文献被借阅的周期变化,之后对整理好的图书流通日志进行具体分类,并采用统计方法对其进行分析,把借阅增幅较大和借阅频繁的馆藏资源挑选出来,并根据这些数据按照排架规则进行图书的上架管理,在容易查找的书架位置放置借阅量较大的馆藏资源,并预留位置给那些借阅增幅较大的馆藏文献,使图书的倒架次数减小。最后要及时剔除陈旧文献,实时更新上架新文献,要对馆藏文献资源中的图书进行分类分析,统计出来已印刷新版的旧版图书、拥有过多副本的馆藏图书、残缺破损的图书以及规定时间已到不予以流通的图书,按照以上图书分类分别统计各类图书的数量及其具体所在书架位置,然后对整理好的图书做到及时下架,并将下架信息反馈给相关管理单位,使图书馆馆藏文献资源的及时更新得到保障。

4基于数据挖掘技术的高校图书馆个性化书目推荐服务系统设计

4.1系统结构设计

图1所示为高校图书馆个性化服务模型图,首先是采集用户信息,而后根据信息数据对整体用户利用相关技术进行建模,最后匹配规则库与针对用户构建的模型,提供给用户个性化的信息服务。

图1 基于数据挖掘热切地个性化系统结构

该个性化系统主要包括在线推荐模块和离线挖掘模块,分别表示为实线图和虚线图,而在知识库中,分别由资源的采集、存储、加工处理以及最后服务的提供一起完成了知识的获得。其中前三层提供数据基础给第四层的资源服务层进行知识的推送。在该模型中,数据采集阶段主要是对一些比较零散的数字信息进行采集,一般情况下包括图书馆的馆藏资源信息,读者基本信息、借阅记录以及检索记录,最后的资源处理阶段要对采集到的信息进行加工处理,保证能实时进行数据库信息的更新,唯此资源数据的时效性才能得到有效的保证。其知识资源获取结构图如图2所示。

图2 知识资源获取结构

在资源采集层中,主要由两种信息采集方式:一种是自动采集方式,读者在图书馆进行借阅时,系统提取借书证中的读者个人信息并在读者信息库中进行存储;一种是对读者信息进行手工采集,这主要是在读者借书证中存在不完全的个人信息记录的情况下才会采用,在这部分信息不全的读者在借书时,工作人员需要对读者遗缺的信息进行手工的补充。在资源处理层中,要清理不规范的数据并进行适当的格式转化,使数字信息可被数据挖掘识别,最后通过数据挖掘,存储转换后的知识并提供给读者个性化的服务。

4.2系统功能描述

在高校图书馆中,个性化推荐系统要具有以下功能:

首先是收集用户信息模块,该模块还有两个子模块,分别为图书信息采集和读者信息采集模块。在前一个模块中,主要是准备全面的图书信息提供给后期的数据处理过程,这些采集的信息包括书名、索书号、出版社信息以及作者信息,有些还包括图书馆分类号,在读者进行图书的借阅以及个性化推荐图书时就可以提供给用户以上详细的书籍信息,方便用户的使用。后一个子模块不仅要收集用户的注册信息,还要更全面地对能体现用户个性的各类信息进行收集。

其次是用户模型分析模块,该阶段是针对用户生成具体模型,也即是分析上述采集到的信息,将读者按照数据背后隐藏的规律进行分类,进而把读者借阅模型构建出来。

最后是个性化推荐模块,该模块也是最核心部分,推荐算法的不同决定着推荐系统的差异,其具体划分包括:系统过滤[6];基于内容的推荐系统[7];混合推荐系统[8]及基于规则的推荐系统[9]。

个性化服务系统通过以上3个模块,不仅展示了图书馆个性化服务,还可以看出图书馆服务的主动性。在读者对资源没有明确的需要时,这种功能根据读者的以往借阅记录,参考与其相似读者的属性对读者的借阅行为进行预测,从而提供给读者个性化的服务。

4.3系统工作流程

总的工作流程,将从读者和图书馆的后台数据库两方面同时开展。首先,从读者的角度来说,根据网站的注册信息在首页输入账号和密码就可以选择进入个性化界面,实现人机交互,对各类书籍信息进行查询,同时可以参考系统提供的个性化推荐。另外,从图书馆的后台数据方面来说,个性化系统对读者的个人信息和特点进行后台的调取,然后进行分类再分析,把具体的读者借阅模型构建出来,再利用数据挖掘技术中的关联分析把其中关联关系最好的资源推荐给读者。其工作流程图如图3所示。

图3 系统工作流程

5 结语

数据挖掘技术在高校图书馆个性化书目推荐服务中优势很明显。在网络时代背景下,图书馆在数字化进程中馆藏文献资源愈加丰富,在数字化进程中应用数据挖掘技术能更好地发挥出高校图书馆信息服务的作用,对提高图书馆的服务质量具有重要意义。

参考文献:

[1]国华.数据挖掘技术在高校图书馆管理系统中的应用研究[J].科技致富向导,2013(6):74-76.

[2]项尔津.高校图书馆个性化服务中数据挖掘技术的应用研究[J].兰台世界,2014(6):50-53.

[3]杨雪霞.数据挖掘技术在高校图书馆管理系统中的应用研究[J].软件,2012(6):9-11.

[4]肖永霖,吴旭东,柳炳祥.数据挖掘在高校图书馆个性化服务中的应用[J].科技广场,2012(12):14-18.

[5]魏萍.探究数据挖掘技术在高校图书馆个性化服务中的应用[J].内蒙古科技与经济,2014(6):81-84,87.

[6]杨芳.数据挖掘在高校图书馆个性化信息服务中的应用[J].科技情报开发与经济,2012(1):58-67,112.

[7]李静.数据挖掘技术在高校图书馆个性化服务中的应用研究[D].天津:天津大学,2012(5).

[8]刘显显.基于数据挖掘的高校图书馆个性化信息推荐方法研究[D].沈阳:辽宁大学,2013(5).

[9]王斌.数据挖掘在高校图书馆服务中的应用研究[D].西安:西安理工大学,2010(5).

王蕾1972年生,馆员。研究方向:图书管理。

收稿日期:(2015-04-02;责编:杨新宽)

猜你喜欢

馆藏数据挖掘个性化
馆藏几件残损《佚目》书画琐记
探讨人工智能与数据挖掘发展趋势
数据挖掘技术在打击倒卖OBU逃费中的应用浅析
坚持个性化的写作
博物馆的生存之道:馆藏能否变卖?
知还印馆藏印选——古印篇
上汽大通:C2B个性化定制未来
同桌宝贝
满足群众的个性化需求
介绍两件馆藏青铜器