APP下载

大数据环境下高校图书馆系统平台构建研究

2020-11-16郝博麟

数码世界 2020年10期
关键词:推荐系统大数据

摘要:随着大数据技術在各个领域的成熟应用,图书馆的建设也越来越需要大数据及其相关技术的支持来满足其实现智能化图书馆的必要条件。本文在基于大数据的环境下分析了当前图书馆可利用的潜在大数据资源以及这些资源对于图书馆的重要性,提出了建设智能化图书馆所需要的新的业务服务体系以及图书馆大数据平台的建设方向,设计出图书馆服务系统的体系结构,以期为高校图书馆向未来的智能化图书馆的建设与发展提供一些新的视角。

关键词:大数据;智能化图书馆;推荐系统

在21世纪,随着社会的高速变革与发展,各领域产生的数据量日益庞大的现状,大数据的概念随即被提出,经过一系列发展,其相关技术已经被广泛应用。近年来,随着技术革新,高校图书馆也已经从原来的普通图书馆逐渐向数字化、智能化图书馆发展,其内部产生的数据已具备大数据的特点,比如高校图书馆内电子书,电子光盘等馆藏资源的电子数据,还有读者在访问高校图书馆网站进行书目检索或者使用手机等多种设备访问图书馆所形成的流量,以及在高校图书馆内使用图书馆服务时候留下的一些不规则数据,这些流量与数据随着时间流逝形成了含有挖掘价值的海量数据,通过现在成熟的大数据分析工具以及数据挖掘技术进行处理加工,就可以得到能够对高校图书馆发展与建设起一定指导作用的有效信息。但是由于图书馆的特性,这些数据当中有很多冗余信息,如果不利用有效的手段处理,则难以将他们的作用全部发挥。

高校图书馆的建设与发展愈加需要大数据相关技术做支持,通过数据挖掘,数据分析等大数据技术使高校图书馆能够提供更加优质的服务,包括人工服务和科学知识服务,还可以通过大数据来为用户提供针对自身的个性服务,如书籍推荐服务等。本文通过围绕大数据来对高校图书馆系统平台的建设进行研究。

一、高校图书馆大数据研究现状

(一)国外高校图书馆大数据研究发展现状

国外高校图书馆对与大数据领域关注的比较早,其中美国对于高校图书馆与大数据的结合做了很多尝试,比如美国哈佛大学公布了其图书馆的1200多万种资料,包括视频音频,数目数据等,目的是为了促进新型应用产品的研发。约翰霍普金斯大学图书馆主持DataCon-servancy项目、开发数据监护系统等。关于技术问题的讨论,Ana Kovacevic与Vladan Devedzic等人讨论了使用数据挖掘技术实现高校数字图书馆的推荐服务系统,斯坦福Michelle Baldonado, Chen-Chuan K. Chang等人提出了一种可扩展的元数据体系来满足斯坦福大学数字图书馆的用户的检索,远程连接等需求。

(二)国内高校图书馆大数据研究发展现状

国内近来也对高校图书馆大数据领域产生重视,对于技术探讨方面,程结晶提出了大数据时代图书馆服务创新面临的障碍与对策。陈近,文庭孝提出了在云环境下的图书馆大数据服务系统架构与数据存储模式,主张将大数据与云计算结合来为图书馆服务创新做基础。李艳,吕鹏,李珑提出了高校图书馆大数据挖掘及决策分析体系的架构和流程及其在高校图书馆中的应用,主张构建基于高校图书馆特点的大数据挖掘与分析决策体系,利用对各类数据的采集、抽取、清洗、关联、分析,发掘出数据的潜在价值。

关于应用平台方面,武汉大学图书馆开始尝试基于DSpace建立学科数据管理平台,北京大学图书馆与国家自然科学基金-北京大学管理科学数据中心等多方共同建设开放研究数据平台。

二、高校图书馆存在的大数据组成

对于高校图书馆,随着图书馆的智能化程度逐渐提高,在图书馆中的固有电子数据与图书馆服务使用者产生的数据等结合在一起成为了高校图书馆的大数据。在高校图书馆中,涉及到数据产生来源有几个方面,图书馆的馆藏资源数据,用户的行为数据等等,在这几个来源之中,产生的数据既有结构化数据,也有非结构化数据,种类多,数据量大,具有比较高的挖掘价值。

馆藏数据主要是一些静态数据如书籍记录,光盘与电子书等,这些数据可以作为高校图书馆大数据平台的基础数据。

用户的行为数据主要包括几个方面,首先是用户在图书馆中产生的数据,这种数据通常包括图书馆每天的到馆人数,图书馆用户的借阅记录,检索记录,包括对提供电子书服务以及论文下载服务的下载记录,电子打印扫描复印等记录,还有用户对图书馆的反馈记录,例如对图书馆的建议,对图书馆服务评价向图书馆建议采购书籍的记录,参加图书馆活动的记录。

其次是用户不在图书馆的时候通过访问微信公众号或者图书馆主页,或是其他有关图书馆的网络资源时所产生的页面浏览记录,检索记录等等。

以上是高校图书馆所包含的数据,若想充分利用这些数据,就需要图书馆的整体网络系统作保障,有完整的大数据处理平台,有专业的图书馆数据处理人员,有数据库供应商,采购商,出版商等一系列相关机构的通力合作,还要有图书馆内部门之间的协同工作,通过这样才能把握图书馆读者用户的行为,兴趣,阅读惯性及变化,才能针对用户来实时改变图书馆服务策略,使图书馆整个系统处于动态演变而不是静态服务中心。

三、大数据对于高校图书馆的意义

从上面的对图书馆中产生的大数据分析,可以知道大数据对于图书馆的意义主要在于两个大方面,第一个方面是对于图书馆对外服务的意义。第二方面主要是对于图书馆书籍采购策略的意义。

(一)大数据对于高校图书馆对外服务的意义

对于高校图书馆来说,分析读者数据的意义就是可以为图书馆用户提供极具个性化的服务,这种服务的特性主要表现在以下几个方面:

(1)大数据在用户检索方面上的意义

用户检索服务是高校图书馆提供的最基础的服务之一,读者可以通过检索服务来借阅或者下载馆藏资源。普通检索服务主要针对关键词的检索,这种检索方式无法在关键词不匹配的情况下给予读者其他建议,很多情况下无法解决读者的问题。将大数据技术应用于检索服务后,检索服务可以变成针对用户的个性化检索服务,在用户输入关键词之后,后台查询系统将会结合读者信息、历史搜索记录、读者专业领域与借阅或者下载资源的兴趣偏好等信息得出检索结果,这样可以使检索结果个性化,尽可能满足用户的实际需求。

(2)在对用户推送信息以及推荐方面的意义

对于高校图书馆,我们可以将推荐系统引入到图书馆系统。推荐系统的核心就是算法的支持,成熟的推荐系统都是同时用多种算法来保证推荐系统的准确性比如聚类算法或者分类算法,预测算法等。通过这种系统对读者借阅书籍或者是其他一些馆藏数据的评价来建立用户模型,为用户推荐书籍或者推送其他信息如推荐新书与热门图书,减少读者在书目选择上所花费的时间。

(二)大数据对于高校图书馆采购工作的意义

传统图书馆中的资源采购主要的依据有以下几方面,首先有很多选择基本上是依靠图书馆工作人员,尤其是采编人员的多年采编经验和对所在图书馆馆藏资源的了解来所处采购策略,但是这种方式有很大一个弊病是采编人员的主观意志带入太多,有可能会导致采购的一部分资源鲜有问津,长时间积累的话就会造成资源浪费。

为了使采购计划更完善,主要还是通过对用书相关数据使用数据挖掘等技术,能够得到对于馆藏资源潜在的大量信息,比如已存资源与缺藏资源的统计,用户对于馆藏资源的利用率,各类馆藏资源的热度,馆藏资源潜在的相关性等等,有了这些统计信息可以使系统对利用率高的馆藏资源加以记录,搜索出与高热度图书资源相近的并未列入馆藏的资源,更有效率的做出采购计划。

综上所述,无论是提高图书馆对外服务,还是完善图书馆采购工作,大数据对于高校图书馆都有着重要意义。

四、对构建高校图书馆服务系统平台的研究

如何用包含大数据的思维来建设图书馆,实现图书馆转型还是比较陌生的,所以将大数据相关内容整合到高校图书馆中,应该有一个总体的建设规划。

高校图书馆的整体业务体系主要包含馆藏资源的建设,文献资源的流通,提供对用户的信息化服务,内部工作的管理这几个方面,当前的业务体系要以数据为中心来加强这几方面的建设,结合大数据进行数据挖掘,数据分析等工作,以数据为指导推进业务体系的创新。与高校图书馆以馆藏资源为主的业务体系不同,新的业务体系全部围绕数据展开。想要实现这种体系,在图书馆内就需要有相应的大数据平台。对于高校图书馆的大数据平台,主要由以下几个组成部分,大数据存储,大数据预处理,大数据分析,信息存储。简单阐述这些组成部分:

(1)大数据存储

在图书馆产生的数据,数据量大,种类繁多,这些数据分散在图书馆的各个服务器之中,所以应该建立大数据存储平台将这些零散的数据汇总在一起存储,并且应该尽量搜集与用户相关的其他部门的用户数据,比如网络中心的数据,教務管理部门的数据等等,统合数据便于为数据处理提供条件。

(2)大数据预处理

有了大数据存储平台之后,我们就可以对数据进行预处理,这需要我们建立大数据预处理平台。通过对数据的预处理将原始数据转变为可用数据。

(3)大数据分析

在企业内成熟的大数据分析平台通常由Hadoop,Spark或者其他的分布式计算平台与数据挖掘,数据分析等技术结合完成的,通过搭建这种平台,来分析图书馆中的大数据,进而得出与用户关联的有关信息,建立与图书馆服务与内部工作有关的数据模型,需求模型,建立针对用户的用户模型,完成个性化推荐系统以及支持图书馆采购,管理等相关业务。

(4)信息存储平台

通过大数据分析得到的数据模型,用户模型,需求模型,需要有平台来专门存储,在图书馆数据更迭频繁的情况下,建立信息存储平台有利于及时更新数据,用户与需求模型,保证信息推荐的准确率,同时也能对系统错误检测提供一定的支持。

通过以上的阐述,我们可以对整体图书馆服务系统有一个基本认识,这个体系主要分三层,第一层是数据层,包括了上文介绍的完整的大数据平台,第二层是业务逻辑层,这一层主要是对通过数据分析挖掘得到的信息的使用情况进行存储,保证信息于用户之间的同步,保证结果的即时更新,维持个性推荐的准确率,保证采购策略支持的准确性。第三层是应用服务层,包含对管内工作的服务与对外用户的服务,通过建立需求模型,用户模型实现个性推荐系统和采购管理支持系统。结构图如下:

5 结语

综上所述,大数据技术对图书馆的对外服务,工作管理等方面有着重要意义,高校图书馆应该用先进有效的方法来搜集数据,存储数据,处理数据,合理利用这些以前未被挖掘过的资源,精炼出对图书馆有意义的信息。本文阐述了大数据对图书馆的意义、对高校图书馆大数据系统平台建设做了一定的研究。但是在实现平台建设的过程中也会遇到阻碍如经费资金问题,技术壁垒问题等等。解决这些问题,积极建设大数据平台,提高高校图书馆服务质量,推动新一代高校图书馆的发展是我们接下来的重要课题。

参考文献

[1]程莲娟,ChengLianjuan.美国推进大数据的应用实践及其有益借鉴——基于图书馆视角的分析[J].情报资料工作,2013,34(5):110-112.

[2]陈亚平,吴淑芬.数据监管环境下高校图书馆的角色定位[J].宁波教育学院学报,2015,17(05):110-112.

[3]Ana Kovacevic, Vladan Devedzic, Viktor Pocajt, (2010) "Using data mining to improve digital library services", The Electronic Library, Vol. 28 Issue: 6, pp.829-843.

[4]Kapidakis S , Terzis S , Sairamesh J . The Stanford Digital Library metadata architecture[J]. International Journal on Digital Libraries, 1997, 1(2):108-121.

[5]程结晶.大数据时代图书馆服务创新的内容及其策略研究[J].情报理论与实践,2016,39(03):57-62.

[6]陈近,文庭孝.基于云计算的图书馆大数据服务研究[J].图书馆,2016(01):52-56+68.

[7]李艳,吕鹏,李珑.基于大数据挖掘与决策分析体系的高校图书馆个性化服务研究[J].图书情报知识,2016(02):60-68.

[8]袁芳.大数据环境下图书馆文献资源建设模式的变革[J].图书情报工作,2015,59(18):91-94.

[9]何波,章宏远,裴剑辉.基于大数据的高校图书馆个性化服务研究[J].新世纪图书馆,2017(10):59-61+80.

基金项目

本文系岭南师范学院2019年度校级一般项目“大数据背景下高校图书馆服务转型研究”(WY1913)的研究成果。

作者简介

郝博麟,(1990—),男,汉,吉林,软件工程硕士,助理馆员,研究方向:图书馆系统与大数据。

猜你喜欢

推荐系统大数据
数据挖掘在选课推荐中的研究
基于用户偏好的信任网络随机游走推荐模型
基于个性化的协同过滤图书推荐算法研究
个性化推荐系统关键算法探讨
浅谈Mahout在个性化推荐系统中的应用
关于协同过滤推荐算法的研究文献综述
大数据环境下基于移动客户端的传统媒体转型思路
基于大数据背景下的智慧城市建设研究
数据+舆情:南方报业创新转型提高服务能力的探索