APP下载

基于云计算的图书馆大数据服务研究*

2016-05-16文庭孝湖南理工学院图书馆湖南岳阳44006中南大学医药信息系长沙4003

图书馆 2016年1期
关键词:数据服务图书馆用户

陈 近 文庭孝(.湖南理工学院图书馆 湖南岳阳 44006;.中南大学医药信息系 长沙 4003)



基于云计算的图书馆大数据服务研究*

陈近1文庭孝2
(1.湖南理工学院图书馆湖南岳阳414006;2.中南大学医药信息系长沙410013)

〔摘要〕图书馆向来是追踪和应用新信息技术较快的领域之一,云计算和大数据的出现为图书馆服务的发展提供了新机遇。文章在阐述云计算和图书馆大数据服务理论的基础上,分析了云计算和大数据融合为图书馆服务带来的机遇,提出了云架构下的图书馆大数据服务系统架构,探讨了图书馆大数据服务模式的创新,并从观念、技术、经济、法律、人才五个方面提出了云架构下图书馆大数据服务的保障机制。

〔关键词〕云计算图书馆大数据大数据服务

〔分类号〕G250.73

〔引用本文格式〕陈近,文庭孝.基于云计算的图书馆大数据服务研究[J].图书馆,2016(1):52

*本文系湖南省社科基金项目“大数据时代的数字资源融合及其服务研究”(项目编号:13YBA347)和湖南省教育厅项目“以培养大学生职业核心能力为导向的高校图书馆实践育人机制研究”(项目编号:15C0641)研究成果。

1 引言

云计算和大数据是近几年业界和学术界关注的热点。在主题为“面向云计算和大数据的创新与合作”的第十二届中国信息港论坛专题峰会上,中国移动苏州研发中心副总经理陈炜认为以大规模计算资源管理和调度能力、海量数据存储能力为核心的云计算技术是实现大数据平台的最佳基础手段,结合大数据分析和挖掘算法,可以将数据转化为知识和智能,并强调大数据的技术发展趋势是基于云计算的大数据[1]。目前已有一些企业将云计算和大数据结合应用,并取得了喜人的成果。有研究者认为,大数据云才刚刚开始,未来五年,大数据将与云计算更加融合[2]。图书馆界向来是追踪和应用新信息技术较快的领域之一,学者们迅速认识到云计算和大数据在图书馆发展中的重要性,纷纷开始探讨云计算和大数据环境影响下的图书馆资源建设和服务创新,但目前还没有出现将云计算和大数据融合并应用于图书馆服务的文献,本文借此对基于云计算的图书馆大数据服务进行研究,以期为图书馆的大数据服务实践和研究提供参考。

2 图书馆大数据服务概述

2.1图书馆界大数据服务研究现状

“大数据”自2008年提出以来,受到了业界和学术界的广泛关注,数据大量化(Volume)、类型多样化(Variety)、处理快速化(Velocity)、应用价值大(Value)、数据获取与发送方式自由灵活(Vender)、准确性(Veracity)和处理分析难度大(Complexity)是对大数据特征最全面的描述。随着大数据时代的到来,大数据应用从IT领域、商业领域、公共领域拓展到各行各业,图书馆界也不例外,受到了大数据的巨大影响和冲击,学者们迅速掀起大数据研究热潮。图书馆界对大数据给予了高度关注,研究内容热点主要集中于大数据的内涵与特征、大数据对图书馆资源建设的影响、大数据环境下图书馆服务方式的变革和图书馆积极应用大数据策略等方面[3]。众多学者认为图书馆已具备大数据特征,馆藏书目数据、数字资源数据、业务数据、用户数据等构成图书馆大数据主要来源,通过对这些数据进行科学管理和挖掘分析,能发现其中潜藏的价值,可以为图书馆的资源建设、业务流程改造和服务创新提供支持。

2.2图书馆大数据服务实践进展

大数据趋势下,所有都成乙方,数据成唯一甲方,以数据价值为核心,集意识、技术、产品、服务和应用于一体的大服务时代来临,开展大数据服务是图书馆顺应时代发展的结果。国外最早将大数据服务引入图书馆并付诸实践的是哈佛大学图书馆[4],2012年哈佛大学图书馆将其73所分馆的书目数据、音频、视频等资料对外开放,公众可在美国数字公共图书馆免费下载,这一举措有助于促进全球书目数据的开放与关联,并在开发利用书目大数据的基础上研发新型应用性产品。美国国会图书馆2000年开始归档整理政府网站数据[4],并积极开展大数据处理工作。我国图书馆大数据服务实践还处于起步阶段,2013年清华大学图书馆从数据集成和挖掘数据价值两方面进行了尝试,在检索平台“水木搜索”上综合运用多来源数据,已成功甄选出清华大学50位专家学者,并建立了以他们为中心的知识关联网络[5]。“数字化图书”的先行者贵阳市图书馆也走在了前列,技术人员已经通过后台分析得出贵阳读者的年龄、学历、爱好书籍种类、文献等相关内容,馆长郭春表示“大数据应用肯定不止读者分析这一小块,图书馆的大数据服务应该做到公共文化服务,实现资源共享”[6]。

2.3云计算与大数据的关系辨析

云计算和大数据是两个不同的概念,但又紧密地联系在一起,两者既有区别,又有联系。形象地来说,云计算相当于计算机和操作系统,将大量的硬件资源虚拟化之后再进行分配使用,而大数据相当于海量数据的“数据库”。云计算侧重于计算能力,关注IT架构和解决方案,节省IT部署成本,而大数据侧重于数据的价值,关注实际业务,通过数据管理和分析挖掘数据潜藏的价值。但二者又具有相辅相成、密不可分的关系,在大数据过滤阶段,云计算可以提供按需扩展的计算和存储资源,在大数据分析阶段,云计算可保证数据处理的速度和价值信息的安全,云计算助大数据转化价值,大数据驱动云计算变革。云计算和大数据已有机融合在一起,成为大数据服务的基础设施。

3 云计算和大数据融合为图书馆服务带来机遇

云计算和大数据的有机融合,为图书馆服务带来了巨大的发展机遇。

3.1有利于图书馆整合最丰富的数据资源提供服务

大数据环境下,图书馆除图书、期刊、报纸、全文数据库、媒体数据库和自建数据库等资源大数据及采访、编目、借阅、文献传递、参考咨询等业务大数据和用户大数据外,还包括行业数据、相关Web站点数据、社交网络数据及其他外部数据来源,这些数据每天都在呈爆炸式增长,总量大,类型复杂多样,以半结构化数据和非结构化异构数据为主。如何收集有价值的数据成为一大难题,云计算为这些数据的有效整合提供了基础和便利。图书馆可将数据资源存储到云服务器上,形成多个地区多个类型图书馆资源的聚合中心,图书馆员只需通过网络获取和管理云中资源,在使用过程中不断丰富和完善,解决图书馆大数据带来的数据杂、垃圾数据多、资源分散分布及存储成本高等问题。

3.2有利于图书馆更加精准地把握用户需求开展服务

不同用户的信息行为在时间上和空间上都具有差异,图书馆要真正实现“以用户为中心,提供按需服务”面临着巨大挑战。但在大数据环境下,用户的信息行为会在信息系统或社交网络上会留下痕迹,图书馆可以通过对用户行为大数据进行整合和分析,从多个角度了解用户群体,精准把握用户需求,使不同用户的信息行为可以预测,从而提供具有针对性和鲜明性的个性化服务。图书馆用户行为数据主要包括用户需求调研数据、用户反馈信息数据、用户检索历史记录数据、用户对服务内容的选择与删除数据等[7]。云计算具有极高的运算能力,能实现图书馆大数据的高效流通和实时分析,在数据分析完成后,可以使用私有云技术将分析结果导入图书馆内部,而不必保留用来分析的原始数据。

3.3有利于图书馆扩展服务功能、提高服务质量

图书馆服务直接关系着图书馆的生存和发展,是图书馆的重要价值所在。在网络环境和知识经济的影响下,图书馆服务经历了从文献服务、信息服务到知识服务的转变,新技术和新环境持续推动着图书馆服务的变革。随着大数据时代的到来,图书馆的资源更加丰富,用户的需求也更加复杂和多样化,图书馆服务内容正在从借阅服务、科技查新、定题服务、参考咨询等传统服务向大数据开放、大数据使用、大数据挖掘、大数据分析、大数据可视化呈现等方面拓展,云计算和大数据的有机融合能为图书馆服务的虚拟化、个性化、深层次化和智能化提供技术支撑。馆藏大数据、用户大数据、业务大数据和外部资源大数据是图书馆大数据服务的重要组成部分,在深入分析这些大数据的基础上,可预测图书馆的用户需求和业务趋势,从而提高图书馆服务质量,改善用户体验。

4 基于云计算的图书馆大数据服务系统架构

大数据的处理方法很多,但目前得到认同的处理流程是:大数据采集-大数据导入和预处理-大数据存储-大数据挖掘与分析-分析结果可视化呈现。结合云计算的优势,以及最大限度地发挥云计算的效能,笔者将云计算环境下图书馆的大数据服务系统架构分为大数据存储、大数据处理和大数据分析三个层次,如图1所示。数据存储层解决大数据的海量和异质异构问题,数据处理层满足大数据的快速和时效性要求,数据分析层着重于对数据的挖掘和分析,三个层次相互配合,让图书馆大数据分析和服务最终产生价值。

图1 云计算环境下图书馆大数据服务系统架构

4.1图书馆大数据存储

在云计算和大数据环境下,图书馆的数据资源来源广、总量多、类型复杂多样,传统的图书馆存储设备和技术已不能满足数据增长和数据应用的需求,具有可靠安全、成本低、易于扩展、资源可控等优势的云存储,成为图书馆大数据分布式存储的理想选择。云存储包括私有云和公有云两种部署,公有云部署具备较好的灵活性和可扩展性,私有云部署更加安全和便于控制。图书馆的大数据可分为图书馆内部保密数据和可共享的数据,选择混合式云存储部署模式将更能与现有的基础设施相结合,提高图书馆大数据的存储效率。即在图书馆大数据的存储过程中,对图书馆内部的保密数据选择私有云存储,部署在图书馆防火墙内,构建一个图书馆数据中心内的专用云,依托高速局域网大大提高数据访问、上传和下载的速度;而对图书馆可共享的数据选择公有云存储,将共享数据存储在公有云服务器上,供用户和使用者通过网络访问,不同图书馆的数据中心和公有云存储服务器相连,如图2所示。具体到图书馆的大数据来源,图书馆书目数据、免费开放获取资源、备份数据、分布式访问数据适合公有云部署,而业务数据、用户数据、购买数据库和自建数据库资源适合私有云构建。

4.2图书馆大数据处理

图书馆大数据的分布式存储带来了数据处理上的复杂度,而海量存储带来了数据处理上的时效要求,这是图书馆大数据处理层需要解决的重要问题。传统的图书馆自动化系统已无法满足大数据处理的要求,云计算技术成为大数据处理的最佳选择。如MapReduce将传统的查询、分解及数据分析进行分布式处理,把处理任务分配到不同的处理节点,具有很强的并行处理能力,并能够在多个处理节点之间灵活地调度处理任务以及参与处理的数据,实现计算资源和存储资源配置的全局最优化,能极大提高数据处理速度。其工作原理是先分后合的数据处理方式,Map即“分解”,把海量数据分成若干部分,分配给多台处理器并行处理,Reduce即“合并”,把各台处理器处理后的结果进行汇总操作以得到最终结果[8],图3展示了MapReduce的数据处理流程。图书馆大数据处理中的许多问题都可以通过MapReduce并行计算来解决,如资源使用分析、用户日志分析、用户行为数据分析和大规模索引分析等。对于选用商业云的图书馆而言,只需对虚拟机和运行的任务付费,不必考虑图书馆的硬件配置。

图3 MapReduce的数据处理流程

4.3图书馆大数据分析

大数据环境下,数据成为重要资产,发现海量数据中潜藏的价值是大数据处理、分析和服务的最终目标。一切大数据处理工作都是为价值目标服务,在有效解决图书馆大数据存储和处理问题之后,只有通过大数据分析才能获取有价值的、深入的、智能的信息和知识。在小数据时代,调查统计、样本分析、文献计量、链接分析、引文分析、共现分析等是图书馆领域的主要分析方法,这些方法主要针对样本数据和结构化数据。而在大数据时代,面对大规模的实时数据、关联数据、动态数据和非结构化数据,关联分析、聚类分析、数据挖掘、语义引擎、预测建模、情感分析、可视化分析等方法为图书馆大数据分析提供了发展空间。数据分析离不开技术支持,云计算的弹性扩展能力使它成为大数据分析的理想选择。混合云技术可在大数据分析阶段提供帮助,原始分析阶段可在公有云基础设施上执行,然后使用私有云组件把处理过的、可用的数据和信息保存到图书馆内部,这样既保证了速度,也保证了数据安全。Hadoop是目前最流行的大数据处理分析平台,主要用于分析Web浏览日志、IT系统日志等半结构化数据以及社交网络、图像、音频文件等非结构化数据,借助Hadoop平台可实现图书馆大规模的和非结构化的数据分析。

5 云计算环境下图书馆大数据服务模式创新

大数据时代的到来,对图书馆的服务理念、服务方式、服务手段、服务内容和服务重点等都产生了巨大影响,图书馆服务工作开始从数据采集、整合、管理向数据统计、挖掘、分析与展现等方向全方位延伸,云计算技术为图书馆大数据服务实现的时间、空间和方式提供多种可能。

5.1基于数据管理的科学数据服务

图书馆作为信息中心,特别是高校图书馆和科学专业图书馆,科研支持是其重要职责。传统的图书馆科研支持服务重在关注研究者的最终科研产品,处于辅助科研的角色。大数据时代的到来,使产生于社交网络、智能移动终端的半结构化数据和非结构化数据成为科研数据的重要组成部分,科研人员在数据搜集、数据管理、数据保存等方面面临巨大挑战。在此背景和需求下,图书馆理应拓展其科研支持服务范围,从关注最终科研产品向参与整个研究过程转变,在数据管理的基础上为科研人员提供数据开放、数据推广、数据搜集、数据资源导航、数据存储、数据监护、数据分析等科学数据服务,为研究人员提供全程支持。目前已有一些图书馆开展了科学数据服务实践项目,如哥伦比亚大学图书馆、康奈尔大学图书馆、加州大学欧文分校图书馆都取得了较为显著的服务效果[9],而我国还处于起步阶段,可积极借鉴国外经验,拓展图书馆开展科学数据服务的服务能力和服务内容,在科学研究中发挥重要作用。

5.2基于知识发现的学科服务

学科服务是图书馆面向不同专业、院系、读者开展的一种多层次、全方位的服务,重在满足学科发展过程中的资源需求[10],在我国已有十多年的历史。知识发现是指从大量数据中获得有效的、新颖的、有潜在应用价值的和最终可理解的模式的高级处理过程,涉及的主要技术包括信息抽取、信息过滤、数据与文本挖掘、分类发现和聚类技术等[10]。大数据环境下,学科前沿数据增长迅速,用户可以方便地通过搜索引擎获取,但会存在数据不准确、不全面、深层次挖掘等问题。图书馆作为知识服务平台,可以利用知识发现的技术和方法,从学科大数据中挖掘出有价值的信息和知识,为不同专业的用户所用。如通过分析不同学科用户的检索记录和下载记录,归纳用户感兴趣的学科主题;通过聚类分析、社会网络分析、相关性分析、数据挖掘等预测学科前沿和研究热点;通过学科数据的引用分析、关联分析、共现分析,发现学科领域的核心机构、核心作者、核心期刊及合作网络分布情况。

5.3基于用户研究的个性化定制服务

个性化定制服务已在数字图书馆领域取得一定研究成果,切实以用户为中心的服务模式,大数据时代的到来,为个性化定制服务的发展提供新的契机。新环境下,图书馆拥有大量丰富的用户数据,如用户在注册个人图书馆和移动图书馆时的个人信息数据、用户在浏览图书馆网站或检索下载数字资源时的利用数据、用户进行参考咨询或利用图书馆社交媒体时的网络痕迹数据等,通过对这些数据进行挖掘和分析,能掌握用户的年龄、性别、学历分布情况及阅读习惯、资源需求、信息行为等特征,进而能根据用户需求提供具有针对性的、个性化的信息服务,并预测用户需求的发展趋势。在服务角色上,除被动的“用户需要什么服务,就提供什么服务”模式外,图书馆更应积极主动地为用户推荐服务,获取反馈信息,以提高个性化服务和定制服务的匹配度、可靠度和准确度。

5.4基于数据应用的可视化服务

大数据环境下,面对大量的数据分析应用,用户更倾向于用可视化的方法展示数据分析结果,以便于理解和接收。一方面,图书馆可利用可视化工具和软件展示科研领域的研究成果,如与信息计量相结合,生成作者共现共引、机构共现共引、关键词共现共引、引文共现等知识图谱,使一个领域的发展现状和知识结构以可视化的方式呈现出来,目前比较成熟的文献可视化软件有Citespace、Ucinet、Pajek、VOSviewer等。另一方面,图书馆可为用户提供可视化方案咨询和针对特定需求的可视化服务,如为企业提供专利地图和专利信息可视化服务、为科研人员申请项目前的研究综述提供可视化服务等。在人员、资金足够的情况下,图书馆还可尝试着开发可视化软件,以满足用户的多方面需求。

6 基于云计算的图书馆大数据服务保障机制

图书馆基于云计算技术提供大数据服务不是一朝一夕的事情,需要长期的积累过程和求变的创新精神,同时还需要解决观念、技术、经费、人才和法律等方面的诸多问题,创建大数据服务支撑条件,建立大数据服务保障机制。

6.1观念方面

云架构下的图书馆大数据服务涉及两方面的观念问题:一是对用户而言,数据开放与共享是大数据时代的主流,用户数据也是图书馆大数据的重要组成部分,而用户数据的泄露和滥用是用户担忧的问题,面对数据开放与数据安全的矛盾,图书馆应在用户许可的情况下合理使用用户数据,并加强对用户的教育培训,提高用户的保护意识,鼓励用户开放共享各种数据资源,使用户不仅仅是数据资源的利用者和接收者,也是数据资源的发布者和贡献者。二是对图书馆馆员而言,应努力培养大数据思维,在坚持以用户为中心的服务理念基础上,积极主动向用户提供推荐式服务,拓展数据的使用范围和服务的提供范围,注重用户参与,培养用户的数据采集、数据分析和利用数据的能力。

6.2技术方面

云架构下的图书馆大数据服务涉及的技术问题主要包括协议和接口问题、数据标准问题、数据安全和保护问题等。图书馆服务器的配置和操作系统千差万别,要较好地与云计算技术融合,就应该选择适合本馆的接口软件和云服务提供商,或通过合作,开发接口插件。数据的规范化和标准化是图书馆开展大数据服务的基础工作,图书馆应制定统一的数据标准,推进异地异构异质资源的整合和共享。根据Gartner机构《云计算安全风险评估》报告[11],云计算技术存在数据位置、数据隔离、数据恢复等七个方面的风险,可通过控制数据访问权限、优化数据加密技术和备份技术等保证数据安全。

6.3经济方面

图书馆开展大数据服务是顺应时代发展的结果,能更好地分析用户偏好,发现用户需求,开展有针对性的个性化服务,提高图书馆的服务水平和服务效率,充分发挥图书馆在大数据时代的价值和社会地位。但构建图书馆大数据服务平台是一项耗资巨大的工程,需要强大的软硬件作为支撑,给图书馆经费造成巨大压力,图书馆可在数据采集、处理、整合人力、物力、设备等多个方面进行成本控制,并积极争取财政支持。

6.4 法律方面

法律制度是云架构下的图书馆大数据服务顺利开展的重要保证,目前与云计算、大数据相关的合同条款大多是服务提供商提出的,往往是站在服务提供商的立场,保护提供商的利益,而用户对相关法规制度和政策并不了解。云架构下的图书馆大数据服务主要涉及个人隐私、知识产权、数据安全、各方的权利与义务等法律问题,需要从政府层面上制定相关法规法律,出台具体措施,为图书馆开展大数据服务提供制度保障。

6.5人才方面

大数据环境下,大数据技术和大数据服务对服务人员提出更高的专业要求,图书馆可通过馆员培训,鼓励馆员深造,多学习其他领域的知识,改善自身的知识结构,或通过引进大数据和云计算领域的专业人才,培养一支具有大数据思维、掌握大数据技术、擅长大数据分析的专业人才队伍,在图书馆大数据服务中发挥重要价值。

(来稿时间:2015年7月)

参考文献:

1.网易新闻.“面向云计算和大数据的创新与合作”专题峰会[EB/OL]. [2015-04-16]. http://news.163.com/15/0416/09/ ANAIS 11C000 14AED.html

2.CIO时代网. 未来五年,大数据将与云计算更加融合[EB/OL]. [2015-04-20]. http://www.ciotimes.com/bi/sjwj/99134. html

3.陆静.我国图书馆界大数据研究述评与展望[J].图书馆杂志,2014(1):20-25

4.曾建勋,魏来.大数据时代的情报学变革[J].情报学报,2015, 34(1):37-44

5.中国新闻出版网.大数据环境下清华大学图书馆的实践 [EB/OL]. [ 2013-08-29]. http://www.chinaxwcb.com/2013-08/ 29/content_ 276028.htm

6.贵阳网.(大数据·数博会)贵阳新时尚,逛大数据图书馆[EB/OL]. [2015-04-21]. http://www.gywb.cn/content/2015-04/ 21/content_ 2906237.htm

7.陈臣.基于大数据的图书馆个性化服务用户行为分析研究[J].图书馆工作与研究, 2015(2):28-31

8.百度百科.MapReduce[EB/OL]. http://baike.baidu.com/view/ 2902.htm.

9.张春红,廖三三,巩梅.变革与走向:共同探索图书馆的未来[J].大学图书馆学报,2013(1):5-13

10.于春丽.学科服务中的知识发现策略[J].图书馆学研究,2010(7):92-94

11.宋戈,魏志鹏.基于云计算的图书馆建设与服务发展[J]. 图书与情报, 2011(1):79-81

A Study on Library Big Data Based on Cloud Computing

Chen Jin1Wen Tingxiao2
( 1.Library of Hunan University of Science and Technology; 2. Department of Medical Information of Central South University )

〔Abstract〕Library is one of the track and application of new technologies quickly.The emergence of cloud computing and big data provides new opportunities for library service development. This paper expounds the theory of cloud computing and big data services of library that bring opportunities for library services, puts forward the system architecture of library big data service under cloud architecture and discusses the innovation of service model of library big data and puts forward the guarantee mechanism of library big data services under cloud architecture from five aspects of the concept, technology, economy,law and talent.

〔Keywords〕Cloud computingLibraryBig dataBig data service

〔作者简介〕陈近(1976-),女,硕士,湖南理工学院图书馆馆员、副馆长;文庭孝(1975-),男,博士,中南大学医药信息系教授,研究方向:知识管理与科学评价。

猜你喜欢

数据服务图书馆用户
大数据时代高校图书馆数据服务的困境及优化路径
地理空间大数据服务自然资源调查监测的方向分析
基于数据中台的数据服务建设规范研究
图书馆
数据服务依赖图模型及自动组合方法研究
关注用户
关注用户
关注用户
如何获取一亿海外用户
去图书馆