APP下载

大数据环境下图书馆服务研究

2015-08-15钟育伙

山东电力高等专科学校学报 2015年1期
关键词:结构化数据挖掘图书馆

钟育伙

1.福州大学数学与计算机科学学院 福建 福州 350116

2.福州海峡职业技术学院图书馆 福建 福州 350014

以信息、知识资源为支撑的信息服务和知识服务为环境的数字图书馆,承担着为用户提供信息服务的重要责任,在大数据时代下不可避免地受到大数据所带来的转变和创新知识服务的意识。作为图书馆工作人员应正确认识大数据时代的到来及其对图书馆信息服务带来的机遇和挑战,利用大数据实现图书馆服务能力的提升,推动图书馆事业的发展。

1 大数据概述

早在2011年IT的行业研究报告中大数据(Big Data)的概念就出现,但至今业界仍没有统一的定义,较为一致的认识是大数据是一种数据量巨大、数据形式多样的非结构化数据,超出了典型数据库软件工具收集、存储、管理和分析能力的数据集。大数据是近几年最热门IT概念之一,进入2012年以来,这个领域的风潮逐渐从专业IT人士和数据分析师,扩散到所有关注科技、互联网以及营销等服务领域的人群中,甚至还包括政界人士。

大数据指的是所涉及的资料量规模巨大且数据具有时空动态性、不确定性、不均匀性等特点而导致无法用现有的软件工具提取、存储、搜索、共享、分析和处理的海量的、复杂的数据集合。我们可以用4个V来概括大数据特征[1]。

一是数据体量巨大(Volume),从TB级别跃升至PB级别,甚至EB或ZB;全球数据量在高速增长,大约每两年就会翻一倍。大数据不仅体量巨大,而且增长迅速。

二是数据类型多样(Variety),数据可能具备结构化、半结构化、多结构化和非结构化等属性,甚至出现随时间演变、不一致的和冲突的数据格式;

三是价值密度低(Value),单条数据并无太多价值,但海量数据中蕴含着巨大财富,从而引发了对数据处理、分析的需求;

四是处理速度快(Velocity),数据实时生成,同时要求按需提供交互式的、实时或准实时的数据分析,而数据分析的新趋势,则是超越常规数据分析模型的深度分析需求的增长。

大数据需要计算处理与通信存储,复旦大学计算机研究所所长施伯乐说:“大数据将是下一个社会发展阶段的‘石油’和‘金矿’。无论是个人、企业还是国家,谁能更好地抓住数据、理解数据、分析数据,谁就能在下一波的社会竞争中脱颖而出。关于数据的知识,将成为个人知识结构中的必备要素和基础。 ”[2]

2 图书馆的大数据特征

教育领域图书馆历来是信息应用的重地,已经开始应用各种信息技术来改进自己的硬件与软件方面的条件,馆藏资源数字化、音频、视频、网络资源、数据库等数据总量庞大且正以极快的速度增长,数据种类日益增多且复杂,图书馆已具有了一定的大数据特征。这些数据可分为结构化数据与非结构化数据,其中结构化数据有:纸质纯印本、光盘资源、网络资源及数据库资源等,而非结构化数据有:平日里读者借阅信息与查询服务信息等。图书馆用户在使用服务时随时随地产生数据信息,随着图书馆积累的信息数据越来越多,虽说每一馆的资源总量未达PB级,但我们知道自从云计算时代的到来,使用云端存储数据已是趋势那么全国的总的数字资源总量那就是个庞大的数据集。而这些信息中隐藏了很多值得图书馆服务工作者对其进行更高层次的分析,以便更好地利用这些数据,利用数据挖掘的结果为读者提供更好的服务。现在的读者对文献资料的类型需求也越来越宽,而图书馆各种文献信息资源越来越多,那么如何从图书馆图书资源中准确地筛选出读者所需求的以及感兴趣的图书信息,提高图书馆的资源利用率是近阶段摆在我们图书馆员面前的一个大问题。

3 大数据时代图书馆面临的挑战

大数据时代,读者用户对文献资料需求不断发生着变化,同时图书馆各种文献信息资源数据不断增加且日益复杂,如何从这众多资源里准确、快速高效地筛选出读者所需求的以及感兴趣的图书信息,这对我们馆员素质提出了更高的要求。如何转变图书馆的服务方式以便满足用户的个性化服务需求,是图书馆在大数据时代所面临的一大挑战。图书馆如何更好的存储和处理分析复杂的海量数据,从而对用户的信息需求进行分析、处理和预测,是大数据对图书馆提出的又一挑战。同时对图书馆是否具有能够熟练处理大量数据和非结构化数据信息的数据馆员,也是图书馆应对大数据所要面对的挑战。

4 大数据时代图书馆发展需要解决的问题

第一,硬件成本。图书馆要在大数据时代掌握读者用户、馆员等服务的相关信息,需要大量的存储信息行为、搜索方式、行为痕迹等多结构、半结构化、非结构化数据,这些对我们的硬件设备提出了更高的要求。目前图书馆经费普遍紧张,能否有效解决数据存储、分析运算、管理服务所需的成本问题,是首先要考虑清楚的问题。

第二,读者隐私。大数据分析需要图书馆收集读者信息,人们的行为轨迹、检索阅读等等都可能被捕捉到,如何应对数据安全?在大数据源的众多敏感特性中,隐私一直是一个焦点。一旦数据放在那里在,总有些不诚实的人会在未得到授权的情况下,试图以未经你批准的方式使用它们。这就需要图书馆员具备更高层次的职业道德和专业素养。

第三,人才培养。人才缺乏这一直以来都是图书馆的一大问题。大数据时代对人才提出了更高的要求。我们需要的是数据挖掘、数据分析与数据管理等知识能力的人才。目前大部分图书馆工作人员紧缺且多为职工家属安置岗,很少具备图书馆学、计算机技术、网络技术等基础理论与专业知识,基本上只能起到日常的借阅等作用。工作人员的素质普遍不高,又不稳定,以致有的馆连基础的业务工作都难以开展,更不可能进行更深层次的服务。所以我们应加强人才引进与人才培养,建立强有力的图书馆员队伍。

5 大数据环境下图书馆的服务

大数据环境下图书馆应具备从动态递增的各种类型的数据中,快速获得有价值信息并加以利用的能力。在数字图书馆时代,我们的图书馆主要以文献资源数字化、网络化等服务为主,实现读者的最大程度、最便捷的利用;而到了大数据时代我们的服务方式、模式、途径等等都将发生变化,我们的服务应更加具有针对性、鲜明性。对整个图书馆行业动态监测,掌握最新学科发展前沿、学科热点;对趋势分析,进行学科评价、竞争分析;发展预测,学科规划发展、进行预测和决策。

重视大量读者用户数据与信用,分析读者行为数据,揣测读者心理,预测读者需求,检索出有用资源,提供问题解决方案和策略。转变传统服务观念,由被动变主动,增强个性化推送服务意识,增加交流渠道,搭建交互式共享平台。进行科研数据的知识整合,知识整合目的在于从这些个体知识的互补性组合中获益 利用数据挖掘等技术对个体或组织其原有的知识进行重构,形成新的知识的过程。建立新型知识服务引擎,资源及学术搜索引擎、资源及服务推荐引擎、行为智能分析引擎、用户知识需求预测引擎及多维度信息处理引擎等

基于数据挖掘的图书采购。改变原有的新书采访模式,由仅依据专业设置、图书借阅流通次数、最新书籍等方式进行馆藏书籍的增加,增至为依据对大量读者借阅历史、检索查询等数据分析预测的结果来进行更加有效、更加满意的图书采购。

基于数据分析的学科馆员服务。大数据环境下,对于读者的各类行为进行预测,分层次进行准确地推送服务。挖掘借阅数据、检索查询痕迹等,为读者提供个性化服务、开展跟踪服务、精准服务与知识关联服务等,同时也为我们的分布馆藏提供依据[3]。电子资源利用的挖掘分析有助于资源建设的科学配比。对馆员业务行为数据进行分析,将对图书馆内部管理提供有效支持,也给考核评优、竞岗选拔提供了事实数据。

[1]朱静薇,李红艳.大数据时代下图书馆的挑战及其应对策略[J].现代情报,2013,(5):9-13.

[2]韩际平.“大数据”浪潮来袭[J].数据,2012,(12):1-1.

[3]李静.数据挖掘技术在高校图书馆个性化服务中的应用研究[D].天津:天津大学,2012.

猜你喜欢

结构化数据挖掘图书馆
促进知识结构化的主题式复习初探
探讨人工智能与数据挖掘发展趋势
结构化面试方法在研究生复试中的应用
左顾右盼 瞻前顾后 融会贯通——基于数学结构化的深度学习
图书馆
基于并行计算的大数据挖掘在电网中的应用
一种基于Hadoop的大数据挖掘云服务及应用
去图书馆
基于软信息的结构化转换
基于GPGPU的离散数据挖掘研究