基于Hadoop的数字资源存储与共享的研究

2020-02-03刘文钊郭家康

电子技术与软件工程 2020年14期

刘文钊郭家康

（中国气象局气象干部培训学院北京市 100081）

1 前言

随着大数据时代的到来，图书馆数字资源的存储量呈现出几何级数的快速增长，背后的大量信息资源给图书馆的发展带来了巨大挑战。与此同时，读者日益不同的需求又更加凸显了其资源的不足[1]。所以，尽快实现资源共享策略，从原先缺乏系统性、开放性和互联性的系统模式转变为一站式的集成分布数据通用贡献平台，更加高效地帮助读者实现信息资源服务[2]。

在大数据迅猛发展的时代，图书馆数字资源建设显得格外重要，这就使得图书馆信息化建设特别是数字资源建设更应顺应时代的发展。大数据技术的出现起到了极大地推动作用，其中Hadoop 技术作为大数据的核心扮演了至关重要的角色[3]。当前，许多学者都视Hadoop 技术作为解决问题的关键核心，将此技术应用到图书馆的数字化建设，能够为读者和管理人员带来更多方便。基于Hadoop的图书馆数字资源共享模式能够给读者带来多样式的服务，解决了资源共享度不高、利用率偏低、缺乏系统性管理等问题，进一步保障了资源对存储环境的要求，提高了读者访问效率[4]。

2 Hadoop信息资源共享系统

2.1 资源服务Hadoop体系

通过Hadoop 分布式系统搭建的开发平台，能够解决并行计算、数据存储和系统管理等问题，其简单的操作方式使得用户无需了解过多的技术细节就可以上手使用程序，但前提是开发者需要实现Map 和Reduce 接口。Hadoop 的系统架构示意图，如图1 所示。

凭借Hadoop 架构的特点，可以实现具有高扩展性，高效率和高容错性的数字资源共享系统。HDFS（Hadoop 分布式文件系统）是Hadoop 体系的基础核心。HDFS 主要用来进行数据存储，它可在较低成本的设备上运行具有一定的容错性，一般情况下可以采用HDFS 模式存储数字资源，同时还可以降低成本。同时，由于MapReduce 是根据计算模型进行系统划分，也就更适合进行海量数据处理，还可以达到降低成本的作用。此外，Hadoop 架构还集成了Hive 离线分析方法和HBASE 动态数据库功能。

2.2 MapReduce分布式数据处理计算架构

当遇到海量数据资源需要处理时，计算机需要在存储区域快速查找相应的数字资源，但是因属性不同、类别不同等的关联性搜索是解决信息服务的基础任务。本文采用MapReduce分布式计算架构，利用资源管理系统并行处理海量数据，提高数据检索速度和成功率。在实际处理过程中，资源和资源之间的关联关系是通过笛卡尔乘积映射的。在系统执行过程中映射关联会消耗较多的时间，而采用MapReduce 可以解决此类问题，能够有效减少执行过程中时间消耗问题。此外，MapReduce能够并行处理多个任务，将复杂问题简单化，经过Reduce 对多个Map 阶段进行总结。MapReduce 模型使得分布式操作过程的步骤进一步简化，极大地提高了海量数据处理能力，实现了快速查找关联数据资源。MapReduce 工作机制如图2 所示。

如图2 所示，Map 和Reduce 分别是技术功能中的核心功能。在Map 阶段，数据经过一对一的映射通过中间模型，模型中具体函数负责相应的运算。Reduce 阶段主要是负责数据的规范。从图中可以看出，两个阶段都是相对独立操作的。正是因为这一特殊性质，便可以利用Map 阶段作为海量数据的处理，从中提取出重要值，再通过中间阶段进行运算处理，在Reduce 阶段得到已经处理好的结果。完成上述基础功能后便可以为读者提供信息服务。

2.3 HDFS分布式文件系统

HDFS 作为和MapReduce 同为重要的核心功能，具有效率高，可扩展性强等特点。基于HDFS 技术，能够有效保障图书馆数字资源贡献的储存需求，提高对读者服务的响应速度，同时还解决了因传统技术导致的扩展性不足等问题。通过向各集群节点派加节点，HDFS 能够在同一时间段内访问大量数据节点，其结构如图3 所示。

如图3 所示，命名节点和数据节点是HDFS 系统的重要组成部分。作为服务器集群的重要节点，数据文件被命名节点分割为多个数据单元。然后系统将数据存储到对应的数据节点中，再将节点进行相关设置和操作，以此作为保证数据的安全前提。文件系统中数据节点作为从属节点来执行特定的任务。此外，还可以通过心跳反馈机制将信息返回到对应的节点当中，然后再根据读者的操作执行后续的任务。

HDFS 分布式文件系统是由命名节点和数据节点构成。命名节点需要将数据文件在物理层面上分为多个数据单元，因此在功能上它是服务器中的重要节点。然后将数据储存到相应的数据单元中，至此各节点再进行相应操作，以此保证数据的安全。数据节点作为文件系统的从属节点主要用来执行特定的操作。另外，数据节点还能通过心跳反馈机制把存储的信息返回到先前对应的节点上，随后再依据读者的指令请求完成相应操作。

2.4 基于Hadoop的数字资源共享系统总体架构

通过Hadoop 系统平台和MapReduce 共同搭建图书馆数字资源共享平台和数据处理流程。在HDFS 分布式存储技术的支持下有效地解决了之前资源查询速度缓慢的使用现象。基于Hadoop 搭建的数字资源共享服务平台给用户带来了更加完备的、多维的数据信息服务，同时还兼有可扩展性和高吞吐性等优点。如图4 所示，系统主要包括业务层、接口层和资源层。

图1：Hadoop 基础架构示意图

图2：MapReduce 工作机制模型图

图3：HDFS 架构示意图

系统中的各自体系发挥着不同作用，且相互作用。

（1）业务层：实现平台的资源共享。

（2）接口层：提供统一的调度，为上一层打下基础。

（3）资源层：实现资源的读、写、存储和调度。

在3 层体系架中还涵盖了5 个重要的功能模块，分别是资源查询模块、资源平台模块、综合分析模块、数据集成模块和系统管理模块。

（1）资源查询模块：主要功能是为读者提供服务，包括了对系统的查询、下载统计分析和检索等基础功能。

图4：基于Hadoop 的数字资源共享系统总体架构

（2）资源平台模块：主要功能为文件资源的操作。文件资源包括了申请、获取和上传等。它可以解决资源不能及时更新的问题。

（3）综合分析模块：可以进行资源的推送和各种资源的参考。与此同时，还能够进行使用分析、属性分析、学科分析等主要内容的分析服务。

（4）数据集成模块：数据集成模块功能较为复杂，主要包括了数据的采集、清洗、转换、加载和调度等。经过一系列的功能后便完成了纠错和去除冗余等目的，同时也优化了数据检索时间。

（5）系统管理模块：系统管理模块主要是为系统提供安全性和可靠性。同时系统平台还包含了众多管理内容，主要有用户管理、安全管理、服务管理、事务管理和日志管理。

（6）接口层：接口层是为业务层传达任务并集成了资源层的功能。

Hadoop 主要根据任务执行并发任务和读者的请求，同时实现了基于HDFS 的相关功能。凭借HDFS 的分布式存储技术，达到储存资源和用户数据等任务，再将这些文件反馈给Hadoop。

目前，基于Hadoop 技术能够解决图书馆数字资源共享度不高与系统管理不足等问题，同时利用关联性检索也能够极大地提高读者的访问效率，同时完成数量庞大的并发操作，而且可以兼顾到吞吐量和系统的兼容性。为了保障共享平台的存储需求，通过分布式的存储方法保证了系统的可扩展性和适应性，解决了传统技术面临的可扩展性困扰。Hadoop 模型中资源层为业务成提供了更为高效的技术服务，并且使得接口更加规范和统一。业务层还可以实现功能的扩展，以达到为读者提供更多服务的目标[5]。

3 结语

当前，数字资源共享技术尚处于摸索阶段，但是随着大数据和高性能计算技术等的飞速发展，数据共享技术仍然有巨大潜力。但是由于不同网络性能和各种资源的不同属性，使得现在的共享技术还处于初级阶段。在今后的资源共享策略构建中，可以考虑将各数据存储于云服务器中，对特定服务开发适当权限，以达到资源的跨平台使用，从而达到用户的需求水平。