基于Hadoop 的大学图书馆服务平台设计

2021-08-23张晴峰

科学技术创新 2021年23期

张晴峰

（山东青年政治学院图书馆，山东济南 250103）

当前计算机技术、物联网技术的广泛应用，使得大学图书馆从传统服务模式逐渐转变为信息化服务模式，不仅能够提供有效的图书资源服务，还能够打破传统图书馆运行过程中时间和空间上的限制，为图书馆用户提供24 小时全天候的图书馆资源信息服务[1]。大学图书馆的主要功能是为高校学生和教师科研、学习等多种活动提供信息服务，大学图书馆也是整个高校当中最大的信息服务中心[2]。Hadoop 是一种近几年被广泛应用的分布式基础结构，在各类平台的研发和运行当中被大量应用，将该结构应用于实际不仅具有高可靠性、高效率性，同时能够针对不同平台用户，给予其不同需求的服务，充分满足平台用户的应用需要。但目前，Hadoop 分布式结构在大学图书馆服务平台当中的应用并未涉及[3]。因此，本文基于Hadoop 的应用优势，开展大学图书馆服务平台设计研究。

1 大学图书馆服务平台设计

1.1 基于Hadoop 的平台检索架构设计

为确保本文设计的基于Hadoop 的大学图书馆服务平台能够得到稳定运行，本文结合Hadoop 分布式结构，构建一个大学图书馆服务平台检索架构，将其作为基础，为后续平台运行提供条件。根据大学图书馆平台用户的检索需要，利用开源组织中具有高可靠性和良好延展性的Hadoop，对各类图书馆资源数据进行分布式存储。将平台整体划分为四个不同层次，分别为平台用户访问层、各类图书馆服务应用层、图书馆基础资源数据管理层和图书馆资源数据存储层[4]。图1 为本文大学图书馆服务平台架构示意图。

图1 本文大学图书馆服务平台架构示意图

在该平台的访问层，主要针对平台用户利用公共应用端口完成账号登录，并为后续用户在平台中享受各类图书资源信息服务提供条件。在应用层当中，可通过引入云检索技术的方式，为平台引入组件，为不同用户服务业务提供不同的应用[5]。管理层主要针对平台在运行的整个过程中产生的各类Hadoop 分布式文件进行管理，确保各类文件能够在平台运行时形成协调统一的工作模式，为系统带来更强的资源检索功能。存储层是针对平台在运行阶段产生的各类数据进行统一管理，针对大学图书馆服务中海量数据的存储需要，可通过NAS 存储设备实现。NAS 存储设备由平台进行统一管理，并采用Hadoop 分布式结构实现对存储内容的逻辑虚拟化管理，并为平台在运行时各类设备出现故障问题进行监督，以此确保平台在出现问题前，对其进行维护，保证平台用户信息的安全和平台的稳定。

1.2 大学图书馆资源数据存储及特征量提取

结合Hadoop 分布式平台检索结构，利用非线性序列，对图书馆资源数据模型进行可视化构建，以此为提取所需的图书资源提供环境。为图书资源建立特征提取序列，该模型的表达式如公式（1）所示：

公式（1）中，x'表示为大学图书馆资源频繁项集特征集合；x表示为某一图书馆资源频繁项集时间序列；t 表示为大学图书馆服务平台运行时间；n 表示为时间序列总数；h[z（t+nΔt）]表示为资源数据时间序列的近似特征量；ω 表示为检索过程中区域划分阈值。

按照上述公式（1）计算，得出的数据能够为本文服务平台对图书馆资源信息检索提供数据输入的基础条件，再结合目标函数当中的约束条件，得出最优检索数据，并完成对图书资源频繁项集特征的采集。利用Q×m 表示为本文平台在运行过程中，当Q 数值超过m 数值时，则说明此时关联规则当中具备能够被再次划分的资源数据块；当Q

1.3 图书馆信息资源数据均值聚类及检索输出

为进一步提高本文服务平台的检索效率，还需要结合模糊聚类算法，对上述提取到的图书馆资源数据特征集合进行分类，将获取到的图书馆资源数据聚类特征用如公式（2）表示：

公式（2）中，Y（i+1）表示为图书馆资源数据聚类特征集合；U'表示为图书馆资源数据收敛值；Yi、……、Yip表示为频繁项集特征集合。根据上述公式对上述提取到的图书馆资源数据特征进行分类，并在此基础上根据平台用户不同检索需要，对检索结果进行输出。结合特征分析方法对存储在平台数据库当中的节点进行决策树分析，并通过引入MapReduce 架构，完成全权责任调度。将利用MapReduce 定义的任务节点作为平台在运行过程中执行平台用户指令的执行节点，将任务划分为多个不同的切片，再结合任务节点，实现对平台用户检索需求输入的检索指令映射和规约验证。再利用HDFS 所提供的平台存储功能，对所有数据节点进行共享，为各类服务任务在运行过程中提供所需的资源数据。同时，通过本文引入的Hadoop 结构，利用其中的解析器可以对用户提出的各类检索内容进行分析和查询，并且在不同的查询结构以及查询单位当中找出相对应的语义，并通过平台当中的元数据存储节点，对从查询结构和查询单元中找出的元数据进行执行计划生成。同时，在元数据存储节点上，包含了所有大学图书馆各类分区结构的信息化数据，因此能够实现对HDFS 中各类数据的读写。通过上述聚类实现对图书馆资源数据的分类，并结合Hadoop 对分类结果进行输出，为平台用户提供所需检索资源。

2 对比实验

实验准备：

本文选择将某高校图书馆作为依托，分别将本文提出的基于Hadoop 的大学图书馆服务平台和传统服务平台，同时应用到该图书馆，在确保图书馆能够正常运行的条件下，完成对比实验。两种服务平台的运行环境均采用Windows 2019 R3 Intel 环境，实验过程中，产生的多组数据均为随机生成。为实现对两种不同服务平台的应用性能比较，本文选择将检索效率作为评价指标，将针对不同数量节点的检索时间作为对比实验数据。分别设置100 个、200 个、300 个、400 个和500 个不同节点数量，对两种服务平台在运行过程中的检索时间进行记录。在实验过程中，设置两种服务平台在运行过程中的数据量均为GB 级别，运行时间单位为ms。在两种服务平台均完成相应的服务任务后，将实验结果进行记录，并将两种服务平台在不同节点数量下的检索时间绘制成如表1 所示的实验结果对比表。

表1 两种服务平台实验结果对比表

从表1 中的实验结果得出，在对不同节点数量进行检索时，本文服务平台的检索时间均未超过12 500ms，而传统服务平台检索时间最快仅为55 241 ms。并且，传统服务平台在对不同节点数量信息进行检索时，随着节点数量的增加，检索时间呈现出明显的增涨趋势，说明平台的运行受节点数量的影响十分严重，节点数量增加，会对传统服务平台的运行造成更到的压力，而本文方法通过引入Hadoop 分布式结构，能够有效解决这一问题，使检索时间不会受到节点数量的影响。因此，通过对比实验证明，本文提出的基于Hadoop 的大学图书馆服务平台在实际应用中能够有效提高平台检索效率，并利用Hadoop 降低节点数量激增对平台运行造成的压力，实现大学图书馆服务平台的稳定运行。

3 结论

本文基于大学图书馆用户需要，结合Hadoop 结构，提出一种全新的服务平台，并通过对比实验的方式验证了该方法的实际应用优势。将该平台应用于大学图书馆中能够实现对海量图书馆资源数据的快速检索。在后续的研究中，为了确保该平台的运行稳定，还将引入更加科学的平台测评体系对其进行运行监督，确保平台中用户信息和图书信息的安全存储。