基于Hadoop 分布式文件系统的模型分析

2016-07-23郭强

电脑知识与技术 2016年17期

郭强

摘要：Hadoop 分布式文件系统利用 Google 文件系统的原理开发和设计的，并在相关的一些领域得到了应用，在学界引起了极大的关注。本文将从 Hadoop 分布式文件系统架构的入手，通过对模型各模块进行分析，并将其与传统的分布式文件系统进行比较，总结出 Hadoop 分布式文件系统具有的海量、可靠性高、可扩展性、容错性能好、低成本等面向云计算领域的重要优势。Hadoop能为用户提供一个可以轻松使用的分布式计算平台，使用户可以轻松地在该平台上开发应用程序并能够处理海量数据，本文通过对布式文件系统的模型分析将有助于云计算背景下的分布式文件系统设计与开发。

关键词：基于Hadoop 分布式文件系统；系统模型；云计算

中图分类号：TP311 文献标识码：A 文章编号：1009-3044（2016）17-0229-02

Abstract： Hadoop distributed file system using the principle of Google file system development and design， and related to some areas have been applied， so in the academic community has aroused great concern. In this paper， Hadoop distributed file system architecture from the start， through each module of the model were analyzed and compared with the traditional distributed file system， sums up the Hadoop distributed file system with massive， high reliability and expansion， good fault tolerance performance and low cost for Cloud Computing in the field of important advantages. Hadoop can for the user to provide a can easily use the distributed computing platform， users can easily on the platform application development and be able to handle massive amounts of data. In this paper， the model analysis of distributed file system will be helpful to cloud computing under the background of distributed the system design and development.

Key words： distributed file system based on Hadoop； system model； cloud computing

Hadoop是Apache软件基金会所研发的开放源码并行运算编程工具和分散式档案系统根据Google公司发表的MapReduce和Google档案系统的论文自行而成。Hadoop 主要由HDFS（Hadoop Distributed File System）和MapReduce两部分组成。HDFS在最底部它主要是用来存储Hadoop 集群中存储节点上的文件，为海量的数据提供存储。MapReduce在HDFS 的上一层由概念"Map（映射）"和"Reduce（归约）"组成，主要是用于大规模数据集的并行运算，为海量的数据提供了计算。

Hadoop对数据采取可靠、高效、可伸缩的分布式方式进行并行处理，使开发软件平台和运行海量数据变得更加容易。Hadoop是一个分布式计算框架并且由 Apache 开源组织的，能使一些低成本的硬件设备得到充分利用并且在它们组成的集群上运行应用程序，为应用程序提供了一组稳定可靠的接口，目的在于构建可靠性高和扩展性比较好的并行分布式系统。Hadoop 有以下优点：扩展性好、成本廉价、效率较高、可靠性有保障、免费开源并且有良好的可移植性。

1 分布式文件系统模型

分布式文件系统作为分布式系统中的关键技术，它最大的作用就是使信息资源共享，它采取以文件的方式把文件集中在一起管理，使文件资源达到共享的目的。在云计算环境中，分布式文件系统和本地磁盘提供的服务相比，它能使用户在查看、保存在云中的文件时能够获得更高的服务质量，使系统性更加可靠从而为用户带来良好的文件服务。

用户对远程文件的访问的服务质量能否满足是分布式文件系统的透明性需求的要求。可靠性高、良好的可用性，能够并发快速的访问文件等一些其他的设计要求也要满足，并且使文件得数据具有一致性和容错性等。针对以上的设计要求，设计出由扁平文件服务、目录服务和用户端模块 3部分为主要组成的分布式文件系统服务模型。对服务器磁盘上曾经保存的文件的操作是由扁平文件服务负责，比如查看文件的属性和内容还可以创建新文件删除不用的文件，为每一个创建的新文件创建一个唯一的标示符能保证以后操作时能够引用；文件的名字和与其对应标识符之间的映射关系主要是由目录服务负责，包括创建、查找和删除目录，然后对新生成的目录由扁平文件服务管理，把它也是以文件方式保存在服务器磁盘上；扁平文件服务的封装以及目录服务的访问都需要在客户端上运行的用户模块负责，同时用户模块提供一种调用有关功能的映射：是从用户端本地文件系统的文件操作接口到远程服务器之间。相反扁平文件服务和目录服务也向客户端模块提供一种调用接口：它是一种高效、基于网络通信并且能够组成完备的文件操作集合。用户端模块与本地文件操作接口接近的方式提供给应用程序的同时将操作接口进行进一步封装，使透明化进一步提高。

2 HDFS分析与建模

当前的HDFS（Hadoop Distributed File System）架构非常容易实现，因为整个架构集群上只能存在一个namespace并且这个namespace也只能被仅有的一个namenode管理。但是执行起来并不是这么简单，可能在具体实现过程中会导致了一些局限性和模糊点，比如限制namenode的扩展，当添加机器用水平扩展来解决时却发现集群存储空间不足，所以namespace不可以扩展namenode。集群中数据块，文件和目录的数量也要受到限制，因为namenode在内存中存储了分布式文件系统中的所有元数据信息，但是当前的namespace只能存放在单个namenode上。还有Block Storage和namespace高耦合性，当前namenode中的namespace和block management的结合使得这两层架构耦合在一起，难以让其他可能namenode实现方案直接使用block storage。

鉴于以上不足，HDFS 的设计与实现更加重注重大量数据在存储和管理上的高可扩展性和高可靠性，HDFS采用主从（Master/Slave）结构模型，一个HDFS集群是由一个NameNode和若干个DataNode组成的，多个NameNode的配置已经在最新的版本中实现。NameNode在HDFS架构中作为主服务器主要负责用户端对文件的访问操作和对文件系统命名空间的管理，存储的数据是由DataNode负责管理并且HDFS还支持以文件形式的数据。从内部结构来看，文件把数据分成若干块然后把这若块数据存放在一组的DataNode上。如果想查看、修改文件或者目录的名字和关闭保存文件，由文件系统的命名空间发出命令NameNode负责执行同时也负责数据块到具体DataNode之间的映射。NameNode作为所有HDFS元数据的管理者，在NameNode的统一调度下，用户在客户端对文件的读写操作和创建、删除和复制数据库相关工作是由DataNode负责执行，因此，NameNode不在用户数据上经过。用户端负责将要访问得文件的信息其中包含了文件的名字发送给Namenode，然后Namenode 负责反馈在 Datanode 上存储文件数据块位置的相关信息给客户端，最后客户端直接和对应的Datanode 建立连接并进行具体的文件操作。Namenode定期对Datanode监控并负责管理 Datanode 提交的已保存文件的数据信息。

根据以上描述的HDFS体系架构中的文件服务模型，就可以建立起HDFS的模型，Namenode 负责提供服务器的主要目录服务，包括查看、修改文件或目录的名字和关闭文件等操作以及对文件系统名字的空间操作，同时还需要负责调度 Datanode与数据块之间的映射关系。Datanode负责提供服务器侧的扁平文件服务，而处理客户端发来的文件读写请求与执行数据块的创建、删除等操作是由服务器侧的扁平文件服务负责，最后按照 Namenode 发出的指令对语言文件进行访问操作。

通过以上可以分析出 HDFS的主要特征：

多种通信机制并存。根据通信对象分为远程过程调用，根据传输内容的不同提供数据流通信方式，提高了访问性能。

一个扁平文件可以支持众多的服务器运行。文件数据块分布广泛并且互为备份，有多个Datanode为数据库为此提供服务用户服务得到显著提高，从而保证每个节点级在系统中的高可靠性，普通的PC服务器也可以担当每个节点，有利于降低系统的成本价格。

指定的服务器为目录服务提供服务。Namenode可以使系统具有高透明性和高扩展性，因为在用户访问时可以提供统一的文件名字空间使用户访问更加高效，不但提高了对文件元数据的管理，而且还达到了从全局上对系统进行控制的目的。

3 文件系统的比较

NFS 是Network File System的缩写，即网络文件系统。是一种文件系统协定使用于分散式并能在不同的系统上使用，主要功能是让在不同的机器上、不同的操作系统上的数据能够通过网络连接相互分享，在服务器磁盘中的数据通过网络让应用程序在客户端进行访问，从而实现了磁盘文件的共享在类Unix系统之间。在NFS 的客户端模块和服务器侧的服务器模块共同组成了NFS分布式文件系统，NFS 的客户端可以成为远程文件的客户端，服务器模块可以成为远程文件访问服务的服务器，因为在每台服务器都部署了这两个模块并且是互为对称分布，所以使集群内文件资源的共享程度更高。无状态的 NFS 协议负责NFS 的客户端与服务器之间了的联系，远程服务器上已保存的文件和目录客户端可以通过网络进行远程操作。NFS 提供了与文件系统之间访问的接口、服务器和客户端的缓存访问信息，实现了访问透明性，使访问性能得到提高。

NFS的设计体现了以前主流分布式文件系统的典型特征，而HDFS 则是面向云计算的分布式文件系统的代表，NFS和HDFS 在满足系统需求方面侧重点不同。HDFS具有位置透明性在访问空间时用文本文件名和统一的标示符访进行空间访问，同时具有文件移动透明性因为在Namenode节点管理和维护上使用统一的名字空间；在并行访问过程中能让多个文件数据块同时访问，有可靠的访问性能，实现了性能的透明化；在系统的扩展过程中不用通过用户直接根据负载规模增删Datanode，实现了扩展透明性；在文件方面很好的保持了文件数据的一致性，在对文件进行修改过程中在文件的一致性协议下通过原子化修改，然后把修改后的文件块自动复制多份并且分别保存在多个Datanode上；具有良好的容故障性，能去除在文件和数据块中的的冗余，PC服务器可以Linux系统下作为客户端和服务器，使文件服务有可靠的兼容性；在安全方面，用安全套接字的网络安全机制服务访问，文件的安全得到有效保障。

从以上可以看出，HDFS 具有良好的透明性、可靠的扩展性，很好地满足了系统设计的要求，以这类新型的分布式文件系统为基础，将会促进了分布式计算和分布式数据库等重要技术的发展，这些技术将会促进云计算的新的发展，所以将会对当今产生巨大影响。

另外，虽然HDFS在当前的面向云计算中有美好的前景或者在相关邻域中已取得了较大的突破，但是它也具有一定的不足和局限，如访问透明性不高，在接口方面没有与传统的POSIX完全兼容的接口。在访问过程中文件不能的并发的进行更新并且在数据交互中低延时的文件数据不能交互等。

4 结束语

通过以上对Hadoop 分布式文件系统的模型分析，可以看出，无论是在服务器侧提供的扁平文件服务和目录服务，还是在用户端运行的用户端模块，HDFS 在设计和实现时都要考虑到如何保存和处理海量数据，并最终设计出高可扩展性、高可靠性、高效性和高容错性等满足需求的系统，并在云计算相关领域的取得非常突出的成绩。因此，HDFS 一直以来都受到了业界的广泛关注，在未来它将会在更多的领域中扮演幕后英雄，为我们提供更加快捷优质的服务。但是，HDFS 也不是对任何文件系统都是万能的，文件服务的提供者必须根据实际需求选择合适自己的文件系统。

参考文献：

[1] Hadoop community. Hadoop distributed file system，http：//hadoop.apache.org/hdfs，2010.

[2] 曹宁，吴中海，刘宏志，等.HDFS下载效率的优化[J].计算机应用，，2010，30（8）：2060-2065.

[3] George C， Jean D， Tim K. Distributed systems ：concepts and design（3rd Edition）. Addison-Wesley Publishers Limited，2000.

[4] Russel S， David G， Steve K，et al. Design and implementation of the Sun network file system. Artech House ，1988

[5] 陈剑，龚发根. 一种优化分布式文件系统的文件合并策略[J].计算机应用，2011（S2）.

[6] 姚远，王丽芳，蒋泽军.—致性管理的研究[J].现代电子技术，2012（8）.

[7] Wang F，Qiu J，Yang J， et al. Hadoop high availability through metadata replication. In：Proceeding of the First International Workshop on Cloud Data Management，Hong Kong，China， 2009.

[8] Gluster community. Gluster file system ，http：//www.gluster.org ，2010.

猜你喜欢

云计算

谈云计算与信息资源共享管理

基于MapReduce的故障诊断方法

实验云：理论教学与实验教学深度融合的助推器

电脑知识与技术

2016年17期

基于Hadoop 分布式文件系统的模型分析

猜你喜欢

杂志排行

电脑知识与技术的其它文章