APP下载

基于云平台教学资源共享方案设计

2015-05-26骆金维

信息化建设 2015年4期
关键词:资源共享虚拟化客户端

骆金维

摘要:随着信息化技术高速发展,云计算大数据为信息资源共享提供 了便利条件,现在教学资源共享方式仍处在较为单一的方式,大都是基于普通网站网页的方式,这种教学资源共享的方式存在用户查询速度慢、更新教学资源繁锁、用户在上传和下载教学资源速度慢、资源重复建设、存储容量有限等诸多问题。在当今大数据的环境已不能完全满足用户的需要。云计算是一种提供可用的、按需的网络访问的模式,基于云平台教学资源共享方式是未来的必然趋势,在云计算平台上可更为快速检索相关教学资源,上传、下载教学资源。

关键词:教学资源; 云计算

广东创新科技职业学院校级项目[编号:2014cxjky0209]

云计算是一种新的计算服务模式,这种服务模式是通过网络向用户提供计算服务、存储服务、应用软件服务的平台。基于云平台教学资源共享方案是将分布在不同计算机上的资源通过分布式存储的体系系统,采取分布式计算方式为用户提供服务。这种服务方式是可通过虚拟化技术术虚拟成计算机基础硬件,然后通过服务器集群搭建私有云平台,用Hadoop系统来存储、管理、分析课程资源共享数据。采用分布式存储方式来存储课程资源共享的数据,使用MapReduce来整合分布式文件系统的数据,从而提高读/写数据的速度,并扩大数据的存储容量,采取分布式计算方式为用户提供服务。Hadoop系统采用分布式存储方式来存储教学资源数据,并使用MapReduce来整合统计分布式文件系统的数据,通过Web Service来访问平台中的教学资源。

一、云平台相关技术

基于云平台教学资源共享方案是通过虚拟化技术充分分挥计算机的性能,主要利用Vmwarer虚拟化技术搭建基础设施平台,用Hadoop系统来存储、管理、分析教学资源共享数据。利用HDFS分布式文件系统、MapReduce分布式计算、Web Service等技术将存储在云计算平台上的教学资源进行共享服务。

1、云计算技术是一种将传统的任务处理由桌面为核心转换到由网络为核心的任务处理的网络计算服务模式,它实现以按需、易扩展的方式获得所需的资源网络。私有云平台的基础设施搭建,充分利用虚拟化技术在一台服务器上安装Vmware的企业级版本ESXi,然后将一台服务器计算机虚拟成多台普通计算机,其中Vmware服务器是其他所有虚拟化软件的基础,同时也是一个管理程序,并且是安装在服务器硬件上的操作系统,可以使其上的所有软件与硬件进行交互。通过安装VMware Client客户端的计算机连接到VMware 的ESXi服务器,然后对VMware ESXi服务器进行管理。根据服务器硬件资源情况在VMware ESXi服务器上可安装多台虚拟的计算机,并分别安装Linux操作系统。这些操作系统的资源管理可以通过VmwarevCenter服务器进行管理配置资源。VMware vCenter是提供一个本地化的中央管理系统来管理VMware网络上的所有虚拟机,并用一个专用的服务器以及一个数据库为VMware vCenter提供基础设施。

2、Hadoop集群设置,Hadoop集群可使用主/从(Master/Slave)架构,需要在集群中运行NameNode、DataNode、Secondary NameNode、JobTracke、TaskTracker等系列后台程序,NameNode、Secondary NameNode、JobTracke运在Master节点,DataNode、TaskTracker运行在Slave节点上。在对Hadoop集群安装部署时需要配置环境变量及配置文件,包括Java的安装及配置,Hadoop-env.sh、core-site.xml、hdfs-site.xml、marpred-site.xml、master、slave等各种配置文件,具体的配置参数可根据实际集群的需要进行。

3、MapReduce分布式计算模式是将大规模的数据处理抽象成Map和Reduce两个阶段,用于对大规模数据集的计算。对需要处理的大数据根据实际运行的任务节点数进行分块,被映射到主(键,值)对。各个节点运行Map函数,对数据分块进行运算,生成类似于对,然后各个节点运行Reduce函数,Reduce是接收各个节点Map函数输出的数据,每个Reduce节点只处理与本节点Map输出的数据(list相同键值的数据,处理后的节点仍以list的格式存放于本地。将各个节点上的Reduce输出串接起来,结果就是本次MapReduce任务的结果。

4、HDFS分布存储是一个开源的分布式文件系统框架,HDFS采用NameNode和DataNode主从模式,基中NameNode节点是master节点,用于HDFS目录树和元数据管理,对个提供统一命名空间供客户端访问;DataNode节点是slave节点,承担数据存取,定期向NameDode节点发送心跳数据包、数据块列表,并处理NameNode节点下发的任务。HDFS 文件系统部署在多台DataNode节点上后,上传任意的文件到HDFS 中,不用关心文件存储在哪个DataNode节点上。HDFS将每个文件存储成一系列数据块(Block),HDFS的文件都是一次性写入,多次读取,用户使用HDFS文件系统来存储数据文件,当DataNode开始会遍历本地文件系统,HDFS数据块,并生成本地文件关系的一个对应的列表,把这包含了DataNode上所有块的列表报告发给NameNode,。HDFS分布存储系统提供了命令行模式和API接口模式操作,Web Server 通过HDFS 的API接口模式来存取数据。

二、基础设施软件方案设计

Hadoop生态系统,所有项目之间都是相互独立的,分布式文件系统(HDFS,Hadoop分布式文件系统)和MapReduce作为Hadoop的核心,为用户提供系统透明的分布式基础架构的底层细节。利用Hadoop组织计算机资源来建立自己的分布式计算平台,充分利用集群的计算和存储能力,完成海量数据的处理。分布式文件系统、I / O组件和接口是提供支持Hadoop的子项目等常用工具,文件系统,RPC和序列化库是建立在廉价硬件的云计算环境提供基本服务,以对传输平台软件开发运行提供了必要的API。 Avro的是一个支持高效,系列化系统跨语言的RPC和数据的永久存储。 MapReduce是并行计算的大规模数据集的编程模型。支持分布式并行编程,在自己的程序运行分布式系统。 MapReduce执行映射(映射)功能,输入键被映射到一组新的密钥对,经过一定的处理,减少相同的密钥进行处理,然后输出关键值的所有值结果。 Chukwa是对于大型分布式系统中的数据监测和分析的开放源码的数据收集系统,是Hadoop的HDFS和MapReduce框架结构之上,它也继承了Hadoop的可扩展性和健壮性。 HDFS是一个分布式文件系统,具有高容错性(容错)功能,可以设计部署在低(成本低)的硬件,可以提供高吞吐量,对于那些大型的数据访问应用程序的数据集的应用程序。 HDFS放宽了便携式操作系统接口(POSIX,便携式操作系统接口)的要求,这可以在数据流的访问数据在文件系统的形式来实现。配置单元是一个分布式,根据存储的数据仓库中的顺序,存储在HDFS管理数据,并提供一个基于SQL的查询语言查询数据。配置单元提供了一种机制,结构化的数据,它类似于传统的RDBMS支持SQL语言来帮助这些用户熟悉SQL在Hadoop中。 HBase的是一种分布式,开放源码的面向序列的数据库,从Bigtable分布式存储系统,用于结构化数据在Hadoop的HBase的顶部提供了类似Bigtable的能力。

三、中间层业务方案设计

HDFS数据的读取流程:(1)HDFS客户端向远端名字节点发起RPC请求,请求读取某一文件。(2)名字节点返回该文件部分或全部的数据块分布列表,列表里面包括数据块的数据节点地址。(3)客户端会选取离自己最近的数据节点,建立连接并读取数据块。(4)当读取完一个数据块后,先进行校验码验证,若出现错误或当前数据节点出现错误,则客户端会请求名字节点,寻找下一个有该数据块的数据节点,并重新读取。(5)数据块读取成功后,会关闭当前连接,并顺次选择一个数据块的最佳数据节点进行读取。(6)当列表中的数据块读取完毕并且文件还未读取结束时,客户端会向名字节点继续请求下一批数据块列表。(7)当所有数据块读取结束,客户端通知HDFS关闭连接。

(1)客户端向远端名字节点发起RPC请求。(2)名字节点检查客户端是否有权限创建文件,要创建的文件是否存存,若件满足,则执行创建操作,并建立一条事件日志记录:若不成功,则告知客户端原因。(3)客户端将写入的文件切分成一个个的数据块,在内部以数据包队列的形式管理这些数据块,并向名字节点申请数据块;名字节点根据复制系数,确定数据块存放的数据节点列表,并传送给客户端。(4)客户端以流式管道的形式将数据块写入相应的数据节点,数据块向第一个数据节点写入,当第一个节点存储成功后,会将数据块传递给第二个数据节点;第二个数据节点写入成功后,再将数据块传送给第三个数据节点,这样整个写入过程以一种流水线的方式写入。(5)当数据块向最后一个数据节点写入成功后,会向客户端发送一个ACK确认包,在收到ACK后,客户端将该数据包从队列中移除。(6)若传输过程中,某个数据节点出现故障,则故障节点会从当前流式管道中删除,同时名字节点会重新分配一个新的数据节点,写入过程不变。(7)写入结束后,客户端会发出关闭请求,当收到最后一个确认数据包ACK后,执行最终的关闭。

四、总结:

基于云平台教学资源共享方案设计,是根据现在工作单位及从事的教育工作实际情况对需要,对教学资源共享建设提出设计方案。先进行需求分析,了解用户在大数据共享资源需求,然后进行设计,架构云计算平台,主要是利用开源Hadoop平台的分布式存储及MapReduce计算,结合Web技术来调用HDFS的API接口。基于云平台教学资源共享方案是在搭建私有去平台的基础上实施,搭建私有云平台主要涉及到VMware虚拟化技术、Hadoop服务器集群部署、云计算架构、云计算存储结构、分布式文件系统存储、并行计算机、WebServvie编程技术为教学资源共享提供方案。基于云平台教学资源共享方案充分利用云计算平台的特点,将教学资源分布存储在不同的计算机上,方便用户使用教学资源,实现快速上传、下载教学资源。

参考文献

[1].章俊. 基于云计算平台的软件架构应用研究[D]. 吉林:《东北师范大学硕士论文》,2012-05-01

[2].张炎华. 私有云系统的实现及性能分析[D]. 北京:《北京邮电大学硕士论文》, 2012-03-08

[3].肖斐. 虚拟化云计算中资源管理的研究与实现[D].西安: 《西安电子科技大学硕士论文》,2010-03-01

[4].曹军委. 基于云计算的教学资源共享体系的研究与实现[D]. 安徽: 《安徽理工大学硕士论文》, 2012-06-01

[5].ZT 云计算产业链初成中国落后两年 - 云计算和SaaS产品与实践 - ITPUB论坛 - 澳信传媒旗下专业技术社区 . 《网络(http://www.itpub.net/viewthread.php?tid=1242905&highlight=)》-

[6].沐连顺.电力系统云计算中心的研究与实践.《电网技术》- 2011-06-05endprint

猜你喜欢

资源共享虚拟化客户端
交通运输数据资源共享交换体系探究与实现
基于OpenStack虚拟化网络管理平台的设计与实现
对基于Docker的虚拟化技术的几点探讨
县级台在突发事件报道中如何应用手机客户端
孵化垂直频道:新闻客户端新策略
基于Vanconnect的智能家居瘦客户端的设计与实现
虚拟化技术在计算机技术创造中的应用
卫康与九天绿资源共享
教育部第一批“国家级精品资源共享课”公布
存储虚拟化还有优势吗?