APP下载

分布式存储数据技术应用探讨

2021-12-25陈红丽张娴杨亚琦

科学与信息化 2021年14期
关键词:网络拓扑副本交换机

陈红丽 张娴 杨亚琦

云南省市场监督管理局信息中心 云南 昆明 650228

传统数据中心在信息爆炸引发的巨大社会变革下已不能适应大数据时代的要求。为了适应新技术的发展,有效利用大数据,实现新型数据中心建设,为大数据应用提供环境支持,新一代数据中心应把重点放在数据计算上。然而,传统数据中心建设往往需要较高的投入来构建基础数据的存储环境。在基于大数据和云计算的新一代大数据中心建设中,如何解决这一矛盾是研究的重点。由于设备容量有限,传统的集中式数据存储已不能适应当前形势。分布式存储系统以其良好的扩展性、鲁棒性和高效性超越了传统集中式存储技术。

1 基于大数据和云计算的新型数据中心建设面临的挑战

1.1 数据信息安全问题制约云应用发展

可通过云计算实现基于 Web的计算服务,以满足不同的需求。然而,云数据的安全和隐私信息的保护也成为云应用发展的一个关键问题。安全方面的一个主要问题是,云运营商将获取敏感数据,这极大地增加了用户的忧虑,并降低了云计算在诸如政府部门数据中心等领域的应用能力。

1.2 智慧城市数据来源和类型多样

下一代智慧城市时代的代表是我们空间中的每一个实体都越来越紧密地联系在一起,这些实体基于流行的快速无线网络、大数据处理平台和先进的人工智能技术,能够共享现实世界的情景数据,并以更加智能的方式解决了城市问题。真实空间要求将网络物理系统与以数据为中心的网络空间相连接,而网络空间往往是感知数据反映真实空间的状态。同样的,因为这些来自现实世界的感知数据都是通过物联网技术产生和收集的,所以我们称之为“物联网数据”,利用各种传感器可以很容易地想象出很多场景。由于感测设备在我们日常生活中的广泛应用,物联网数据也越来越普及。如今,为了创造新的价值,人们强烈地要求它们。因此,物联网数据集成成为解决现实世界问题的关键,但从不同来源合并或集成物联网数据并非易事,原因如下:①从下向上生成数据:物联网数据源通常有自己的目标,不会考虑到其他用途;②需要花费很大代价和精力才能集成这些数据。资料格式也多种多样,如文字、音频、视频等资料,对资料的存储要求更高。

1.3 数据中心运维压力大成本高

随着物联网、云计算技术在当今社会的发展,数据量以前所未有的速度增长,数据中心的规模冗余将成为一个更大的挑战。负责政府数据的数据中心由于占地面积大,选址方案需要政府支持;就地理位置的选择而言,过去二十年来,数据中心的选址经历了三个阶段:位于城市中心;位于郊区;以及远距离的选址。而且,经过这三个阶段,数据中心也“越长越大”。20年前,除了三大运营商之外,在其他行业几乎找不到面积超过500平方米的 IT机房。而且现在,各行各业的龙头企业自建上千平方米的机房比比皆是。现在数万平方米的数据中心已经不起眼,5万平方米、10万平方米的数据中心不断涌现。但是,数据中心的规模越大,就意味着业务越集中,业务越集中就意味着风险越大。就操作经理的观点而言,他并不希望所管理的数据中心过于庞大。随着数据中心规模的增大,实际运行的压力也在增大,甚至呈几何倍数增长。大规模数据中心运营监控系统的建设与维护费用非常昂贵[1]。

2 分布式存储

2.1 分布式数据存储方法

2.1.1 根据网络拓扑结构对数据进行分块后,选择合适的存储节点对数据进行存储。在存储数据时,首先将数据分成若干块,然后根据用户的不同需求,选择合适的节点存储在网络拓扑结构中。

2.1.2 通过改变存储系统结构来存储数据。数据存储是通过在分布式存储系统中建立一组数据存储过程来存储数据的,也就是一个云服务供应商的单个云数据存储过程和一个以上云服务供应商的多云数据存储过程来实现。该方法灵活性强,在一定程度上能充分满足用户需求。

2.1.3 采用数据加密的方式存储数据,如果存储的数据量过大,加密大量数据的过程非常耗时,消耗了计算资源,在目前情况下,大多数情况下,这种方法仅适用于存储少量数据。

2.2 分布式数据存储分类

数据存储分为两类方法:基于数据的数据存储和基于存储系统的数据存储。

2.2.1 以数据为基础的数据存储,为了保证数据的安全,经常要对数据本身进行修改以实现数据存储。多数数据存储方法采用数据加密技术,数据加密可以分为对存储数据本身进行加密和对存储信息进行加密。前一种方法通过对存储数据本身进行加密来保证其安全性。这种方法可以对数据进行保密处理。只有当攻击者破坏加密算法时,它才会窃取存储的数据。该方法在保证数据安全的前提下提高了加密算法的效率。以存储信息为基础的加密方法不对存储数据本身加密,而是对存储服务器 ID信息、数据存储路径等中间信息加密。因为数据本身并不加密,只对存储过程中产生的信息进行加密,加密时间短,减少了数据存储时间,更易于为用户接受。

2.2.2 以存储系统为基础的数据存储与数据本身无关,它可以确保存储系统的存储质量。储存品质是指使用者对储存资料的不可破坏性、存取时间等要求。根据网络拓扑结构的不同,存储模式可以分为基于网络的拓扑结构和基于存储的拓扑结构两种。以网络存储数据存储为基础,采用图论中的点着色法,根据数据的安全性和数据访问时间,选择满足用户需求的数据存储节点。在存储系统中,通常分为数据存储、存储代理和第三方审核三大部分。记忆体将资料上传至记忆体,由第三方检查资料完整性,确保资料安全。

2.3 分布式数据存储策略

2.3.1 基于存储路径加密的数据存储方法。在数据存储过程中,用户通常需要保证一定的数据存取效率,同时也需要对数据进行加密,与加密数据本身的加密算法相比,加密数据存储路径可以大大减少加密时间,同时保证一定的数据安全。本文将介绍基于云存储的数据存储方法。在信息产业新的变革中,云计算成为一个非常重要的研究领域。云为用户按需提供了方便且经济有效的服务。随着数据量的不断增加,海量数据存储已经成为一种新的发展趋势。用有效的方法来存储这些数据很重要。云计算存储可靠、廉价、易于扩展。但随着大数据和网络的发展,云存储必须多样化,才能满足各种服务和各种设备的需求。但这些因素带来了两个挑战:其一,用户很容易受到云服务供应商的限制。一旦提供商泄露了数据库或者其他的安全事件,用户就会永远丢失他们的数据。所以只在一个提供者中存储数据是非常危险的。另外一个挑战是,不同用户的需求不同。这个字符导致云存储资源失衡。多云存储是近年来出现的一种新的云存储服务。使用者可将档案储存于多个不同的云端,而非单一云端。这个框架可以减少数据泄露的风险。多云存储可以基于所有云供应商的状态来动态地选择存储策略。如果某个云服务提供商崩溃了,多云系统会选择另一个合适的云。

2.3.2 基于网络拓扑的数据存储方法。通过数据中心网络,可以进一步提高因特网基础设施的性能,如信息传输、存储和网络容量。由于增加了更多的网络连接和交换机,服务器数量也随之增加,甚至成倍增长。就物理设备而言,数据中心网络是一个物理系统,大型服务器通过网络设备进行互联;从功能上来说,数据中心网络是一个大型互联系统,它将物理设备(服务器、交换所)有机地联系在一起。设备、基础设施等互连结构以及计算、存储和通信能力,这些都为客户提供了高效、可靠和低价的服务。

近年来,数据中心网络拓扑有两大类:以交换机为中心的拓扑和以服务器为中心的拓扑。总的来说,以服务器为中心的数据中心网络拓扑在某些网络性能上要好于以交换机为中心的网络拓扑。本文简要介绍Fat-tree和BCube。Fat-Tree通过使用便宜的普通交换机在服务器和交换机之间实现大规模互连,它替代了昂贵的高性能核心交换机,以解决传统树结构中的带宽瓶颈和单点故障问题。与传统的多根树结构类似,胖树采用了具有核心级别、聚合级别和边缘级别的三层结构。Fat-Tree中任何级别之间的聚合带宽都相等,因此它解决了传统树形结构中聚合带宽不均等导致的带宽瓶颈,从而实现了网络节点之间更高的数据传输和容错能力。数据中心中的经典拓扑BCube,在容错能力和网络容量方面均具有良好的性能。BCube作为数据中心拓扑中的经典结构也可以在某些性能方面进行改进,例如BCube在可伸缩性方面并不完美,相信这个问题将通过数据中心网络技术来解决。现有的以服务器为中心的网络拓扑在某些性能上已经达到了理想的性能,而在其他性能上却表现不佳,在实际应用中不允许出现这种情况。基于现有的网络拓扑,提出一个可以在各个方面都达到理想条件的新拓扑在实际应用中就非常有意义[2]。

3 数据容错技术

该技术旨在以低成本提供尽可能高的系统资源利用率。当前普遍使用的数据容错技术包括基于复制的容错和基于容错编码的容错。

3.1 基于复制的容错技术

在高能物理、数据挖掘和气候模拟等许多领域的科学应用的新兴趋势表明,这些应用可产生大量的数据。由此产生的输出数据反过来被存储以做进一步分析,并与分布在世界各地的科学界合作研究人员共享。在集中的位置管理这些数据会增加数据访问时间,因此执行作业要花费很多时间。故障在当前的数据中心中非常常见。由于硬件、软件、断电等原因导致的各种服务器、链路、交换机、机架故障。随着网络规模的增长,个别服务器和交换机故障可能成为常态,而不是异常。因此,为了减少数据访问时间,使用基于复制的容错技术。在基于复制的容错技术领域,研究人员通常研究数据组织结构和数据复制策略。在这样的环境中,在分布式系统中复制对象对系统性能有至关重要的影响。例如,考虑一个对象O。它的复制方案是将O复制到的一组处理器。在万维网术语中,复制方案是O的一组服务器。因此,复制方案决定创建O的多少副本,以及将这些副本分配给哪些处理器。这种方案会影响分布式系统的性能,因为从本地读取O比从远程处理器读取O更快,成本更低。因此,在一个读密集型网络中,为了增加本地读的数量并减少中央服务器上的负载,需要使用广泛分布的O复制。另一方面,对象的更新通常写入所有或大部分副本。在这种情况下,广泛的分发会减慢每次写操作的速度,并增加通信成本。因此,在写密集型网络中,必须使用窄分布的复制。通常,对象的最佳复制方案取决于读写模式,即每个处理器发出的读和写的数量。分布式数据库的复制方案是在数据库设计时以静态的方式建立的。复制方案保持不变,直到设计器手动干预更改副本的数量或副本的位置。如果读写模式是固定的,并且是已知的,那么这是一个合理的解决方案。

3.2 基于纠删码的容错技术

目前有两种容错技术,一种是基于复制的容错技术,另一种是基于纠删码的容错技术。前者需要巨大的存储开销;后者来自于信道传输编码技术,该技术可以容忍多帧数据丢失,并引入到分布式存储区域中。基于纠删码的容错技术是最常见的容错技术,它可以允许多个数据块同时发生故障。尽管大规模复制具有提高可用性和持久性的潜力,但它给系统架构师带来了两个重要的挑战。第一,系统架构师必须增加副本的数量,以实现大型系统的高持久性。第二,副本数量的增加增加了系统的带宽和存储需求。纠删码可以减少容错数据存储和传输系统中冗余的空间和带宽开销。纠删码将一个数据块编码成n个片段,每个片段的大小都是原始数据块的1/m,因此任意m个片段都可以用来重建原始数据块。因此,(n-m)片段可能不可用(例如,由于损坏或服务器故障)而不会失去访问权限。具有这些特性的纠删码方案包括Reed Solomon编码和Rabin信息散布算法。

基于复制的容错技术简单、直观,易于实现和部署。当数据无效时,复制只需要从其他副本下载相同大小的数据进行修复;但是需要为每个数据对象创建大量大小相同的副本,这意味着存储空间非常大。该纠删码能够从丢失通道中重构信息,并将多个数据块的信息融合成冗余信息,具有存储空间利用率高的优点。

4 结束语

本文研究了大数据和云计算环境下分布式存储的关键技术,详细介绍了有关技术的研究成果及存在的主要问题,希望能为其他领域的研究提供借鉴和帮助。

猜你喜欢

网络拓扑副本交换机
面向未来网络的白盒交换机体系综述
基于通联关系的通信网络拓扑发现方法
局域网交换机管理IP的规划与配置方案的探讨
使用卷影副本保护数据
更换汇聚交换机遇到的问题
面向流媒体基于蚁群的副本选择算法①
基于地铁交换机电源设计思考
能量高效的无线传感器网络拓扑控制
一种基于可用性的动态云数据副本管理机制
2017款捷豹F-PACE网络拓扑图及图注