APP下载

大数据应用中的数据保密性分析

2020-05-23卫鑫

科学导报·学术 2020年68期
关键词:大数据

【摘 要】如今,大量的数据是所有企业的共同目标,旨在从这些来源解锁新经济。Hadoop是为分析并行计算体系结构中的大规模数据仓库而开发的。这个过程中的主要任务是运用适当的策略来处理这个“大数据”。因此,目前的行业关注的是如何利用这些“大数据”实现业务增长。毫无疑问,在hadoop上建立数据库可以提供一种分析和直觉分析的新方法。除了实验和poc之外,如今Hadoop被更多地考虑用于生产。随着Hadoop被考虑用于实时生产场景,并且生产数据的主要部分通常是敏感的,或者受到许多控制措施的影响,在决定为任何企业安装Hadoop之前,考虑Hadoop中的安全方面就变得非常重要。本文评估了Hadoop生态系统中的各种问题,以及市场上顶尖的大数据玩家对Hadoop生态系统的流行分布。

【关键词】大数据;Hadoop;Hadoop安全工具

1引言

在今天,有的单位几乎没有获得所需试验数据的机会,因为要么不知道如何使用该技术,要么根本不够成熟,以处理他们的大数据。大多数顶级组织都在寻找大数据框架,以帮助他们寻找新的机会。他们可以分析数据,在寻找潜在机会的竞赛中领先。Hadoop策略基本上是从选择正确的发行版开始的。Hadoop主要用于分析并行计算体系结构中的大规模数据仓库。由于这些数据可以在公共场合免费获得,开发人员最初从不关心安全问题。但正如我们所知,随着Hadoop的发展,它的功能不再局限于最初的需求,随着Hadoop上新技术的发展,它现在几乎被应用于所有行业,从医疗、股票交易到机器人等,只要涉及计算密集型任务。由于其中一些作品涉及敏感数据,安全性成为一个大问题。本文拟提供一些有益的启示,主要大数据服务提供商为解决这些安全问题而使用的问题和策略的说明。

2现有的数据公司简述

在过去的几年里,大数据市场已经出现了很多工具和提供商的参与。他们中的一些人用Hadoop插件提供他们的本地工具。其他人则提供了新的Hadoop平台。在市场上数量众多的大数据厂商中,排名前四位的厂商如下:

Cloudera公司是由雅虎、谷歌等顶级公司的专业人士于2008年创立的Cloudera是采用ApacheHadoop核心并围绕其开发定制软件的先驱。在用户群方面,它仍然具有领先地位。尽管它在发行版中仍然使用apachehadoop作为核心,但它还有一个名为Cloudera管理套件的专有产品。该产品有助于自动化Hadoop的部署,并为管理集群提供GUI基础。Hortonworks成立于2011年,并很快加入了Hadoop的主要分销商集团。它为大数据提供了基于核心apachehadoop的开源数据平台。Hortonworks是唯一一家发布ApacheHadoop的Hadoop供应商,没有添加任何独占组件。Hortonworks发行版HDP2.0可以直接从他们的网站上免费下载,安装非常简单。Hortonworks团队负责Hadoop最近的许多新增功能,包括Yarn,它是basic MapReduce的增强版。

apachehadoop的开源版本有许多限制。大多数Hadoop发行商都试图通过发行版来克服这些问题。所有的发行商都在核心开源Hadoop组件之上添加了自己的风格。MapR已经用自己的专有文件系统MapRFS替换了HDFS组件。MapRFS公司有助于将企业级功能添加到Hadoop中,实现更有效的数据管理和易用性。IBM为云端和本地的商业企业提供了Spark和Hadoop套装。组织希望花更少的时间创建EnterpriseReadyHadoop基础设施,花更多的时间获得洞察力。IBM提供了一个完整的解决方案,包括Spark,可以快速方便地扩展分析。在本地、云上可用,并与当前使用的其他系统集成。

3大数据的保密性(安全)问题

对于任何Hadoop集群,任务都是保护整个应用程序集,而不是像简单的关系数据库那样。所有为Hadoop提供灵活性、可伸缩性和高性能的特性都会带来特定的安全挑战。以下被认为是当今IT行业大数据的多个关键安全问题。

1、Hadoop的数据放置技术和多租户问题Hadoop通常用于服务多个应用程序和“租户”,每个应用程序和租户可能来自同一家公司的不同组,也可能来自完全不同的公司。通常,一个租户的数据不会与其他租户共享,但考虑到Hadoop数据放置技术的性质,您必须实现安全控制以确保安全性和隐私性。Hadoop当前的数据放置策略不太适合或不太适合这种需要改变租户数据放置方式的多租户情况。为了满足这些需求,应该探索Hadoop中不同的块放置策略。2、对基于角色的数据访问的控制对于大多数RDBMS和数据仓库来说是至关重要的,Hadoop和它们没有什么不同。RDBMS平台使用角色、组、安全方案和其他一些功能来限制用户对较小数据组的访问。Hadoop中也应该提供类似类型的控制措施。3、节点间通信问题任何Hadoop集群中的节点之间的通信(跨不同的Hadoop发行版)在默认情况下是不安全的-它们使用TCP/IP上的未加密RPC。这样就可以对传输中的数据进行检查和篡改。

4解决方案

许多商业和开源工具可用于处理前面讨论的大数据Hadoop的安全方面。一些最常用的工具是apachesentry apachesentry是Cloudera的开源工具之一。它是Hadoop的一个授权模块,提供了为apt用户和应用程序处理不同访问级别所需的定义良好的RBAC。它支持RBAC、细粒度授权和多租户管理。apacheknox apacheknox系统充当Hadoop中不同服务的身份验证和访问请求点。它为Hadoop提供了外围级别的安全解决方案。另一个优点是它提供了不同级别的身份验证和不同的令牌验证场景。它还提供SSO解决方案,并允许将其他身份管理解决方案与集群集成。ApacheRhino ApacheRhino旨在为整个Hadoop生态系统中的数据提供整体安全解决方案。它提供了一个框架,这是加密编解码器提供块级加密的数据存储在Hadoop。另外还提供了基于令牌的身份验证和SSO解决方案。它支持不同的密钥分配和管理,使得MR能够根据需要对每个数据块进行解密来执行程序。通过在单元级别启用身份验证和Hbase表的加密,可以增强Hbase的安全性,此外它提供了审计日志框架,便于审计跟踪。因此在我们实际的工程应用中可以使用该方法来提高我们数据的安全性。

5结论

一般来说,行业存储和处理大量敏感数据,这些数据受多个行业法规和治理控制的约束,例如银行数据、医疗保健数据等。为了遵守这些法规,Hadoop发行版和Hadoop生态系统组件必须提供强大的能力,以防止对其的任何攻击它存储和处理的数据,并随时采取必要措施确保适当的安全性。尽管Hadoop的安全环境变化很快,但所有Hadoop组件的变化率并不一致,这就是Hadoop生态系统中安全能力的程度可能不均衡的原因。因此,某些组件可能与比其他组件更强大的安全技术兼容。因此在实际的工程中是可以采用这种组件的形式来对我们所使用的数据进行处理。

参考文献:

[1]张振宇,冯跃,孟兆博.高可用电站大数据平台探索与实践[J].电站系统工程,2021,37(03):73-74.

[2]姜宇澤,陈诗洋.数据安全技术发展现状及挑战解析[J].通信世界,2021(08):17-19.

作者简介:

卫鑫,2001年出生,汉研究方向:大数据质量分析。

(作者单位:西南科技大学城市学院)

猜你喜欢

大数据
大数据环境下基于移动客户端的传统媒体转型思路
基于大数据背景下的智慧城市建设研究
数据+舆情:南方报业创新转型提高服务能力的探索