企业大数据平台安全与隐私保护研究

2021-11-22陈伍星中兴通讯股份有限公司

现代经济信息 2021年20期

陈伍星中兴通讯股份有限公司

一、引言

近年来，数据泄露事故频发，且逐年大幅增长，2021年5月全球数字安全领域领导者金雅拓公布，全球各地共发生数据泄密事故1 673起，累计数据记录7.07亿条。急剧增加的数据安全风险，引起了各国政府的高度重视。而欧盟在2018年5月25日正式实施《通用数据保护条例(GDPR)》，要求任何涉及欧洲公民个人数据的组织，有义务对个人隐私数据采取严格的数据保护措施，违反相关条例的企业将面临高达2000万欧元或4%年营业额的罚款。此后，其他国家纷纷参照此条例，出台各种法律法规。

另一方面，为鼓励大数据产业发展，国家给予各种政策支持，各个行业兴起大数据发展热潮，企业间数据互融互通，充分利用大数据技术挖掘数据价值。但面对这数据“金矿”，稍有不慎就会导致数据的泄露，损害用户和企业自身的利益，更为严重的可能会造成社会责任和法律风险，甚至是国家安全。显然，解决好大数据安全问题，企业才能更好地开展大数据业务。

二、大数据安全现状

与传统数据库模式下的运营环境不同，大数据业务打破了相对封闭的边界，基于大数据的应用不断推出，导致大量的数据需要被共享，而无论从管理还是技术角度来看，对于数据安全的关注是严重落后于业务发展的，暴露巨大的风险。

目前，大数据系统的技术实现基本上是以Hadoop为基础提供存储和资源管理，其上根据业务需求部署HBase、Hive、 Spark、Strom等各类数据处理组件，种类可达几十种，绝大多数都为开源软件。开源软件到商用应用还有很长的一段路要走，要经历技术的选择和融合、网络规划、软硬件配置、性能调优、部署等一系列过程，还要考虑后续的扩容和运维。以下几个方面是当前比较突出的问题：

1.访问安全(账号、认证、授权、审计)、数据加密等基础安全能力，在大数据领域虽有一定的积累，但是远没有达到传统数据库的水平，且用于隐私保护方面的数据脱敏技术在大数据领域则几乎为空白。

2.各开源社区对安全的重视程度不一，技术进展不同，存在短板。

3.Hadoop及衍生项目生态圈缺乏统一的安全体系和技术标准，技术路线分裂，难以进行统部署和管理。

4.国内外各主流的大数据版本发行商，基本上都会采用开源的Kerberos和LDAP来通过访问安全能力，但是对于开源的整合度均不高，包括提供统一的账号管理、权限管理、策略管理等能力，在易用性及细粒度控制方面都存在很大的不足，容易产生安全漏洞，在实际部署中往往耗费大量精力，且后期演进困难。

(一)授权技术

分布式文件系统HDFS和分布式并行计算框架Spark是大数据架构的主要技术组件。其中，分布式存储需要通过HDFS的授权模型，即目录、文件的rw现来控制用户读写。对于Metastore,在配置文件里明文填写了作为Metastore的数据库的用户名、密码，容易造成Metastore损坏。这种方式非常不安全，且通过底层存储目录控制访问权限，配置困难，复杂度高、粒度粗，非常不灵活。而Spark作为分布式SQL查询引擎处理结构化数据，用户在使用SparkSQL处理数据的时候，难以实现细粒度的数据隔离和管控。

(二)认证技术

大数据开源社区在安全认证方面有Kerberos认证和LDAP认证。其中Kerberos 认证是一种重量级的网络认证方式，Kerberos 认证在生产时面临如下问题:

1.需要用户有一个有效的Kerberos principal及证书，这在许多环境中是不实际。

2.可能存在单点风险，部署要考虑KDC数据备份及服务高可用，中心服务器安全问题，时间同步依赖NTP。

3.配置相对繁琐，集群扩容缩容、用户/客户端增减繁琐、密钥更新分发繁琐。

4.会导致性能下降严重。

而LDAP认证方式主要是通用用户名和密码这种简单的方式访问，覆盖的大数据组件服务较少，目前仅支持Hive、SparkSQL等少数能提供JDBC访问接口的组件。

(三)过滤技术

传统的数据过滤技术通常采用视图方案，针对不同的用户/角色定义各种不同的视图，通过视图方式进行数据过滤控制每个用户仅能看到过滤后数据，从而实现访问控制，保护数据隐私。视图方式在实际的使用过程中，在性能、可扩展性、可维护性等方面都存在问题:

1.性能：在业务复杂场景中，通过视图实现多表关联查询相比直接使用表查询，性能是有明现下降的。

2.维护困难：新增一个场景，意味着需要新增加一个视图，而累积成百上千视图的维护是非常困难的。

(四)脱敏技术

使用中间件进行脱敏处理是比较常见数据脱敏产品采用的方式。其关键技术是采用DDM(动态数据脱敏)作为代理软件，使用内嵌SQL代理程序，当上层业务进行查询请求时，DDM层对请求进行实时的过滤，并依据用户权限和其他定义规则来脱敏数据，采用中间件的脱敏方案，主要问题在于：

1.需要专门的脱敏中间件，即外置数据脱敏服务器，增加了软硬件成本及复杂度，运维成本高；

2.查询请求和结果返回都需要经过脱敏中间件，消耗大量网络带宽及计算、存储资源，性能较差，并发程度不高。大数据集群模上千个节点规模，动辄PB级的数据在企业生产环境中非常常见，通过中间件方式，完全无法满足大数据场景下海量数据高性能动态实时脱敏的响应时间要求；

3.数据库返回的结果数据需要缓存在脱敏服务器中，带来了数据泄露的安全隐患；

4.现有技术改变了应用系统的使用模式，无法实现对应用完全透明，需要更换数据库访问地址及端口，改变了应用者的使用习惯，对已有系统的迁移引入很大的工作量；

5.动态脱敏主流的实现方式是采用网关或代理的方式，在客户端和服务器之间按照策略进行SQL操作的改写，来实现数据脱敏效果。这个改写过程必然需要对SQL语句进行拆包和分析，由于SQL语法的复杂度，正则匹配非常不准确，在某些场景下必然会修改用户的原始业务请求的处理逻辑，准确性差。

三、大数据平台安全及隐私保护方案

针对大数据的特点及开源社区安全体系的建设现状，本文认为大数据安全体系应以数据为中心，重点考虑数据生命周期各阶段中的数据安全问题，从环境、基础全、数据、应用以及管理全方位构建大数据平台安全框架，在数据库引擎层实现透明加密、解密、脱敏，提供高性能的存储服务，同时，对上层业务应用影响尽可能的小。

(一)环境安全层

环境安全即基础设施安全，包括网络安全、主机安全以及虚拟化安全，通过网络平面隔离，加固大数据集群内节点的操作系统、数据库等手段来保证大数据系统正常运行。

(二)基础安全层

基础安全层包括接入控制、访问控制、合规审计等，是大数据平台的基础安全能力。

接入控制：关注于控制外部用户或者应用程序对集群的访问过程中的身份鉴别，包括用户账户管理模块及用户身份认证模块，这是实施大数据安全架构的基础，大数据平台中所有组件都能提供基于Kerberos的认证功能，某些组件还能提供额外的LDAP认证，本文建议采用轻量级的白名单认证方式，能够在保密性和可用性间取得平衡，适用于大规模集群场景。

访问控制：关注于用户或者应用访问数据时，对用户的权限定义和实施过程[1]。访问控制可以限定用户是否有对某种资源的访问能力，能给不同应用提供一致的基于细粒度的访问控制能力。本文建议采用统一授权服务器来完成对大数据系统访问策略的配置和权限控制实施，从而可以实现一致的访问权限控制配置和实施过程，该统一授权服务器覆盖了主流的大数据组件，包括业界尚未解决的Spark细粒度授权痛点。

合规审计：大数据系统中是否存在非法数据访问非常关键，这需要通过安全审计来实现。安全审计的目的是捕获系统内的完整活动记录，且不可被更改。本文采用细粒度的审计功能，包括管理日志、运行日志、审计日志等，覆盖所有的主流大数据组件，通过细粒度的审计日志，当系统遭受恶意操作或攻击时，可以快速定位和溯源，划分事故责任。同时，在日志管理方面，采用加密、脱敏、转储技术，避免在记录日志过程中泄漏用户敏感数据以及日志被恶意删除。

(三)数据安全层

数据安全层从多租户隔离、数据透明加密、数据容灾、数据脱敏、数据过滤等方面保证用户数据的可用性、机密性和完整性。

多租户：在大数据存储计算层之上架设统一的应用开发环境，实现用户间的存储资源、计算资源逻辑上的隔离，用户在独立的空间中可进行数据的查询、导入导出、计算任务执行、数据共享和权限管理等。

数据容灾：采用大数据同城容灾方案，生产集群与容灾集群处于同城不同的机房，物理隔离。生产集群、容灾集群同时工作，对外提供服务，互为容灾，时刻准备接管对端的集群业务。

透明加密：是在软件底层实施的加解密技术，其过程对应用程序来说是完全无感知的。目前主流的大数据组件均已支持透明加密功能，包括HDFS透明加密(文件级)、Hive、SparkSQL列级透明加密，HBase列族级透明加密，并且透明加密的算法可以自定义。

数据脱敏：对外提供数据的时候，对部分涉及隐私的信息，如姓名、生日、电话号码、身份证等，进行屏蔽或加密处理，以防止隐私泄漏，我们采用动态脱敏技术，在不改变数据的实际存储的前提下，对数据查询过程进行变形处理，实现查询结果的数据脱敏，从而保护用户敏感数据。当前支持HBase、SparkSQL、Hive数据查询的脱敏、脱敏策略可视化配置管理，还支持自定义脱敏算法并提供算法的维护和配置等管理功能。

数据过滤:针对不同的用户/角色定义各种不同的视图或者过滤策略，每个用户仅能看到过滤后数据，从而实现访问控制，保护数据隐私，支持SparkSQL、Hive数据查询的自动过滤。

(四)应用安全层

基于大数据平台的相关应用要基于平台安全能力对行业应用进行安全管控，包括应用接入、服务开放、分权分域、敏感数据保护等安全管理。

(五)安全管理层

针对基础安全、数据安全的各个功能进行统一管理，提供统一的管理界及接口，打通从用户账户、用户认证、授权、审计、数据脱敏、数据过滤等全流程的安全配置及管理，并且覆盖和打通所有主流组件，提供监控功能。

1.一体化融合5A框架

数据只有通过流通、共享才能产生价值，使得大数据系统访问控制形式多样，需要在系统的可用性和安全性间找到平衡，为简化控制策略和部署，本文将Account、Authentication、Authorization、Audit、Administration进行一体化融合，构建5A安全架构。

Account(账号)：解决开源用户统管理问题，一个账号只能唯一对应一个用户，所有信息存储在LDAP中，在数据访问控制阶段可对用户身份进行鉴别，在安全审计阶段可以追溯到具体用户。同时，支持对用户分组及分段管理，解决开源用户在不同组件间相互割裂、不一致的问题。

Authentication (认证)：大数据平台对用户进行身份鉴别，然后才可访问大数据平台上的数据。可根据企业安全要求采用三种不同等级的认证方式：(1)kerberos认证，用户访问大数据平台的服务需通过统kerberos认证，如果认证失败则无法访问大数据服务。(2)白名单控制:对于服务端集群内部各主从节点之间的认证以及外部agent与大数据平台的交互，通过IP白名单方式来控制访问，这种认证方式轻量、高效、部署简单、扩容缩容方便，适用于内部信任网络的认证。(3)LDAP认证，携带用户名及密码方式，在访问过程中进行认证。

Authorization(授权)：管理员通过操作统一授权的控制台，可以配置策略来控制用户访问权限，实现针对不同用户进行资源、操作的细粒度授权，并提供对外服务接口。

Audit(审计)：大数据平台完整地记录用户管理、权限管理、用户登陆、数据访问/修改等行为日志，作为数据管理，数据溯源以及攻击检测的重要措施不可或缺，大数据平台需实现对 HDFS、Hive、HBase、Yarn、SparkSQL、Kafka等服务组件的审计及日志功能。

Administration(管理)，对开源大数据组件提供包括统一账户管理、统认证管理、统授权管理、统一审计管理及数据脱敏、数据过滤等统安全管理能力，管理能力包括:功能的安装、部署、启停、监控、配置等，提供配置管理界面及对外访问接口，以解决难以进行统部署和管理等问题和缺陷。

2.大数据脱敏架构

数据的挖掘和共享为大数据平台能够实现数据价变现和业务创新，因此开放共享是大数据平台的基本能力，在复杂的应用环境下，会有各种不同角色参与，如何保证企业机密数据以及用户个人隐私数据等敏感数据不发生外泄，是数据安全的首要需求。本文采用种大数据脱敏全新技术架构，摒弃外置脱敏服务器方案，直接在数据库底层脱敏，数据直接由服务器返回客户端。通过在大数据数据库执行引擎中内置数据保护装置，在不改变用户请求逻辑及数据原始值的前提下，利用大数据数据库引擎自身的分布式处理能力，实现高性能数据脱敏功能，可以高效、实时地保护大数据隐私数据。同时，对应用程序及用户使用完全透明，用户可以完全不感知数据保护过程，实现无缝透明地保护敏感数据。

四、小结和展望

日渐成熟大数据技术为企业的数字化转型提供巨大动力，催生了很多创新业务，带来了便利也增加了企业的收益，但安全是发展的前提和保障，没有安全一切都是空谈。通过本文一体化5A融合架构、大数据脱敏架构等大大的缓解了大数据当前面临的安全问题。但我们也认识到，安全永远都是相对的，只有持续地通过制定大数据安全技术和测评标准，构建大数据安全评估评估体系，从平台防护、数据保护、隐私保护等方面着手，才能切实促进大数据安全保障能力的全面提升。