APP下载

一种面向隐私保护的电力大数据脱敏方案及应用研究

2018-06-29冉冉李峰王欣柳杨立春丁红发

网络空间安全 2018年1期
关键词:电力大数据隐私保护

冉冉 李峰 王欣柳 杨立春 丁红发

摘 要:数据脱敏是政府、金融、电力等行业数据去除隐私敏感信息,进行大规模系统测试、数据开放共享、数据流通的核心技术,对激活大数据价值有重要意义。论文分析数据脱敏技术的原理和评价标准,并针对电力大数据领域提出了一种面向隐私保护的系统化数据脱敏方案,在辽宁电网针对GIS、财务、PMS等包含个人隐私敏感信息的数据进行流程化应用。经分析,方案具备良好的脱敏效果、算法可组合性强、扩展性强,能够为不同行业数据脱敏提供借鉴。

关键词:数据脱敏; 隐私保护; 电力大数据; 隐私信息

中图分类号:TP309.1 文献标识码:A

A method of data desensitization for privacy protection in electric power industry and its application

Abstract: Data desensitization is used for removing personal privacy data in many fields, such as government, finance and electric power. Its one of the important privacy protect technologies to process the original sensitive data for large-scale system testing, data opening and sharing, and data circulation. And it is very significant for activating the values of big data. In this paper, some technologies of data desensitization and the evaluation criterions are analyzed, and a systematized data desensitization method for privacy protection is suggested for the electric power bigdata. And then this method is applied in GIS, finance and PMS during State Grid Liaoning Electric Power Supply Co., LTD. Some delicate analysis implies that this method is very productive for data delicate, the composability of the algorithms and the expansibility of our method are very strong. This method provides a useful benchmark of data desensitization for the other fields.

Key words: data desensitization; privacy protection; electric power bigdata; privacy information

1 引言

随着大数据技术的爆发式增长,海量的数据积累和应用的纵深扩展使得数据的价值进一步凸显,并成为国家基础性战略资源。政府、学术界及产业界围绕数据价值挖掘做了大量深入的工作,特别认为数据开放、共享、交易将成为引爆数据价值的关键。国家“十三五”纲要[1]明确提出:“实施国家大数据战略,推进数据资源开放共享。”为大數据价值发现和利用创造了新的契机,也为科技创新、服务民生创造了新的平台。然而,数据开放共享程度越高,数据汇聚程度越广,数据价值挖掘深度越深,数据应用范围越广,其面临的安全与隐私风险就越高,引发的安全与隐私问题影响面就越广[2,3]。

在我国,政府、企业掌握着全社会90%以上的数据资源,特别是掌握国家经济命脉的能源、电信、金融大型企业因业务复杂且客户面覆盖整个社会,拥有海量的机密和敏感数据,如企业战略、财务、重大决策、分析报告等业务敏感数据以及用户姓名、身份证号、住址、账号等用户隐私数据。在电力行业,电网公司除了拥有大量涉及国家安全、企业核心商业利益的机密数据,还拥有电力设备名称、位置、客户个人信息等敏感数据,特别是随着智能电网的发展,敏感数据的保护需求更加突出,如果这些数据被泄露、损坏,不仅会给电力行业带来经济上的损失,而且会给电力管理部门的声誉带来负面影响。如何在数据交换、共享及使用等过程中实现对敏感数据的定向、精准和彻底脱敏,达到数据安全、可信、受控使用的目标,是电力大数据产生者和管理者亟待解决的技术问题。

近几年,一些研究人员和行业技术人员开始探索以敏感信息保护为驱动的数据脱敏方法和技术方案。一些安全企业较早地关注了银行数据的脱敏需求[4],随后研究人员从多方角度对银行数据敏进行了探索性研究[5-7],2016年人民银行在扬州农商行进行了数据脱敏试点,取得了较好的隐私保护效果[8]。在GIS地理信息数据[9,10]、公积金数据[11]、云环境存储数据[12]、电信运营商[13]等领域,也先后有研究人员进行了脱敏应用研究。在电力大数据领域,内蒙古电网在其电力数据库安全防护项目中有所涉及,但还尚未有完善的电力数据脱敏防护方案和应用。

本文针对电力大数据的敏感数据防护需求,对电网行业中涉及机密及用户隐私信息的敏感数据进行梳理,提出一种面向隐私保护的电力大数据脱敏方案,并以国家电网辽宁省电力有限公司的具体项目实施为案例进行应用。该方案针对电网敏感数据防护需求,富有针对性,有较强的可实施性。

2数据脱敏安全防护技术

2.1 数据脱敏技术

数据脱敏是指根据设定的数据脱敏策略,对业务数据中存在的敏感信息实施变形,以实现对数据中的敏感信息的进行隐藏。数据脱敏的内涵[12]是:借助数据脱敏技术,屏蔽数据中敏感信息,达到被屏蔽的数据还保留其原始数据格式和属性的要求,以确保应用程序在对脱敏数据的开发与测试过程中正常运行。

数据脱敏技术主要包含去除标识信息几个方面。

去除标识信息[14]:从数据中去除能够识别个体的明显标识变量,如个体的姓名、地址等。即使原始隐私数据去除了标识符,其仍有高可能识别其中的个体,被处理过的数据仍然存在个体层面的信息,潜在的标识信息仍然存在于被去除表示信息的数据中。

假名替换[14,15]:用人工标识符或者假名替换数据库中的标识性字段,如用引用性编码或假名替代姓名等标识符。应用编造假名可以在保持数据原始可用性的同时降低数据中个体的可标识性,有利于数据共享。若关联其他仍包含个人标识隐私信息的数据,通过假名替换处理过的数据仍存在一定程度泄露隐私的风险。

降低数据精度[14]:降低数据集中个人标识数值的精度,如出生日期或年龄用年龄区间代替,工资值用工资区间代替。应当注意的是,若区间设置不合理,则存在通过小区间和统计分析方法识别个体,造成隐私泄露。进而,可通过用随机值或者添加随机噪音的方法降低数据精度,同时保持数据的统计特征。

数据聚合[14]:将原始数据中的个人信息数据聚合起来提供群组信息或总体信息。个人信息的群组分组越大、含有个人特定信息越少的数据,群组中的个体被识别出的可能性就越小。

匿名技术[16]:对数据集用加密或者剔除个人标识信息的方法使得数据集中的个人保持匿名。常用的匿名技术有k-匿名算法、l-多样性匿名算法等。

差分隐私[17,18]:设有随机算法M,PM为M所有可能的设计出构成的集合。对于任意两个邻近数据集D和D以及PM的任何子集SM,若算法M满足Pr[M(D)∈SM]≤exp(ε)×Pr[M(D) ∈SM],则称算法M提供ε-差分隐私保护,其中ε成为隐私保护预算。差分隐私算法能够为隐私保护提供理论化的数学模型,可以将隐私泄露风险降低到可控范围内,被认为是最具有应用前景的数据脱敏保护方法。

2.2 数据脱敏技术评估标准

数据脱敏的难点在于保持数据的完整性。以屏蔽非生产环境数据中敏感数据为基础,实现对生产数据进行抽取变形处理,保证变形后的数据保持原生产数据属性和数据间的依赖关系,确保数据能够真实反映生产数据和生产环境的运行情况。针对测试需求及数据分析等大数据量的数据调用工作,需要具有针对性,能够批量、自动化和智能化的工具,稳定、高效地完成数据脱敏工作。

对数据脱敏技术进行评估,主要可以从敏感信息去除程度、数据缺损、计算开销、通信开销等方面考虑。

2.2.1 敏感信息去除程度

敏感信息的去除程度是相對于原始数据而言的,例如对客户身份证号后四位进行随机替换(371325199209026156脱敏后为371325199209022516),则脱敏后仍然保留了具有敏感信息的地区和生日信息,如果进行全部位进行替换(371325199209026156脱敏后为500601199705023416),则敏感信息全部去除。

2.2.2 数据缺损

数据缺损是对脱敏后数据质量的度量,经过数据脱敏操作后数据的信息丢失来反映。信息丢失越多,数据缺损越高,数据利用率越低。例如对身份证号中间生日段用*替换(371325199209026156脱敏后为502502********6156),则数据缺损较高。

2.2.3 计算开销

计算的开销主要是通过时间和空间复杂度评估,与硬件和软件环境有关。一般来数计算开销越小越好,加解密算法对计算开销消耗大,数据失真/干扰技术对于计算开销小。

2.2.4 通信开销

通信开销主要通过交互信息量和轮数评估,一般来说在保障通信安全的情况下,通信开销越小越好。如表1 脱敏算法对比分析。

传统加密技术由对称、非对称和散列算法构成,具有极高的安全强度,能够保证数据在传输过程中的机密性和完整性。但是,由于数据在使用时必须完全解密,对最终用户而言,敏感数据依然是明文,因而无法同时满足敏感数据安全性和可用性的需求。通过三种数据脱敏技术的对比分析,基于数据失真/扰乱的数据脱敏技术,性能效率比较高,却存在一定程度的数据缺损和信息丢失;基于加密的技术则能保证数据的准确性和安全性,但计算开销比较大;数据匿名化技术能保证数据一定的真实性,但会有信息丢失。

综上所述,这些手段均有各自的优点和适应领域,但它们用于敏感数据防护方面仍有欠缺,无法在不妨碍已有的数据处理、操作及分析过程的同时,实现对敏感数据的针对性保护。

3 电力大数据环境下敏感数据保护方案

3.1 电力敏感数据管理现状

随着电力业务的快速发展,特别是智能电网的深入推进,电力行业积累了大量包含敏感信息的数据,在业务分析、开发测试、审计监管等使用过程中如何保障生产数据安全已经成为一个重要的问题。

加强数据、文档的安全管理,逐步建立信息资产分类分级保护机制,完善敏感信息存储和传输等高风险环节的控制措施,对数据、文档的访问应建立严格的审批机制,对用于测试的生产数据要进行脱敏处理,严格防止敏感数据泄露。除了拥有数据的企业要遵守道德准则以及持续进行安全和保密技术的更新升级外,工信部等相关部门已经牵头着手起草相关的法律法规。

但目前为止,在电力系统尚缺乏系统性的敏感数据保障与管理方案,仅在少数机构[24]的系统安全解方案中以模块化的形式部署了数据脱敏功能。为了能够有效保障敏感数据安全与隐私安全,需要针对电力系统的人力资源、财务、PMIS系统等业务敏感数据进行系统化管理和部署,确保其安全、可靠,避免敏感隐私数据泄露。这样的系统需要满足几个目标。

(1)需达到电监会、公安、审计等安全审计部门的要求。

(2)有效屏蔽敏感数据,能够对测试、开放数据进行漂白。

(3)能够对敏感、隐私数据进行有效监管。

同时,这样的系统需要具备专业化的数据脱敏工具,配合专业化的管理手段,进行可视化的非生产环境,测试数据脱敏管理,实现图形化、界面化、自动化的数据脱敏运维管理,实现电力行业各业务系统的隐私数据安全生命周期管理,全面提高敏感数据的脱敏自动化程度。

3.2 总体逻辑架构

本方案采用三层架构,基于BS的管理模式,针对测试数据管理和敏感数据屏蔽提供统一的元数据管理,从而方便元数据的安装、使用、备份和维护,工具具备高可扩展的架构,可支持多个数据库的数据抽取和数据脱敏。如图1所示,大数据环境下敏感数据保护总体逻辑架构从低至上分别为数据存储层、数据服务引擎层、业务引擎层、流程管理层、逻辑界面层和物理界面层。

系统架构采用分层模式,各层分离设计,确保数据处理过程中的性能和容量可按需扩展,实现集群化处理,适应海量化隐私敏感数据的脱敏需求,为企业构建一个统一的数据脱敏管理平台,支持各种业务和数据库的脱敏服务。同时,通过协议优化,以提高数据处理速度。

在各层设计中,数据存储层主要面向元数据库和文件内容管理,可以对各个业务系统的数据进行分离式的对接;数据服务引擎层包括数据存取控制、数据格式转换、数据缓存、适配器控制,针对数据进行预处理,对数据脱敏进行加速;业务引擎层包括元数据控制、日志控制、归档处理引擎、脱敏处理引擎等,是整个脱敏系统的核心,负责对隐私敏感数据进行脱敏处理,脱敏规则可以进行插件化管理、应用,可根据实际脱敏需求进行更新;流程管理层主要包括归档模型定义、归档规则定义、归档模型列表、归档模型树,对脱敏后的数据进行按需归档;逻辑界面层包括动态界面生成、请求处理、个性化服务,是系统的用户接口,为用户提供便捷的使用接口。

3.3 方案设计的技术保障架构

本方案采用独特的元数据驱动法使用户能够快速创建小容量子集,由此提高数据库管理人员的工作效率。如图2所示,系统可以为不同的目标创建不同大小的测试数据子集,不但加快了速度,提高了效率,而且减少了存储空间,节省了大量的存储成本。

数据脱敏用于保护敏感性专有数据,是将数据屏蔽脱密为无法识别但具有高度仿真的数据来实现数据保护。本方案从实际生产系统和备份数据库中直接抽取原始数据,通过统一接口进行数据读取,然后通过平台核心模块对抽取数据按照脱敏需求进行子集抽取,对目标子集数据进行脱敏处理,并将脱敏后的数据按照实际业务需求归档,最后分发到目标系统中,如测试、开放、共享和交易,具体流程如图3所示。本方案如图4所示,综合了移动、代替、屏蔽、归零、加解密及自定义脱敏算法等多项数据脱敏技术和算法,能够保持业务关联关系,在数据识别、抽取、脱敏过程中不破坏数据的业务关联,不同數据库中相同数据通过归档,保证脱敏后一致且跨库关联性不破坏。该方案还适用于常见敏感字段的专用内置内容和规则,例如名称、地址、社会保险号码、信用卡号以及电话号码。

3.4 电力数据脱敏应用及流程

数据脱敏的核心任务是将生产数据中的敏感数据进行脱敏,通过数据脱敏系统,经过标准化的数据建模以及自动化流程,可以将数据安全、方便、标准地将测试数据进行脱敏。

本方案以辽宁电网为案例进行具体应用实施,采用图5所示数据脱敏流程。在辽宁电网中主要针对GIS、财务管控、PMS三个业务系统数据进行脱敏处理,脱敏后的数据主要应用在测试系统中,防止在大规模测试过程中泄露个人隐私。同时,脱敏后的数据为下一步电力大数据开放、共享、流通打下一定基础。

第一步:针对GIS、财务管控、PMS三个业务系统需要脱敏的业务数据进行业务需求的梳理,确认需要脱敏的数据对象。

第二步:针对GIS、财务管控、PMS三个业务系统需要脱敏的业务数据进行业数据模型的梳理,包括业务对象、基本表、表列、表大小、索引状况、分区状况等相关信息。

第三步:针对GIS、财务管控、PMS三个业务系统需要脱敏的业务系统业务对象的关联关系以及脱敏准则进行梳理,包括主外键信息、父子关系信息、跨系统关联信息、脱敏规则等。

第四步:评估生产系统接口脱敏用户的所需权限,创建相关资源,并在数据脱敏系统中进行连接配置,确保测试数据源的可用性。

第五步:通过人工配置脱敏规则与流程细节,人工配置需要针对用户权限信息、系统属性信息、系统连接信息、脱敏表、表关系、表列、脱敏函数分级、脱敏函数配置、脱敏函数规则指定、脱敏流程控制等相关信息进行配置。如果无需配置自动导入,可略过第六步。

第六步:数据脱敏系统预留了跟元数据管理系统的接口,并且可以依据具体接口信息进行修改,实现敏感配置信息的导入。

第七步:脱敏操作执行,包括通过手工触发配置执行、设定时间调度执行、基于命令行通过操作系统级别的计划任务执行等,实现数据抽取并脱敏至相应的测试环境。在执行过程中,可以根据执行状况、错误信息等动态修改、展示、继续执行相关脱敏任务。

第八步:配置审计报告,根据各业务系统的审计内容与需求,对指定用户、指定时间段、指定应用系统进行相关操作的审计报表,同时支持自定制报告以及审计报告的下载等。

4 方案分析

智能电网的发展使得电网行业中的业务系统越来越复杂且有云化趋势,产生并积累的包含敏感信息的数据呈现海量化,对敏感信息的管理和维护带来巨大挑战,需要有系统性的面向数据全生命周期的敏感数据管理平台,对敏感信息进行脱敏管理。本方案的提出,有效满足了大数据时代电力数据的脱敏管理需求,而且具备多方面的优势特征。

脱敏服务便捷高效。本方案支持完全的不落地脱敏,不需要对现有系统进行改造和升级;具备多种分发能力,支持库到库、库到文件、文件到文件、文件到库的数据分发,不需在生产系统和本地安装任何客户端程序或插件即可进行敏感的管理和脱敏。

满足复杂的数据脱敏要求。本方案内置众多通用脱敏函数,支持各类脱敏算法,能有有效进行各类脱敏算法的模块化组合;同时支持脱敏函数二次开发,进行自定义的数据脱敏功能开发,进而满足复杂的数据脱敏要求;支持键值脱密,保证主外键逻辑关系,保持数据关联关系,进而保持数据的引用完整性。

具备良好的开放性和兼容性。支持同系统、跨系统的业务关联定制、支持各种主流数据类型和主流操作系统。

具备高性能和大数据处理能力。本方案可以部署在云化的集群系统中,具有较好的可扩展性,能够进行分布式数据脱敏,支持导入元数据,自动配置关联模型,能够进行大规模数据的脱敏处理。

方便安全管理。本方案支持快速开发和部署,能够迅速提供脱敏数据,方便数据测试、开放、共享和交易,方便数据版本控制。

5 结束语

本文提出一种面向隐私保护的电力大数据脱敏方案,并应用于辽宁电网。该方案支持支持业务对象的自动识别与灵活配置,单个业务对象同时支持多种结构化数据,能够确保数据属性的完整性,保持业务关联关系,具有可扩展统一架构,适用于云服务平台。能够保障用户间的透明,实现一个平台上的多数据源与目标对接的敏感数据脱敏服务。本方案可为电力行业客户隐私数据保护提供良好的借鉴,有利于减少数据泄露风险、降低数据访问和数据应用安全风险。

基金项目:

贵州省科技基金计划项目(黔科合基础[2016]1023, 黔科合基础[2017]1045); 贵州省教育厅青年科技人才成长项目(黔教合KY字[2016]169); 贵州省哲学社会科学规划课题(项目编号:16GZQN06); 贵州省教育厅高校人文社会科学研究项目(项目编号:2015DXS03)

参考文献

[1] 中华人民共和国人民代表大会,中华人民共和国政治协商会议.中华人民共和国国民经济和社会发展第十三个五年(2016-2020年)规划纲要, 2016年3月17日.

[2] 孟小峰,林东岱. 数据开放与隐私管理专题前言[J]. 软件学报,2016,08:1889-1890.

[3] 翁列恩,李幼芸. 政务大数据的开放与共享:条件、障碍与基本准则研究[J]. 经济社会体制比较,2016,02:113-122.

[4] 桂温. 数据脱敏:保障银行数据安全的重要手段[J]. 中国金融电脑, 2012(12):72.

[5] 郭嘉凯. 数据脱敏:敏感数据的安全卫士[J]. 软件和信息服务, 2014(02):66-67.

[6] 周期律, 郭丽雯. 测试数据脱敏综合评价体系的研究与探讨[J]. 中国金融电脑, 2014(07):55-58.

[7] 周期律, 焦伟, 周晓聪. 银行测试数据的可复用管理研究[J]. 中国金融电脑, 2015(10):32-41.

[8] 任小抒, 李福盛, 曾嵩, 等. 银行卡信息安全管理的利器:数据脱敏技术[J]. 中国信用卡, 2016(09):52-54.

[9] 聂时贵, 刘玫, 王会娜. 基于ArcGIS的江苏省地理信息公共服务平台数据脱密方法[J]. 现代测绘, 2012(06):42-44.

[10] 李安波, 吴雪荣, 解宪丽, 等. 精度可控的矢量地理数据脱密方法[J]. 中国矿业大学学报, 2016(05):1050-1057.

[11] 潘明. 数据脱敏在公积金系统中的运用[J]. 信息技术与信息化, 2015(06):150-151.

[12] 刘明辉, 张尼, 张云勇, 等. 云环境下的敏感数据保护技术研究[J]. 电信科学, 2014(11):2-8.

[13] 乔宏明, 梁奂. 运营商面向大数据应用的数据脱敏方法探讨[J]. 移动通信, 2015(13):17-20.

[14] Privacy Committee of South Australia. Privacy and Open Data Guideline[R]. Government of South Australia.

[15] Encryption.chat. Pseudonymised Data[OL]. https://www.pseudonymised.com/, 2016-12-21.

[16] Wikipedia. Data anonymization[OL]. https://en.wikipedia.org/wiki/Data_anonymization, 2016-12-25.

[17] 熊平,朱天清,王晓峰. 差分隐私保护及其应用[J]. 计算机学报,2014,(01):101-122.

[18] Dwork, C. Differential Privacy[C]. Proceedings of the 33rd International Colloquium on Automata, Languages and Programming (ICALP) (2), 2006, 1–12.

[19] Aggarwal C C, Yu P S. A Condensation Approach to Privacy Preserving Data Mining[C]// Advances in Database Technology - EDBT 2004, International Conference on Extending Database Technology, Heraklion, Crete, Greece, March 14-18, 2004, Proceedings. 2004:183-199.

[20] Du W, Zhan Z. ABSTRACT Using Randomized Response Techniques for Privacy-Preserving Data Mining[C]// ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, Washington, Dc, Usa, August. 2003:505-510.

[21] Clifton C, Kantarcioglu M, Vaidya J, et al. Tools for privacy preserving distributed data mining[J]. Acm Sigkdd Explorations Newsletter, 2002, 4(2):28-34.

[22] 楊晓春, 刘向宇, 王斌,等. 支持多约束的K-匿名化方法[J]. 软件学报, 2006, 17(5):1222-1231.

[23] Sweeney L. Achieving k-anonymity privacy protection using generalization and suppression[J]. International Journal of Uncertainty Fuzziness and Knowledge-Based Systems, 2012, 10(5):571-588.

[24] 李宗涛. 内蒙古电力信息系统数据库安全防护项目实施并通过功能验收[J]. 内蒙古电力技术, 2014(02):100.

猜你喜欢

电力大数据隐私保护
分布式技术在电力大数据高性能处理中的应用
电力大数据应用研究与展望
基于云计算技术的电力大数据预处理属性约简方法
基于层次和节点功率控制的源位置隐私保护策略研究
关联规则隐藏算法综述
大数据环境下用户信息隐私泄露成因分析和保护对策
大数据安全与隐私保护的必要性及措施
社交网络中的隐私关注及隐私保护研究综述
大数据时代的隐私保护关键技术研究
电力大数据质量评价模型及动态探查技术研究