APP下载

数据库脱敏技术研究与应用

2020-03-16裴成飞杨高明方贤进梁兴柱

裴成飞 杨高明 方贤进 梁兴柱

摘 要:对系统脱敏方法进行改进,新增了差分隐私、随机响应、保留格式加密等方法,为用户提供了更多的脱敏选择.实际测试结果表明,系统展示出更强的隐私保护能力.改进的数据库脱敏系统已经应用在众多公司和政府机关,用户评价良好.

关键词:数据库安全;数据脱敏;差分隐私

[中图分类号]TP-391   [文献标志码]A

Abstract:We have improved the system's desensitization method, and added differential privacy, random response, and retained format encryption. The goal is to provide users with more desensitization options. The actual test results show that our system has stronger privacy protection capabilities. The improved database desensitization system has been applied in many companies and government agencies, and users have evaluated our system well.

Key words:database security; data desensitization; differential privacy

数字化导致大量数字内容呈指数级增长,这些数据的共享可以为大数据挖掘和应用带来可观的经济利益和社会效益,而与此伴随的是用户隐私泄露问题.[1]数据隐私领域的研究表明,数据库入侵的安全问题大部分来自内部威胁,内部安全漏洞的成本几乎是外部安全漏洞的一半.2018年Verizon发布的网络安全报告显示[2],在世界范围内,医疗行业是唯一内部威胁高于外部威胁的行业,内部从业人员对医疗数据的泄露达到了惊人的程度,有必要在保证数据效用的前提下保护个人隐私信息不被泄露.

由于大部分组织依赖数据库系统,这也意味着当数据库出现安全问题时,破坏的不仅仅是单个用户或程序,也会对整个公司造成严重的后果,且由于Web应用程序和信息系统的快速增长,以及云计算和外包数据管理等的发展趋势进一步增加了数据库系统的风险,使数据库不仅面临外部攻击的威胁,也面临内部攻击的威胁.数据库安全的三种属性是:机密性、完整性和可用性.机密性是指保护数据免于未经授权的披露,从而保护个人隐私;完整性是指存在数据库中的所有数据值均处于正确状态,为了保护数据库免遭恶意的破坏和非法存取,针对不符合语义规定的数据以及因错误输入输出导致的无效操作和错误信息保护措施;可用性是指防止硬件和软件错误以及恶意数据访问致使数据库系统不可用.

数据库所面临的主要威胁是隐私数据泄露:一是授权与非授权用户恶意破坏和非法存取.数据库存在多种特权滥用方式,使用者可滥用特权作未经授权的用途,主要分为三种表现形式[3]:过度的特权滥用、合法特权滥用和未使用的特权的特权滥用.根据第三方机构统计,对公司数据库攻击的80%都是内部人员,而外部攻击引发的数据泄密不到20%,授予过多的特权或是不及时撤销这些特权会使他们过于简单的执行一些错误行为,如果恶意用户滥用数据库访问特权,则可以将其视为数据库漏洞.二是SQL注入.SQL注入攻击的主要威胁是盗取网站的敏感信息,绕过认证,比如绕过登陆验证进入网站后台,另外,SQL注入还可以借助数据库的存储过程进行提权操作等.作为黑客对数据库最常用的攻击手段之一,SQL注入的具体实现是在页面请求的查询字符串或Web表单提交中插入SQL命令,然后在后台SQL服务器上解析进行攻击.三是审计线索不足.数据库审计系统是数据库安全的重要组成部分,需要确保自动并及时准确的记录数据库事务,以便日后进行查询、分析、过滤,实现监控和审计目标数据库系统的用户操作,但是这样传统的审计系统只能作为数据泄露事件的事后审计措施,无法有效的进行事前控制与事中监控,等追查到责任人时,损失已经造成.四是认证不足.弱身份验证策略使数据库更容易受到攻击者的攻击,数据库用户的身份被盗或登录凭证通过某些来源获得,有助于攻击者修改或获取敏感信息.五是数据库漏洞和错误配置.最常见的情况是发现易受攻击的未打补丁数据库,或是发现仍然具有默认账号和配置参数的数据库,攻击者经常利用这些漏洞攻击数据库.遗憾的是,即便是有補丁,组织也难以掌握数据库的配置.典型问题包括高工作负载和数据库管理员的积压备份,导致测试补丁复杂、耗时且查找维护困难,经常需要花几个月修补数据库,而在此期间数据库仍然容易受到攻击.六是拒绝服务.DoS(Denial Of Service)攻击目的是使计算机或网络无法提供正常的服务,最常见的DoS攻击有计算机网络带宽攻击和连通性攻击.带宽攻击指以极大的通信量冲击网络,连通性攻击指用大量的链接请求冲击计算机,使得所有可用网络资源被消耗殆尽,最终都会导致计算机无法再处理合法用户的请求.七是敏感属性未加密.数据库中有着许多敏感信息,例如姓名、身份证号、地址等,但是这些数据同时具有极大的挖掘价值,而数据库存储数据或是备份数据时通常是未加密的,当这些敏感数据泄露、丢失或是用于挖掘分析时,难以保证用户的隐私信息不被泄露.

本文分析数据库安全的脱敏方法,提出改进的数据库脱敏系统.改进的数据库脱敏系统已经应用在众多公司和政府机关,用户评价良好.

1 传统数据库脱敏技术

数据库脱敏主要对原数据中的敏感数据按照脱敏规则,如替换、删除、屏蔽、加密,对数据库中包含个人隐私敏感数据进行保护,在保护数据隐私的同时也保持数据的可用性,让脱敏后的数据可以用于开发测试、数据交换、数据分析、数据共享等场景[4-5],而如何去度量数据的隐私性与效用是数据脱敏重点研究方向之一.数据脱敏的主要过程为:请求者向数据库发出查询请求,数据库根据查询请求对数据操作,将扰动后的结果反馈给数据分析者,数据分析者不能看到数据集的全貌,从而保证隐私.

替换技术[6]:随机选择原数据阈值范围内的任意值替换数据库中的原始数据,其优点是替换之后的数据和原数据具有相同分布,缺点是替换之后数据和原数据属性之间可能会失去关联性.替换技术针对数字和日期类型数据的脱敏,能够在特定的范围内改变原数据,使得数字和日期能够在设定的百分比范围内浮动,例如数字值增加3%,日期减少5天等.

屏蔽技术[6]:在实际生活中使用较多,将敏感数据的一部分采用*等特定的字符替换,例如电话号码、身份证号、地址等.类似的还有删除技术,对于数据库中的敏感数据直接采取删除操作,并用NULL字段替代.

传统的脱敏技术较为简单,只能够应对一些较为简单的场景,而面对复杂的海量数据以及各种层出不穷不断进化的攻击手段,这些方法已经不足以应对时代的改变,为此,笔者在保留简单脱敏的基础上,引入最新的隐私保护研究成果[7],以加强客户数据的隐私保护.

2 差分隐私

差分隐私(differential privacy)是Dwork提出的统计数据隐私保护框架.[8]差分隐私不对攻击者的背景知识做任何假设,除了某一条记录,攻击者知晓原数据中的所有信息,即便是在这种情况下,差分隐私依然能够有效保护隐私信息,并且不需要随着新型攻击的出现去不断修改模型.差分隐私拥有严谨的统计学模型,有利于数学工具的使用以及定量分析和证明.差分隐私基本框架见图1.

4 保留格式加密

随机响应实现差分隐私主要是通过对数据加噪实现数据脱敏,而加密技术也是数据库敏感数据脱敏常用的一种方式.加密技术使得密钥算法加密后的数据具有可逆性,同时需要考虑算法效率.传统数据脱敏方法大多数是对数据进行不可逆加密,例如使用AES算法对name字段进行加密,这可以屏蔽名称并区分不同的个体,但是得到的结果是一个二进制字符串,丢失了原有的数据格式,因此,既不能保存回数据库,也不能将其标识为有效信息.一些金融公司选择匿名化个人信息保护个人隐私,例如使用固定名称代替所有名称,使得匿名数据失去了原有个人特征,且匿名数据无法恢复到原始数据,失去挖掘价值.

保留格式加密方法(Format-Preserving Encryption,简称FPE)[12]能够在不破坏完整性的情况下加密敏感信息,通过克隆原始数据进行掩码转换,输出格式与原数据相同的数据.相对于其他加密方法,FPE既解决了敏感数据用于开发测试的可用性,又保证了敏感数据的安全性,并且FPE可以在不改变数据格式的情况下保护传输过程中的数据,从而提高网络的安全性.

使用FPE时需要保证密文满足数据对于数据格式的约束,主要包括以下4个方面:数据不能被扩充,例如当加密N位的数字时,必须输出另外一个N位的数字;数据类型不能被改变;数据必须能被正确性地加密,对于数据库中作为主键或者索引字段地数据,被加密后将保留其所在地列作为主键或者索引的特性;加、解密过程可逆.

从表2可以看出,屏蔽、遮盖等方法用*号替换掉了原有的数据,虽然可以达到保护数据隐私的目的,但是会使得数据失去可用性,无法用于数据挖掘分析.传统的加密技术会改变原始数据类型以及长度,而数据库存储数据的格式和长度通常都是固定的,导致加密后的数据由于结构变化无法存回数据库或被使用.

5 总结

数据库脱敏系统在保护敏感数据方面有着十分丰富强大的功能,系统支持在WEB端进行脱敏源管理,并建立脱敏转换过程,监控脱敏状态,对敏感数据类别分析,对于不同的数据源,包括数据库、文本文件、DMP文件、数据仓库等,都能够做到敏感数据自动发现,并根据需求选择动态脱敏或者静态脱敏,自定义脱敏规则等.脱敏后的数据依然保持数据的一致性和业务性的关联性,实现数据隐私可靠保护的同时,也可以应用于开发测试、数据交换、数据分析、数据共享等场景.

本文根据已有系统数据脱敏强度不够、隐私保护效果欠佳等缺点,针对系统脱敏方法进行改进,新增差分隐私、随机响应、保留格式加密等方法,为用户提供了更多的脱敏选择,并且在实际测试时展示出更强的隐私保护能力.数据的隐私性与有效性多年来一直是大家所关注研究的一个重要方向,接下来我们将继续开发用于数据库脱敏的更有效的方法(包括数据库访问控制系统、审计系统等),提出新的方案,对数据库实现更加安全有效的保护.

参考文献

[1]李亚薇,周建鹏.大数据背景下隐私伦理问题研究[J].牡丹江师范学院学报:哲学社会科学版,2018(4):23-27.

[2]MATHEWS A.What can machine learning do for information security?[J].Network Security,2019,2019(4):15-17.

[3]KHANUJA H K,ADANE D S.Database security threats and challenges in database forensic:a survey[C].International Conference on Advancements in Information Technology,With workshop of ICBMG 2011,Singapore,2011:171-175.

[4]ESPOSITOA C,FICCOB M,PALMIERIB F,et al.A knowledge-based platform for big data analytics based on publish/subscribe services and stream processing[J].Knowledge-Based System,2015,79:3-17.

[5]陳小芳,葛晓滨,马冠骏.基于数据挖掘的网络购物用户行为分析[J].牡丹江师范学院学报:自然科学版,2016(1):32-35.

[6]SARADA G,ABITHA N,MANIKANDAN G,et al.A few new approaches for data masking[C].IEEE International Conference on Circuit,Power and Computing Technologies,2015:1-4.

[7]杨高明,朱海明,方贤进,等.局部差分隐私约束的关联属性不变后随机响应扰动[J].电子学报,2019,47(5):1079-1085.

[8]ZHU Tianqing,LI Gang, ZHOU Wanlei,et al.Differentially private data publishing and analysis: a survey[J].IEEE Transactions on Knowledge and Data Engineering,2017,29(8):1619-1638.

[9]DWORK C.A firm foundation for private data analysis[J].Communications of the ACM,2011,54(1):86-95.

[10]HOLOHAN N,LEITH D J,MASON O.Optimal differentially private mechanisms for randomised response[J].IEEE Transactions on Information Forensics and Security,2017,12(11):2726-2735.

[11]WANG Yue,WU Xintao,HU Donghui.Using randomized response for differential privacy preserving data collection[C].In Proceedings of the Workshops of the EDBT/ICDT 2016 Joint Conference,EDBT/ICDT Workshops,2016.

[12]劉哲理,李经纬,贾春福.保留格式加密技术研究[[J].软件学报,2012,23(1):153-169.

[13]KIFER D,MACHANAVAJJHALA A.No free lunch in data privacy[C].In Proceedings of the 10th ACM SIGMOD International Conference on Management of Data,Athens,Greec,2011:193-204.