APP下载

大数据环境下隐私保护的研究现状分析

2016-11-02李超

电脑知识与技术 2016年18期
关键词:大数据

李超

摘 要:随着互联网技术的飞速发展,整个社会被推入“大数据”时代。大数据中蕴藏着巨大的价值,是企业的宝贵财富。但大数据同时也带来了极大的风险与挑战,隐私保护问题就是其中之一。人们在网络中留下的数据,可能会被恶意分子利用,造成意外的麻烦和经济损失。首先介绍了大数据的发展背景,讨论了大数据带来的隐私泄露的风险问题;然后分析了当前用于隐私保护的关键技术;最后提出了隐私保护技术的进一步研究方向。

关键词: 大数据; 大数据隐私; 隐私风险; 隐私泄露; 隐私保护技术

中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2016)18-0029-03

Analysis of the Research Status of Privacy Protection under the Environment of Big Data

LI Chao

(College of Information Science and Engineering, Shandong University of Science and Technology, Qingdao 266590, China)

Abstract:With the high-speed development of International technology, the whole society is pushed into the big data Era. Big data contains great value. Data become the most valuable wealth of enterprise, but big data also brings grand challenges. Personal privacy protection is one of the major challenges of big data. People leaving the network data, could be exploited by malicious elements and cause unexpected trouble and economic losses. Firstly, development background of big data is introduced, and risks caused by big data privacy leak are discussed. Secondly, analysis of the current key technologies for privacy protection. Finally, the further research direction of personal privacy protection is put forward.

Key words:big data; big data privacy; privacy risk; privacy leakage; privacy protection

1 引言

1998年图灵奖的获得者Jim Gray曾经断言,现在每18个月新增的数据量等于有史以来数据量之和。统计发现,每天有40亿以上的信息在脸书上被用户分享,Google搜索平均每分钟被使用1亿2千万次。除此之外,在IT、金融、教育、医疗、能源等各领域都在不断产生海量数据。大数据的产生使数据分析与应用更加复杂,难以管理。这些数据包括不同类型,例如:视频、图片、文档、微博等,其中仅有20%是结构化数据,80%是非结构化数据。数据的爆炸式增长使数据安全和隐私保护问题日渐突出,各类隐私泄露事件给企业和用户敲响了警钟。在数据的整个生命周期里,企业应当遵守更严格的安全标准和保密规定。网络和数字化生活的普及也使得黑客更容易获取他人信息,有了更多不易被追踪和防范的手段,然而现有的法律法规仍没有建立完善的管理体制,当前的技术手段也无法彻底解决此类问题。因此,在大数据环境中,数据安全和隐私保护是一个不容忽视的重要问题。

很多机构同样认识到大数据隐私问题,由于大数据的发展,隐私保护有了新的内涵,传统的隐私保护技术已经不能适应新的问题。我们要重新定义什么是大数据隐私,思考如何保护数据隐私。本文首先探讨了隐私保护的研究现状,重点分析了隐私保护的关键技术,经过归纳对隐私保护下一步的研究方向与重点工作进行了探讨。

2 数据隐私的风险

“最初我们民主制度的核心就是隐私,在大数据时代我们比以往任何时候更需要它”奥巴马曾经在消费者隐私条例发布会上这样说过。

互联网已经成为我们生活中必不可少的一部分,人们在网络中留下了大量的数据足迹。电商、电信或第三方企业可以通过浏览器、手机,甚至是信用卡轻松的跟踪记录用户的浏览历史、购物记录和行为偏好。许多信息都会在用户无意识的状态下被发送到第三方,前提仅仅是一台联网的智能终端。隐私泄露在大数据环境下变得防不胜防,淘宝、京东通过购物网站获得用户的采购记录,用户的搜索记录也会被Google、百度轻易获取,社交工具更是可以提取用户的联系人网络,服务商可以根据用户的这些信息定向的推送广告。

除了用户的行为信息在使用网络软件的时候被泄露,由于移动通信和传感器的飞速发展,用户的位置信息,甚至身份信息都将不再保密。通过智能手机可以快速定位用户的实时位置,宾馆、超市、小区等公共场所的摄像头也时刻记录着我们的出入行为。移动社交网络的一些新兴应用也都有通过手机获取用户位置的功能,并且可以发布任意时刻用户所处的位置信息[1]。

隐私泄露的威胁不仅限于暴露个人信息,更在于这些泄露的信息所带来的后果。大数据的一个重要功能就是分析和预测,这些泄露的信息同样可以用来预测用户的行为状态。例如,通过分析购物记录,电商可能比丈夫更了解妻子喜欢什么款式的衣服,可能比父母更早知道女儿已经怀孕。通过泄露的医疗信息,可以推断出用户的隐私病症,通过分析社交网络,可以分析用户的兴趣爱好,甚至通过对推特信息的挖掘,用户的消费习惯和政治倾向都将被披露[2]。所以用户数据的泄露不仅可能威胁个人的生活安全,甚至会影响社会稳定。

3 隐私保护关键技术分析

大数据隐私保护的中心就是隐私保护技术,技术是隐私保护最直接最有效的手段,然而相对来说,正是由于大数据的多样性和复杂性,隐私泄露的很多途径都不可预知,目前很难找到一种完全的技术来应对各种环境。

现有的隐私保护技术分为3类:基于数据失真的技术(集中于差分隐私保护)、基于数据加密的技术和基于限制发布的技术(集中于数据匿名化)。

3.1 数据匿名化技术

对数据和数据源进行隐藏或者模糊处理的技术就是匿名化技术,这种技术采用的是限制发布的方案。在大数据环境下,结构化数据发布时,其隐私保护的关键技术就是数据匿名化技术。该技术一般有多种方法对数据进行匿名化处理。

K-匿名[3]是一种比较经典的匿名化方法,这种技术是首先通过泛化的方法将所要发布的关系数据划分为多个等价类,重点是每个等价类都必须包含不少于K条相似数据,也就是说,在等价类中,任意一条数据都无法和其他K-1条数据区分。但是K匿名的缺陷也很明显,敏感属性是等价类中的重要因子,但K-匿名没有对此进行约束,所以当某个等价类的敏感属性取值相同的时候,这种技术便会失效。

L-diversity[4]匿名是一种对K-匿名的改进技术,L-diversity通过裁剪算法[5]和数据置换[6]等方法来对敏感数据出现的频率进行平均,这样就有效的改进了K-匿名的缺陷,L-diversity一般要求敏感属性的数据量不小于L,这样才不会因为敏感数据波动较小而使平均化失去意义。现实情况中的数据发布通常是动态的、多次性发布,而无论是K-匿名,还是L-diversity都是基于静态的、一次性发布的情况,所以这两种技术并不足以应对复杂的数据发布。

除了关系型数据发布,社交网络的数据发布也是数据匿名化的重要研究方向。不同于结构化数据,社交网络中的数据通常是非结构化数据,大量的敏感信息藏在这些非结构化数据中,例如图结构、链接关系等。通过这些敏感属性,可以定位到具体某个用户,所以对社交网络数据的保护还要注意为用户身份标识匿名和属性匿名,通过隐藏用户标识和属性来保护用户的身份信息安全。

3.2 数据加密技术

云计算的发展大大方便了大数据的处理,云平台也逐渐成为大数据存储的平台,那么如何保障存储在云平台中的数据的安全性也成为隐私管理不得不关注的部分。针对云平台存储的数据保密,目前主要是通过数据加密来实现。同态加密、功能加密、安全多方计算都是一般常见的加密算法。文献[7]基于同态加密技术提出了键-值存储和多级索引处理的方案,这种方案使得用户查询时的结点无法被数据持有者或者云平台所识别。

对称加密和非对称加密的算法[8]是目前比较流行的密文检索技术。

1)信息的加密和解密都需要密钥,对称加密是指在对信息加密和解密时选择相同的密钥,这样做能够有效减小计算开销,提高加密速度,能较好的保证数据的机密性,无论是海量数据或者少量数据都能够适应,这种加密算法是目前的主流方法。但是这种方法同样存在缺陷,面对密钥数量的增加,用户管理密钥会变得越来越难,而且因为双方使用相同的密钥,该密钥泄露的风险也比较大。除此之外,这种加密方法并不适合在分布式网络中使用。

2)不同于对称加密,非对称加密则是加密和解密双方选择不同的密钥,这样是密钥的管理变得简单有效,加密和解密也不在相互影响。这种方法在数字签名和身份认证等方面发挥着比较明显的作用。它的缺点是算法复杂,数据加密的速率较低。

上述数据加密研究为大数据隐私保护提供了新的思考方向,然而无论是数据加密还是数据匿名化,都是在对数据隐私进行被动式保护。数据加密在大数据的大规模性和多样性特点的影响下陷入怪圈,必须新的加密方法才能更有效地保护数据。

3.3 差分隐私技术

差分隐私技术是一种基于数据失真的技术。这种技术与前面介绍的两种技术不同,前两种技术并不具有普遍适用性,他们都缺乏数学基础,都是针对外部攻击设计的保护方法,并不能够完美的应对新的攻击,也没有准确地对数据隐私和损失进行定义。而差分隐私[9]技术恰好弥补了这个缺陷,差分隐私保护通过添加噪声使数据失真,从而起到隐私保护的目的,这是一种由数学基础支撑的、新型的隐私保护技术。

隐私参数ε是差分隐私技术的关键参数,这个参数通过控制隐私保护程度来确保输出结果不会因为在数据集中插入或删除某条记录而受到影响,从而控制了隐私损失。这种技术在目前的数据发布和数据挖掘领域发挥了重要作用。学术界认为差分隐私与大数据具有天然的匹配性,因为大数据的大规模性使得数据整体很难受到局部数据集的增删的影响。这个特点正好契合了大数据环境下隐私保护的需求。

4 进一步研究方向

4.1 数据匿名化方面

在大数据环境下,数据源具有多样性和动态性等特点,这些特点会关联到多个数据属性,这些数据属性之间的相关关系会对模式语义进行演化,模式语义正是数据集成过程中的核心操作。所以数据匿名化的下一步研究热点将是在数据模式多样性的前提下,如何控制模式演化以达到相关性的匿名。而且,现在的许多新型计算框架的出现,也对匿名化提出了新的要求,如何将现有方法应用到新型框架中也是一个重要的研究方向。

4.2 数据加密方面

大数据可以从多渠道获得,数据通常是存储在云平台上的,因此私密性保护的关键就是如何保证在存储过程中的数据安全。与我们的假设不同,在现实世界中,不安全的云平台是切实存在的,在这种平台上,用户的数据和隐私都有可能被披露。基于此,数据加密领域的一个重要研究课题是如何通过公钥加密、功能加密、同态加密等技术来保护数据隐私和三方交互隐私。

4.3 差分隐私方面

在差分隐私保护技术中,隐私参数ε非常重要,这个参数直接决定了差分隐私的效率,它决定了数据隐私性和可用性。然而,这个参数还不能做到对二者的充分平衡。所以,设计一个合理的隐私参数是差分隐私技术的有价值的研究方向。

5 结论

大数据的迅速发展,不仅给我们带来了机遇,同时也带来了巨大挑战。数据隐私保护就是其中之一。本文首先讲述了数据隐私泄露的风险,然后分析了现有的几种主流隐私保护技术,最后提出了几种技术的进一步研究方向。

大数据的隐私保护还处于起步阶段,完全保护个人隐私依然无法实现,而且隐私管理不仅仅是技术方面的问题,它还涉及法律法规、监管模式等诸多方面,因此需要学术界,企业界以及政府部门的共同努力才能实现。

参考文献:

[1] 王璐, 孟小峰. 位置大数据研究综述[J]. 软件学报, 2014, 25(4):693-712.

[2] Goel S, Hofman J M, Lahaie S, et al. Predicting consumer behavior with Web search[J]. National Academy of Sciences,2010,7(41):17486-17490.

[3] Sweeney L. K-anonymity: A model for protecting privacy[J]. International Journal on Uncertainty, Fuzziness and Knowledge-based Systems,2002,10(5):557-570.

[4] Machanavajjhala A, Kifer D, Gehrke J, et al. L-diversity: Privacy beyond k-anonymity[J]. ACM Trans on Knowledge Discovery from Data, 2007,1(1):1-47.

[5] Xiao Xiao-kui, Tao Yu-Fei. Anatomy: Simple and effective privacy preservation[C]. Proceedings of the 32nd International Conference on Very Large Data Bases. Seoul, Korea,2006. 139-150.

[6] Qing Zhang, Koudas N, Srivastava D, Ting Yu. Aggregate query answering on anonymized tables[C]. Proceedings of the IEEE 23rd International Conference on Data Engineering(ICDE2007). Istanbul, Turkey,2007. 116-125.

[7] Hu H, Xu J, et al. Private search on key-value stores with hierarchical indexes[C]. Proc of the 32th IEEE Int Conf on Data Engineering (ICDE 2014). Piscataway, NJ : IEEE,2014. 628-639.

[8] 刘雅辉, 张铁赢, 靳小龙, 等. 大数据时代个人隐私保护[J]. 计算机研究与发展,2015,52(1):1-19.

[9] 李杨, 温雯, 谢光强. 差分隐私保护研究综述[J]. 计算机研究应用,2012,29(9):3201-3211.

猜你喜欢

大数据
浅谈大数据在出版业的应用
“互联网+”对传统图书出版的影响和推动作用
大数据环境下基于移动客户端的传统媒体转型思路