APP下载

位置服务大数据的分析处理方法与隐私保护

2016-01-16王晓艳

关键词:隐私保护

位置服务大数据的分析处理方法与隐私保护

王晓艳

(黑河学院计算机科学与信息工程系,黑龙江黑河164300)

摘要:大数据的到来使得社会、科学、生活都发生了巨大的变革,当前基于位置数据服务所产生的位置大数据是大数据的重要研究问题之一。从位置大数据的背景出发,从位置大数据的概念、分析方法、隐私保护等三个方面对位置大数据的研究现状进行了介绍。

关键词:位置大数据;隐私保护;轨迹数据

作者简介:王晓艳,硕士,讲师,黑河学院。

文章编号:1672-6758(2015)07-0051-3

中图分类号:TP311

文献标识码:A

Abstract:Big Data makes society science and life have taken place great changes. Location Big data is one of the important research problem of big data. Under the background of big data, the paper explained the concept of big data, the analyzing method and the privacy protection and the current situation of the big data study.

随着社会信息化与网络化的深入发展,各类数据也在以近乎爆炸式的方式在激增。据有关资料显示每秒钟大概有200多万用户在使用Google搜索引擎,至2014年底,微信用户数量同比增长41%,达5亿人,所产生的数据量每天超过3.6亿。除此之外,银行业、科技产业、社会服务业等行业也在不断地产生新的大量的数据。2014年初国际数据公司发布报告称,全球数字化信息的数量已达4.4ZB,同时这个数据正以每年40%的速度在增长。[1]世界上很多国家都已经宣布大数据时代已经到来,并都在采取发掘和利用大数据的方案和策略。

随着大数据时代的到来,各种针对大数据的研究和应用也随之而来。大数据给我们的生活带来了很多便捷。利用对大数据的发掘分析也为商家提供了更有针对性或者说是个性化的营销策略。大数据的安全和隐私保护问题也悄然而至。本文将从大数据的一个重要部分——位置大数据的角度分析其应用,并介绍相关应用研究技术和隐私安全技术的研究进展,并对未来的发展方向进行展望。

一位置大数据的研究背景

随着移动通信网络和移动定位技术(GPS)的发展,基于位置的服务(LBS)研究也得到了各类企业的重视,例如车联网应用、手机定位等,这些应用一经推出就被广泛使用。在智能手机普及的时代,只要你的手机可以联网,那么利用GPS你就可以在任何一个陌生的地方在无需导游的情况下玩遍全城,甚至可以利用各种基于LBS的应用软件达到吃住行一条龙的服务,相信读者在这方面都深有体会。但是LBS绝不是仅仅为我们的日常生活带来了便利,它也为我们的安全带来了保障。美国的公众安全网络和我国的天网工程都是基于保护公众安全而构建的。

随着位置服务的不断普及,大量的位置数据随之产生。这些数据数量庞大、但却“复杂而稀疏”,作为研究人员如何分析处理具有如此特点的位置大数据,成为一个亟需解决的问题。

二位置大数据的相关研究技术

1.位置大数据的相关概念。

(1)位置大数据的定义。含有空间位置和时间标识的地理和人类社会信息数据即为位置数据。[2]这里的空间位置既可以是准确的地理坐标,也可以是具有约定俗成的一些地名、方位等。这里的时间标识可以是具体的时间数值,也可以是上午、下午等人们都理解的时间名词。

(2)位置大数据的分类。位置大数据可以根据标识信息种类的不同分为地理数据(如土地覆盖类型、植被覆盖率、水资源数据、行政界限)、轨迹数据(如各种导航数据、智能手机数据所产生的个人、群体或者车辆的轨迹数据)和空间媒体数据(能够体现空间位置的数字化的文本、图像、音频等媒体数据)。

(3)位置大数据的特点。位置大数据具有典型的数据规模大、变化速度快、数据多样性、价值密度低和处理速度快等特点。传统的数据处理技术无法针对大数据进行高效分析和处理,因此近年来关于如何根据大数据的特点进行新的技术变革是学术界普遍探分析和研究的问题,而针对不能类型的大数据有派生出很多更为细致的研究方法和研究理论,下面就以位置大数据为例来探讨。

2.位置大数据分析处理方法。

位置大数据的研究涉及到位置数据的采集、处理、计算、存储以及可视化等一系列技术方法体系的有机结合。

(1)数据采集。根据位置大数据的特点建立满足其需要(包括精度需求、空间环境的变化等)的数据传感网络,以实现位置数据的获取。如地铁售票系统、公交卡使用系统、高速公路收费系统等,通过诸如此类的途径可以实现被动的收集大量用户位置数据的目的。

(2)数据分析处理方法。位置大数据来源于多种不同的途径,又由于位置大数据自身的特点使得这些数据集中往往存在着各种各样的误差甚至是错误,因此,在数据采集之后必须对数据进行预处理,包括数据过滤、数据完善、数据降维、数据离散化等方法,预处理后在用数据挖掘、机器学习等处理方法对位置数据进一步的深入处理和挖掘。对位置大数据处理的目的在于分析数据的精确性和数据间的因果关系,而旨在分析数据间的关联性。

(3)数据计算和存储。鉴于位置大数据的特点,可以考虑采用Hadoop等计算框架,建立流媒体、地图数据、轨迹数据的高效时空索引和分布式分析技术,又由于位置大数据往往具有非关系型数据的特点,则应注重诸如Hbase、BigSQL、芒果数据库等数据库存储技术的使用。

(4)数据可视化方法。在以往的数据处理过程中在显示其处理结果或者是数据发展趋势时,常规的方法是利用统计图来展示,但由于位置大数据规模大、多样化等特点导致常规的方法无法准确的模拟其发展态势,因此需要借助一些专门的数据可视化方法来进行展现。如泛在地图、虚拟现实等。

图1 位置大数据分析模型

三位置大数据的隐私安全

1.位置隐私保护产生背景。

尽管对于位置大数据的研究与利用已经为人们的生活、国家相关方略政策的制定带来了显著地效果,但是现实就是一把双刃剑,有喜就有忧。在用户向服务器端发送位置信息的过程中,一些恶意的攻击者很有可能截取用户的位置信息,而在服务器端对处理后的信息发布后,恶意的攻击者也有可能会根据所掌握的背景知识分析出信息的来源也就是用户的位置,这就引发了研究人员对于位置大数据隐私保护问题的关注。

针对关系型数据库的隐私保护已经提出了大量的方法如k-匿名、l-多样性以及通过它们而研究的一些改进算法。然而这些方法不能直接应用在位置大数据的隐私保护中,主要有以下原因:位置隐私保护需要在用户的位置信息传送到位置服务器之前就进行保护;位置隐私要保护的不是用户查询的信息而是用户的位置信息,如用户在使用百度地图查找附近的公交站时,用户的查询信息是公交站点,而我要保护的是用户的准确位置信息;对于普通数据库来讲在某一时刻数据数据可以看做是静态的,而针对位置服务所产生的数据和查询却是在不断地变化,因而针对位置大数据需要研究出适应其特点的隐私保护方法。

2.位置隐私保护。

位置信息一般由标识信息和位置信息组成,标识信息用来描述用户的具体属性和特征,可以唯一标识一个用户;位置信息则表示该用户当前所处的某个具体位置或者是某个时间内的行踪。(注意,文中所说的用户可以使单个个体用户也可以是团体用户。)

图2 位置隐私保护体系结构

位置隐私保护的目的是阻止用户的位置信息被他人获取。针对用户在某一时刻的位置隐私保护方法分为两类:一类是用户向服务器提交服务请求时,由移动客户端向服务器提供准确的地理位置信息,但是隐藏用户的真实标识信息,这种方法服务器可以根据位置信息向用户提供高质量的位置服务;相反的,第二类是将用户的标识信息不加隐藏的传递给服务器,而将位置信息进行模糊化处理后提供给服务器,也可以达到位置隐私保护的目的。这两类方法都是针对用户在某一时刻的隐私保护,而位置数据的一个特点就是变化速度快,所以基于轨迹隐私的保护也是位置隐私保护的一个重要方面。

3.轨迹隐私保护。

前面的隐私保护都是假设在用户向服务器发送请求信息的过程中,攻击者不回截取信息,现在我们假设攻击者可以截取,并通过在不同时刻截取的信息进行分析,从而无论是屏蔽标识信息还是模糊位置信息,攻击者都可以通过用户的行动轨迹判断出用户在这一时间段内所处的位置范围,也就是位置隐私泄露。当恶意攻击者获取了用户的位置隐私后会带来严重的后果,如掌握了默认的行踪可能会给绑架者带来可乘之机。所以换句话来说,轨迹隐私保护是保护用户的行踪不被恶意攻击者所掌握,隐藏的是用户在敏感区域内活动的轨迹信息。

针对轨迹隐私保护问题文献[3][4]中提出了的“静默区域”的方法,即在邻近的用户之间构造混合区域,在进入该区域前后令同一个用户使用不同的ID,在进入该区域后,所有的用户在此期间都不向服务器发送任何服务请求信息,那么在此区域无论是服务器还是攻击者都无法获得用户的位置信息,从而增加了将用户的两个或以上临近位置信息连接起来的难度,从而达到了轨迹隐私保护的目的。

通过实验可以证明,利用混合区域可以有效地保护用户的轨迹隐私,但是由于用户在混合区域没有任何通信,将导致通信时隙的损失,进而导致通信质量的下降,因此此种方法不适用于对通信质量要求高的应用,目前已经有人在此方法的基础上进行了改进,提出了改进的“静默区域”[5]方法。该方法可以从时空两个角度对用户信息进行匿名处理,既要控制用户在混合区域的延迟时隙,还要控制用户的匿名程度,达到轨迹隐私保护的目的,又不会降低通信服务的质量,从而实现了对用户轨迹隐私更强而有力的保护。

四总结与展望

本文针对位置大数据的研究背景、相关概念、分析处理方法以及位置大数据的隐私安全等问题进行了阐述,并对在位置大数据处理分析、隐私保护等方面的流行方法和技术进行了介绍,旨在为初学者提供关于位置大数据研究的参考。

大数据时代用户的位置信息可以来自多种领域,通过多种渠道而被采集。通过对位置大数据的分析处理可以为人们的生产、生活、企业的商业运作以及科学研究等方面带来巨大的便利和收益,然而,由于位置信息中蕴含了用户的标识信息和位置信息,通过对这些信息的分析就可以掌握用户的行为习惯和敏感信息,为人们的隐私安全带来威胁。因此当前对位置大数据的研究主要有两个方向,一个是基于位置大数据的分析处理研究,另一个是基于位置大数据的隐私保护研究。目前这两种研究都取得了一定的进展,但是,位置大数据的研究仍然处于新兴领域,尤其是位置大数据的隐私保护研究,仍有大量问题需要深入细致的研究。

参考文献

[1]全球数字化信息的数量6.16ZB:从9个数字看2014年的大事[DB/OL]. http://tech.163.com/14/1230/16/AENO7RF400094ODU.html.

[2]刘经南,等.位置大数据的分析处理研究进展[J].武汉大学学报,2014,39(4):379-385.

[3]Huang L, Matsuu ra K, Yamane H, etal. Enhancing wireles socation privacy using silent period[C]. IEEE Wireless Commu nications and Netw orkin g Conf erence.NL, U. S., 2005.

[4]Huang L, Mat suu ra K, Yamane H, etal. Tow ards modeling wirelesslocat ion pri vacy[C]. Privacy Enhancing Technology. Cavtat, Croatia, 2005.

[5]Huang L, M at suu ra K, Yamane H, etal. Silent Cascade:Ehancing Locati on Privacy Withou t Comm unicat ion QoS Degradation[J]. SPC, 2006:165-180.

Analyzing and Processing Method and Privacy Protection for Big Data of Location Service

Wang Xiaoyan

(Department of Computer Science and Information Engineering, Heihe University, Heihe, Heilongjiang 164300, China)

Key words:big data of location; privacy protection; trajectory data

Class No.:TP311Document Mark:A

(责任编辑:蔡雪岚)

猜你喜欢

隐私保护
移动商务消费行为分析研究
适用于社交网络的隐私保护兴趣度匹配方案
可搜索加密在云计算移动学习中的应用
基于层次和节点功率控制的源位置隐私保护策略研究
关联规则隐藏算法综述
大数据环境下用户信息隐私泄露成因分析和保护对策
大数据安全与隐私保护的必要性及措施
大数据时代中美保护个人隐私的对比研究
社交网络中的隐私关注及隐私保护研究综述
大数据时代的隐私保护关键技术研究