APP下载

公安领域大数据安全探讨

2017-03-10◆胡

网络安全技术与应用 2017年11期
关键词:可信性访问控制公共安全

◆胡 杰

(中国电子科技集团公司第二十八研究所 江苏 210007)

公安领域大数据安全探讨

◆胡 杰

(中国电子科技集团公司第二十八研究所 江苏 210007)

本文从大数据在公共安全领域的应用展开讨论,重点分析了公共安全领域在大数据安全方面所面临的挑战,从这些挑战出发研究大数据安全相关的关键技术,并基于这些关键技术提出了对应的解决思路。

公共安全;大数据安全;隐私保护;数据访问控制

0 引言

随着互联网技术与社会信息化的快速发展,整个社会积累的数据处于爆炸式增长状态。在公共安全领域,除了人员、单位、户籍、车辆等大量的基础数据外,还要面对案件、接处警、出入境等各类爆发式增长的数据,而且数据类型从单一的结构化数据向图像、音频、视频等非结构化数据转变,如何有效地处理这些海量数据成为公安部门亟需的难题。

面对当前挑战,目前各个城市公安部门正逐步开展大数据中心的建设,在大数据中心建设过程中,不仅要解决资金、技术、思维模式等方面的问题,大数据安全也是其中一个重要的关键问题。本文从公共安全大数据的存储、处理、使用等角度,着重分析与探讨公安领域的大数据安全问题。

1 大数据概述

目前大数据并没有一个特别准确和公认的定义,通常认为规模庞大且结构复杂、无法采用传统的数据库系统或数据管理工具进行处理的数据集合即为大数据[1]。人们通常使用四个“V”来形容大数据,即更大的容量(Volume)、更多样的结构(Variety)、更快的生成速度(Velocity),以及更高的价值(Value)[2]。

大数据应用与各个行业的具体业务密切关联,它在互联网、医疗、金融、公共安全等不同领域的应用存在巨大的差异,这里主要归纳一下公共安全领域的应用目标:

(1)犯罪规律分析与挖掘

通过面向数据全集的分析与挖掘,帮助公安人员从大量原始的、参杂噪声的各类社会与犯罪数据中获取知识,使公安人员从纷繁复杂的犯罪现象找出内在的规律,从而指导公安人员进行案件的研判与侦破。典型的应用案例是刑侦案件的串并分析,通过对案件类型、嫌疑人员、涉案物品、线索等进行特征提取与综合分析,利用关联、聚类等方法并结合串并规则,计算出多个同类案件之间的相似度,向案件侦办人员提供串并案处理建议。

(2)犯罪预警预测

大数据在公共安全领域另一个重要应用就是犯罪的预警预测,目前国内外打击犯罪的发展趋势是由被动反应转为主动出击,即在出现犯罪苗头时及时采取处置行动减少或消灭犯罪发生的概率,而不是等到犯罪行为发生后采取应对行动或应急响应措施。犯罪预警预测通过对公共安全相关海量信息的分析和研究,应用大数据处理和数据挖掘的方法,及时发现和识别潜在的公共安全危机并提前采取相应的预防措施。

2 公安大数据安全挑战

对于公共安全领域而言,大数据在提高案件侦破率、降低犯罪率的同时,也面临着相关的安全问题,下面分别从隐私保护、数据访问控制、数据可信性等方面分析公共安全大数据的安全问题[3]。

2.1 隐私保护

在商业尤其是互联网领域,大数据环境下用户隐私的保护一直是被广泛关注的问题。但对于公安部门而言,用户隐私的保护并不是一个新出现的挑战,早在大数据出现之前公安部门就掌握了公民的部分隐私,并且公安部门对公民隐私的保护一直有着严格的法律约束,只不过随着大数据技术的发展,公安部门掌握的公民信息更加丰富,已经逐步扩大到人们生活的方方面面。因此,从这个角度来看,公共安全领域的隐私保护相对容易,不必过多关注数据的匿名处理、数据生命周期的制定、人工加扰等技术手段,更多工作的应当是放在制定严格完善的隐私保护制度并予以落实。

2.2 数据访问控制

数据访问控制是实现数据安全保护的重要手段,长期以来公安部门按照条块化进行业务划分,导致不同类型数据分别由各自的业务主管部门管理。然而,大数据的分析挖掘需要建立在跨部门海量数据的基础上,这就需要打破现有数据按业务部门划分的格局,既要实现公安数据的共享访问,又要满足部分敏感数据的有效保护,这对数据的访问控制提出很高的要求。

一方面,公安机关的许多部门都有大数据分析挖掘的需要,角色的定义与划分存在较大的难度,直接将管理员角色分配给部门用户存在较大的安全隐患;另一方面,即便完成了角色的定义,由于大数据分析挖掘的开放性和未知性,该角色具体拥有哪些数据的访问权限也无法准确定义。

2.3 数据可信性

数据分析挖掘的结果好坏取决于数据本身的质量,这其中数据的真实性、可信性是影响数据分析结果的重要因素。就公共安全领域而言,其数据可信性的挑战主要体现在以下3个方面:

(1)数据伪造

在互联网领域,许多不良商家常常利用“刷单”和虚假评论提高商品的销量。与此类似,随着反侦察意识的增强,犯罪分子也会在犯罪现场伪造或消除留下的痕迹,并且在日常生活中尽可能避免留下痕迹或暴露其活动轨迹,因此会造成数据的缺失甚至是虚假数据隐匿在真实数据中,误导侦查人员的判断。

(2)数据录入缺失

数据录入缺失是导致数据质量低下的重要原因,尤其是公安的基层民警由于日常事务繁重,对于一些微小、非重大案件的录入往往缺乏严谨性,主要表现在对案件的一些具体特征未予准确指定,或者在需要进行文字录入的部分(比如案情)没有详细描述。但根据实际经验来看,一些重大案件的涉案人员在前期都发生过小的案件,如果这些历史案件的录入数据足够具体详实,就可以通过案件串并技战法提高案件的侦破效率[4]。

(3)数据失真

数据失真往往会造成数据分析结果出现严重的偏差,造成数据失真的原因既存在客观因素也存在主观因素:首先,在前期的数据采集过程中,就可能由于人为责任心和测量误差导致数据失真或偏差;其次,已经进入信息系统的正确数据也会因为时间的推移或外部信息的更新而出现失真,比如行政划区、道路地址等信息都可能发生变更;最后,在将纸质历史数据导入信息化系统时,由于技术实现方面的原因也会出现一定的数据失真,原始数据在进行清洗、格式化转换过程中也会导致数据失真。

3 大数据安全关键技术

对于公共安全领域而言,由于大数据的隐私保护主要体现在相关制度的制定与完善,作为政府的行政事务这里不展开讨论,下面主要从数据访问控制、数据可信性分析相关的技术与解决思路。

3.1 数据访问控制

基于角色的访问控制(RBAC)通常采用自顶向下的设计模式[5],即首先根据部门的职责分工定义相应的角色,然后授予各个角色相应的访问权限,最后给不同的用户分配不同的角色。然而在大数据环境下,这种自顶向下的设计模式由于角色的过度交叉、访问权限的不明确而变得困难。

角色挖掘技术是当前数据访问控制新的发展方向,与传统的RBAC权限管理不同,角色挖掘是一种自底向上的权限管理设计模式,它通过对用户权限的聚类、归并等算法分析,自动实现角色的提取与优化,具体包括用户权限二维图的排序归并,权限子集的枚举与聚类、形式化语义分析与层次挖掘等。基于角色挖掘的数据访问控制可以根据用户的数据访问记录自动生成角色,从而在已定义的固定角色权限的基础上,智能地为多个用户提供个性化的数据访问权限[6]。

因此,在公共安全领域大数据中心建设中,用户权限管理可以从两个方面入手:首先,根据公安各业务部门的职责和数据管理权限,初步制定一个固定的角色权限表;其次,系统建设初期针对非敏感数据向各部门的管理员放开权限控制,通过各部门管理员用户的数据访问记录,利用角色挖掘技术发现和设置合理的角色分配。

3.2 数据可信性

对于大数据中的数据可信性问题,目前主要的技术解决手段包括数字水印技术和数据溯源技术,下面分别就这两种的技术展开介绍。

(1)数字水印技术

数字水印作为多媒体数据版权保护的成熟技术手段,已经被广泛应用到数字文学、医学、法律等各个行业领域。数字水印技术是在保证多媒体数据质量的前提下,以难以察觉的方法将数据、图像等标志嵌入到多媒体数据中,当多媒体数据遭到篡改时,可以将该水印标志提取处理用于判断数据的真伪[7]。

在大数据环境下,需要进行数字水印处理的不仅仅是视频、图像等多媒体数据,还包括数据库、文本等对精度误差敏感的数据。由于视频、图像等多媒体数据的水印技术相对成熟,这里不展开讨论,下面主要分析数据库与文本2种数据的数字水印处理:对于数据库而言,可以通过修改部分数值型数据的小数点后若干位,或者直接将水印嵌入到某个属性数据中来实现数据的防篡改保护;对于文本而言,可以通过文档结构微调、特殊符号修改等方式实现水印的嵌入,具体包括调整文本的字符间距、行间距、增加空格等。

(2)数据溯源技术

数据溯源技术最早应用于数据仓库领域,主要用于追溯数据仓库中各项数据的来源,它是对目标数据衍生前的原始数据以及演变过程的描述[8]。数据溯源最常用的方法为标注法和反向查询法,此外还包括数据追踪法、双向指针追踪法、位向量存储定位法等。常用的数据溯源模型包括流溯源信息模型、时间-值中心溯源模型、四维溯源模型、数据溯源安全模型等。

在大数据环境下,由于用户积累的数据具有数据规模大、处理速度要求高等特点,因此需要选择诸如时间-值中心溯源、四维溯源等支持高容量处理的模型;而在数据溯源方法选择上,虽然标注法实现简单、易于管理,但无法适应大数据环境下海量数据的处理,因此需要选择基于逆置函数的反向查询法,从而满足数据溯源的处理效率要求。

4 结语

大数据作为近年来新兴的技术,为公共安全领域信息化建设带来了新的技术解决方案,但是大数据安全也是大数据发展中必须解决的问题。本文从隐私保护、数据访问控制、数据可信性等方面出发,梳理了公共安全领域所面临的大数据安全挑战,并进一步探讨了解决这些问题所涉及的关键技术。当前,国内公安领域大数据安全的发展水平与实际需求还存在一定的差距,需要进一步的深入研究与应用探索。

[1] 孟小峰,慈祥.大数据管理:概念、技术与挑战[J].计算机研究与发展,2013.

[2] 李国杰,程学旗.大数据研究:未来科技及经济社会发展的重大战略领域[J].中国科学院院刊,2012.

[3] 冯登国,张敏,李昊.大数据安全与隐私保护[J].计算机学报,2014.

[4] 韩宁,陈巍.基于聚类分析的串并案研究[J].中国人民公安大学学报(自然科学版),2012.

[5] 张学明,黄志球,孙艺.基于RBAC的隐私访问控制研究[J].计算机科学,2016.

[6] 孙伟,苏辉,李艳灵.基于互斥权限约束的角色挖掘优化方法[J].计算机工程,2014.

[7] 谭春娇,祝恩.一种彩色图像可恢复半脆弱数字水印算法[J].计算机工程与科学,2015.

[8] 明华,张勇,符小辉.数据溯源技术综述[J].小型微型计算机系统,2012.

猜你喜欢

可信性访问控制公共安全
基于可信性的锅炉安全质量综合评价研究
在公共安全面前别任性
在区间上取值的模糊变量的可信性分布
Five golden rules for meeting management
人脸识别技术在公共安全领域中的应用
基于可信性理论的风电场电能质量模糊综合评估
ONVIF的全新主张:一致性及最访问控制的Profile A
大数据背景下的城市公共安全应对机制
动态自适应访问控制模型
浅析云计算环境下等级保护访问控制测评技术