APP下载

大数据时代网络信息安全的研究

2016-07-22李肇明姜明星

电脑知识与技术 2016年16期
关键词:信息泄露信息安全大数据

李肇明+姜明星

摘要:大数据(Big Data)是当前学术界研究的热点。大数据技术正改变着人类的生活习惯和工作方式,但大数据在采集、存储、挖掘、发布的过程中存在着诸多安全性问题,对信息安全造成了一定威胁。该文从大数据技术带来的信息泄露等安全问题入手研究了若干关键技术和成果。文中提出了当前学术界在信息安全领域的最新技术,指出在信息化不断发展的今天,大数据既是解决信息安全的有效手段也给信息安全带来了巨大的挑战。

关键词:大数据;信息安全;信息泄露;APT攻击;认证技术

中图分类号:TP393 文献标识码:A 文章编号:1009-3044(2016)16-0066-03

Abstract:Nowadays big data has become a hot topic in the academic research. Big data technology is changing person's habits and ways of working, however there are many security issues in the field of data security when collecting,storing,mining,,releasing big data,it is spelled threat for information security. This paper start from the big data technology to bring information leaks and other security issues, and then researches the key technologies and achievements. This paper presents the latest technology in the current academic field of information security. With the development of information technology, this paper points out big data is both an effective means to resolve information security and also to bring great challenges.

Key words:big data;information security;information leakage;APT attack;Authentication technology

1 概述

随着移动互联网、云计算技术、物联网技术的迅猛发展,同时社交网络、微博、微信等新型信息分享平台的涌现,全球数据量正以指数级爆炸性的增长,大数据正成为网络信息技术领域的又一热点,有人就将大数据比作“未来的石油”,大数据影响着我们的工作、生活和社会发展。伴随着数据的进一步集中,数据的价值越发的体现,其中很多是用户敏感信息,甚至涉及国家的机密。所以来自全球的各种人为攻击在所难免,数据的存储安全接收到了严峻的考验,加之云计算技术的不断成熟,对数据进行分布式处理也加大了数据泄露的风险。为了应对信息安全的风险,我国于2014年成立了国家安全委员会,网络信息安全正式提升为国家安全战略。

近年来,我国将“互联网+”行动计划作为国策,推动了我国经济的发展,然而我国只能算得上是网络大国,并不是网络强国,在信息技术上,核心技术仍然受制于他国,因此,我国的信息安全形势任十分严峻。安全技术伴随着信息技术,在大数据环境下,传统的信息安全技术受到了挑战,安全攻击事件呈高发态势,木马僵尸网络、移动数据的泄露和窃取、APT(advanced persistent threat)攻击等成为大数据时代的顽疾,仅靠传统的防范措施已无法应对安全的威胁。国内外对网络信息安全的问题都有大量的研究,国内侧重于用户观念与行为、技术保障、法律法规方面提出一些解决方案;国外则主要集中在隐私保护和技术方面的研究。本文从生活中的信息安全事件案例出发,研究网络信息安全的相关技术,提出了运用相应的大数据技术保护信息安全的方法。

2 大数据的概念与特点

2.1 大数据的基本概念

目前,大数据尚无统一的概念,根据维基百科的定义,“大数据指的是所涉及的数据量规模巨大到无法通过人工或者计算机,在合理的时间内达到截取、管理、处理、并整理成为人类所能解读的形式的信息”[1]。上个世纪八十年代,著名的未来学家托夫勒在其《第三次浪潮》书中第一次提到了大数据,他将大数据称颂为 “第三次浪潮的华彩乐章”。《nature》杂志于2008年9月在其封面推出了大数据专栏。在2009年大数据在互联网技术行业成为热门的词汇。麦肯锡环球研究院于2011年5月发布了《大数据:创新、竞争和生产力的下一个前沿》报告,报告指出:大数据是其大小超出了典型数据库软件的采集、储存、管理和分析等能力的数据集[2]。总之,大数据并不是新的产品和技术,它只是数字化时代必然的产物。

2.2 大数据的特征

大数据具有四个典型的特征,概括起来:4V(Volume、Variety、Value、Velocity)+1C(Complexity)

①Volume(数据量大)。随着互联网、移动互联技术的不断发展,各种电子设备和传感器产生了海量的数据,每天的数据量都达到了ZB级别,数据规模极其庞大。

②Variety(数据类型多样)。每天存储的数据包括各种类型,有结构化的、半结构化的、非结构化的。而且数据的格式、编码、应用特征差异巨大。

③Value(价值性)。虽然数据总量巨大,但其价值密度较低。往往价值密度与数据总量成反比。

④Velocity(处理速度)。大数据对数据的处理速度要求很快,随着云计算、虚拟化技术的不断成熟为其提供了技术上的支持。

⑤Complexity(复杂性)。传统的数据库存储模式已经不再适用于大数据处理,需要一些全新的方法来满足于复杂数据的处理。

3 大数据给信息安全带来的安全问题

大数据不仅带来了价值和机遇,也带来了安全风险。

3.1 大数据加大了隐私泄露的风险

在大数据时代,用户的个人信息在不经意间被企业搜集和使用,信息的网络化和透明化成为必然。企业把搜集到的数据通过数据挖掘和机器学习技术,从中获取大量有价值的信息。同时用户的数据很容易遭到泄露,用户的隐私将被侵犯。近年来用户隐私的泄漏事件时常发生,如何保护用户的个人隐私数据遇到了严峻的挑战。中国互联网协会发布的《中国网民权益保护调查报(2015)》显示,63.4%的网民通话记录、网上购物记录等网上活动信息遭泄露;78.2%的网民个人身份信息曾被泄露,包括姓名、家庭住址、身份证号及工作单位等[3]。下面通过两个具体案例分析用户信息泄露的问题。

1)2014年12月25日,乌云漏洞发布平台消息称,大量12306用户数据在互联网疯传[4],包括帐号、明文密码、身份证邮箱等。在随后的公安机关调查中发现犯罪嫌疑人通过收集互联网某游戏网站以及其他多个网站泄露的用户名加密码信息,尝试登录12306网站进行“撞库”,非法获取用户的其他信息,并谋取非法利益。

2)近几年,电子商务快速发展,网络商城越来越多,网络购物司空见惯,信息泄露也是层出不穷,电信诈骗经常发生。北京的李小姐在网上购买了一套婴儿用品准备送给朋友,付款成功后的第二天,就接到自称是这家网店客服的电话。该“客服”以淘宝系统正在升级导致订单失效为由,称需要先退款再购买,并准确说出了李小姐购买的商品名称、收获地址、电话以及订单信息。由于信息完全相符,李小姐没有怀疑,并通过QQ打开对方发来的退款链接,并按提示输入银行卡号、密码、手机号及短信验证码等信息。由于对方发来的是钓鱼链接,李小姐输入提交了多次均显示未成功付款,但手机短信提示已支付8000元[5]。可见,个人信息泄露成网购退款骗局“基石”。

3.2 大数据成为高级可持续攻击的显著目标

由于大数据具有更复杂、更敏感的数据,这些数据会吸引更多的潜在攻击者。其中APT攻击[6](Advanced Persistent Threat攻击)是大数据时代面临的最复杂的信息安全之一。APT攻击具有极强的稳定性,攻击持续时间长,潜伏期长,威胁性大的特点。另一方面,由于数据量巨大,黑客不惜花大力气攻击获得更多的数据,以至于增加了“收益率”。

3.3 大数据技术被黑客应用到攻击手段中

作为大数据的基础技术,云计算、数据挖掘技术的不断发展为黑客提供了智力支持,黑客利用这些先进的技术对企业发起攻击。黑客的目的就是从企业的数据中最大限度地收集有用信息,这些信息包括:用户的社交邮件、注册的账号密码、联系人的电话和家庭住址等。此外黑客还可以利用安全漏洞发起僵尸网络攻击,控制上百万台傀儡机并发攻击。

4 大数据时代网络信息安全技术

当下,大数据产业迅猛发展,其安全问题无处不在,面对一系列的安全风险,如何保障大数据的安全,并且在信息安全领域得到充分利用,也是学术界需要认真研究的问题。2016年5月25日在贵阳召开的数博会上,与会专家为安全发声,强化构建安全技术体系。

4.1 构建云环境下大数据信息安全体系

云计算为大数据提供了基础设施,大数据需要灵活的计算环境,两者相辅相成,后者可以快速、自动地进行扩展以支持海量数据。大数据的应用过程通常被划分为四个环节:采集、存储、挖掘、发布[7]。在数据的采集阶段安全问题,可以通过身份认证、数据加密等安全机制来保证采集数据过程的安全性,传输安全可以使用虚拟专用网(VPN)技术和基于安全套接层协议(SSL VPN)技术。在数据的存储过程中需要保证数据的机密性和可用性,提供隐私保护和数据恢复技术,可能用到的技术有:静态数据加密标准(DES)、高级加密标准(AES)、动态数据加密标准机制,冗余的磁盘阵列(RAID)、Hadoop分布式文件系统(HDFS)等。在数据挖掘阶段,要严格控制操作者的权限,防止机密信息泄露,可能用到的技术有: 基于生物特征的身份认证技术、基于秘密信息的身份认证技术、自主访问控制、强制访问控制等。在数据发布阶段需要进行安全审计,如:基于日志的安全审计、基于代理的审计、基于网络监听的审计等。

4.2 运用大数据应对APT攻击的技术

APT攻击是当前信息安全面临的最大的威胁,具有手段多样、目标明确、持续时间长的特点,其造成的破坏力很大,而且隐蔽性很强,不容易被察觉。目前,国内外对APT攻击检测的研究主要集中在3个方面:恶意代码检测、主机应用保护检测和网络入侵检测。在大数据环境下,APT攻击的检测常用的技术主要有:沙箱方案、异常检测、基于记忆的检测系统。沙箱方案[8]是对攻击者的异常行为进行非特征性匹配,检测出存在的威胁;异常检测是根据正常行为的数据构建一个行为模型,将未检测的数据量与之进行对比,如果跟模型差异较大,则有理由怀疑该数据量是有攻击者产生的;基于记忆的检测系统,是由全流量审计与日志审计相结合形成的,它是以牺牲时间为代价的,由于APT攻击发生的时间很长,对长时间内的数据流量进行深入的分析和还原,从而检测出异常的行为。ATP攻击的检测可以分为四步:扩大检测领域、对数据量进行浓缩、对攻击行为作精确的报警、构建攻击场景。

4.3 大数据的认证技术

身份认证是指计算机及网络系统确认操作者身份的过程。传统认证技术的方式是基于用户名和密码的认证方式,例如:口令、数字证书。但是这些技术有很多不足:首先,攻击者总是能找到方法来骗取用户的账号信息,例如:通过抓包软件的分析或者通过木马病毒来盗取用户的口令,还有甚者通过社会工程学方式骗取用户的信息。其次,传统认证技术的认证方式较为复杂,给用户带来了不少负担。例如:用户开通了网上银行,就会涉及USB key和数字证书,而USB key需随身携带,一旦忘记就无法完成身份认证。为了方便用户,生物特征识别技术诞生了,比较常见的就是通过指纹、虹膜识别用户的身份,然而这些技术需要设备具有生物识别的功能,在广泛应用方面有很多的局限。

如果在认证技术中引入大数据分析则能够有效地解决这类问题。大数据的认证技术[9]是指收集用户行为和设备行为数据,并对这些数据进行分析,获得用户行为和设备行为的特征,进而通过鉴别操作者行为及其设备行为来确定其身份。

这种认证技术相对于传统认证技术有很大的不同,黑客很难模拟用户的行为特征,所以安全性又提升了一个等级。

4.4 大数据真实性分析技术

目前,基于大数据的真实性分析技术被认为是最有效的方法,它可以有效地过滤垃圾信息。各个企业都将自己的研发成果应用到了产品中,例如:网易利用大数据真实性分析技术过滤垃圾邮件;FaceBook等社交媒体也是利用大数据真实性分析技术过滤垃圾信息。

大数据真实性分析技术在我们日常生活中应用非常广泛,它既可以过滤垃圾信息,又可以鉴别异常信息。例如,当用户在购物网站购物的时候,如何识别虚假评价信息,这也是购物网站亟待解决的问题。购物网站可以利用大数据真实性分析技术对评论者的位置信息、评论内容、评论时间等进行分析,鉴别出异常信息。如果发现某类商品同一个时段频繁出现很多差评,很可能是恶意评价,可以将其设定标记做进一步的观察。此外,在运用大数据真实性分析技术时,还可以利用传统的分析技术发现垃圾信息,例如:机器学习技术、数据挖掘技术等。大数据真实性分析技术还在发展中,有很多地方还不够成熟,例如:比较难以鉴别虚假信息以及模型的构建。随着研究的不断深入,这些问题都会迎刃而解。

5 结论

大数据不仅给信息安全带来了安全的问题,也为信息安全技术的发展提供了新的发展机遇,它就像是一把双刃剑,既可以利用大数据技术发起攻击,也可以为安全分析提供新的可能性。本文从大数据时代信息安全带来的安全性问题出发,列举了社会上常见的信息安全案例,通过对案例的分析提出了大数据时代网络信息安全的相关技术。当下,大数据已经成为各个国家关注的重要战略资源,对国家的经济发展、网络安全以及国家安全将产生长远和巨大的影响。

参考文献:

[1] 维基百科. 大数据 [EB/OL][D]. https://zh.wikipedia.org/wiki/大数据,2013.

[2] Labrinidis A, Jagadish H V. Challenges and opportunities with big data[J]. Proceedings of the VLDB Endowment, 2012, 5(12): 2032-2033.

[3] 中国网民权益保护调查(2015) [EB/OL]. http://www.scio.gov.cn/zhzc/8/5/Document/1441916/1441916.htm.

[4] 大量12306用户数据在互联网疯传包括用户帐号、明文密码、身份证邮箱等(泄漏途径目前未知)[EB/OL].http://www.wooyun.org/bugs/wooyun-2014-088532

[5]央视:个人信息泄露成网购诈骗“罪魁祸首”[EB/OL].http://science.china.com.cn/2014-09/02/content_33407267.htm.

[6] Zulkefli Z, Singh M M, Malim N H A H. Advanced Persistent Threat Mitigation Using Multi Level Security–Access Control Framework[M]//Computational Science and Its Applications--ICCSA 2015. Springer International Publishing, 2015: 90-105.

[7] 王树良, 丁刚毅, 钟鸣. 大数据下的空间数据挖掘思考[J]. 中国电子科学研究院学报, 2013, 8(1): 8-17.

[8] 刘昕. 大数据背景下的 APT 攻击检测与防御[J]. 电子测试, 2014 (1X): 80-81.

[9] 冯登国, 张敏, 李昊. 大数据安全与隐私保护[J]. 计算机学报, 2014, 37(1): 246-258.

猜你喜欢

信息泄露信息安全大数据
保护信息安全要滴水不漏
高校信息安全防护
保护个人信息安全刻不容缓
信息安全