APP下载

大数据环境下电子数据取证技术研究

2019-01-10刘志军王宁

科技视界 2019年36期
关键词:环境研究

刘志军 王宁

【摘 要】大数据时代的到来,电子数据取证对象由独立物理实体转换为云端应用、虚拟主机、IOT等,其给电子数据取证带来了极大的挑战。文章首先阐述了电子数据取证的概念和历史发展;然后分析了大数据环境下电子数据取证面临的挑战,并结合大数据的特点以及电子数据取证特点,探讨了大数据环境下开展电子数据取证技术研究的若干建议。

【关键字】大数据;电子数据;云计算;计算机取证

中图分类号: D63 文献标识码: A 文章编号: 2095-2457(2019)36-0024-003

DOI:10.19694/j.cnki.issn2095-2457.2019.36.011

1 电子数据取证概述

从取证技术的发展来看,有计算机取证技术(ComputerForensic)、数字取证技术(Digital Forensics)、电子取证技术(Electric Forensics)、网络取证技术(Network Forensics)、计算机网络取证技术(Computer Network Forensics)、Internet取证技术(Internet Forensics)、云取证技术(Cloud Forensics)等术语,其定义的角度各不相同。

2013年修订后的《刑事诉讼法》第48条首次将电子数据纳入法定证据,其后修订的《民事诉讼法》、《行政诉讼法》也依次将电子数据作为独立的证据形态,于是电子数据取证就成了当前学术界和司法实务部门普遍接受和高频使用的技术性名词。何谓电子数据取证呢,通俗点讲,电子数据取证可以看作是使用合法、合理、规范的技术或手段,从计算机或其他数字设备进行电子数据的获取、保存、分析和出示。

电子数据取证成立于20世纪70年代,其发展阶段可以分为:婴儿期(1985-1995年),儿童期(1995-2005年),青春期(2005-2010年),新时期(2010—现在)。在婴儿期阶段,随着个人电脑的普及和Internet网的出现带来了大量的计算机犯罪,在此阶段参与取证的人员缺乏比较系统的专业取证工具,多是自行开发取证工具并经验性地开展取证工作,取证目标主要是大型机、个人计算机、公司的数据记录和计算机辅助欺诈。与此同时,针对参与取证的人所涉及的专业训练较少等问题,诸如计算机调查专家国际协会(ICAIS)、国际计算机证据组织(IOCE)、美国国防计算机取证实验室(DCFL)、计算机技术专家取证协会(FACT)、在英国警察协会(ACPO)主持下的取证计算组织(FCG)、高科技犯罪调查协会等机构和组织相继成立,为取证从业人员提供经验分享、职业技能培训等[1]。

在儿童期阶段,技术爆炸和internet网的普及应用以及随之而来的犯罪高速发展,取证目标从独立的个人计算机扩大到网络入侵、数据解密等专业化领域,电子数据取证也开始成为专业技术领域,取证工具出现了基于Windows界面取证工具,如Expert Witness、Encase、FTK、iLook、ACES等,基于Linux取证工具,如TSK、SMART、HELEX等,与此同时网络取证技术研究和内存取证的技术研究得到了发展。

在青春期,取证目标更加多样化,取证的对象不仅包括文件系统、网络、也包括手机、MP3、PDA、以及网络社交系统、手机游戏平台、电子邮件、商业业务记录系统等。新时期阶段,云计算、大数据和物联网等为代表的新一代技术扩大了取证对象。许多国家在立法上强调网络隐私的保护,学术界也进行了积极的响应,如相关学术课程的不断涌现,关于电子数据取证技术研究的行业会议不断举办等。

2 大数据环境对电子数据取证的挑战

2.1 大数据环境下电子数据取证框架

图1 大数据环境下的电子数据取证框架

根据数据处理领域和应用场景的不同,大数据处理框架有传统大数据架构、流式架构、Lambda架构、Kappa架构、Unifield架构之分。从管理层次来看,大数据分为存储层、处理层和应用层,其中处理层是对存储层的数据进行数据采集、数据处理、数据分析和数据访问,大数据系统可以看作是在现有主流操作系统环境内,与虚拟化技术相结合的一个数据处理集群,给不同用户提供决策等支持服务的数据系统[2]。基于此,大数据环境下的电子数据取证可以分为应用层取证、系统层取证和物理资源层取证,如图1所示。

2.2 大数据环境下电子数据取证的挑战

计算机、手机、如移动硬盘、U盘、存储卡等移动存储介质一般都是传统电子数据取证对象。在大数据环境下,电子数据取证对象包括云客户端操作、云备份、大数据系统本身、客户端虚拟主机、大数据宿主计算机等,取证对象和取证目标的变化也为电子数据取证带来极大的挑战。从图1的大数据环境下电子数据取证层次框架看,大数据环境下电子数据取证面临着许多挑战,包括但不限于:

2.2.1 应用层取证中面临取证对象的定位和提取难

大数据环境下,很多记录着涉网的操作行为数据从终端设备向云端迁移,例如,涉案人员登陆云端并進行数据操作,或者将数据存储在云端或者网盘中。大数据环境下,用户使用互联网载体习惯也在改变,例如,涉案人员将手机中的聊天信息、图片等数据通过云存储方式备份到网络上等。在应用层取证中,电子数据取证对象也转换为基于大数据架构的各种网盘、云存储和云端操作系统等。

网盘技术、云存储技术是基于虚拟化的,数据存储于不同的数据中心,甚至跨司法管辖范围,在应用层取证中要定位数据和提取电子数据较为困难,电子数据取证调查人员一般需要云服务提供商协助,否则其难以定位到具体物理机器进行取证。在云环境下,由于用户着共享云基础设施或应用,数据存在着混杂存储状况,分离用户数据困难,在收集证据时可能会掺杂无关用户的数据,如何保障无关用户数据的机密性,如何在电子数据提取中仅提取用于事件重构的数据对于电子数据取证人员是一个挑战。

2.2.2 系统层取证中面临数据分析的困难

系统层取证的取证对象主要有系统访问日志、大数据分布式文件系统等。日志是系统层取证中最重要的证据来源之一,但是云服务提供商提供的日志文件数据格式不同,也缺乏统一的日志文件数据格式规范。现有的日志通常也是多用戶数据混杂,包含大量与取证无关的冗余或敏感信息[3]。

大数据分布式文件系统中如一些DFS、 HDFS将分割后的块文件以数据块编号命名,仅从文件名是无法判断文件的类型和归属关系,这就为电子数据取证人员追溯涉案人员与案件的分析判定带来困扰。其次,结构化数据、半结构化数据和非结构化数据并存,有些云计算有着自身特有的数据格式;再次是数据体量大,电子数据取证的数据体量常达到10TB 甚至PB级别,对于传统的电子数据取证分析而言,势必成为不可能完成的任务。

2.2.3 物理资源层取证面临取证对象多样化

大数据时代,一方面随着用户使用互联网载体习惯的改变,取证对象由计算机系统延伸到云端、智能手机、可穿戴设备等多终端设备。另一方面大数据、云计算、嵌入式技术以及传感器技术的发展,IoT中如红外感应器、全球定位系统、射频识别装置等各种信息传感设备,暗网,智能汽车以及其他智能设备的种类和数量不断增多,由于其含有丰富的电子数据,也不断出现新的取证需求。

现有的取证工具产品能较好地提取和分析宿主计算机上残留的用户session、cookie、下载历史、浏览历史、缓存数据等;也能较好地提取移动设备如手机中删除的通信录、短信、SIM卡信息、图片、Webchat和QQ等聊天信息等;甚至提取和分析一些可穿戴电子设备中的电子数据。但是面对无所不在的各类物联网传感器,汽车、摄像头、洗衣机、烤箱等在内的智能设备时,现有的取证工具产品在提取和分析其电子数据显得力不从心。其次,大数据环境中普遍使用虚拟化技术(VM),当用户释放VM后,VM 占用的空间将被收回,资源回收和再分配较为频繁,这种虚拟化技术特性使得平台或节点中的数据成为易失性数据,现有的取证工具产品较难以提取与恢复这块数据。

3 大数据环境下电子数据取证技术研究

DFRWS 组织根据取证过程将电子数据取证技术分成如下六大类:识别类(identification)、保存类(preservation)、收集类(collection)、检查类(examination)、分析类(analysis)、呈堂类(presentation)。根据DFRWS提出的技术框架分类,电子数据取证涉及的具体取证技术有电子数据识别发现技术、电子数据提取收集技术、电子数据分析检验技术、电子数据呈堂技术[4]。结合大数据的特点以及电子数据取证过程中的技术分类,大数据环境下电子数据取证技术需要展开如下研究。

3.1 云取证模型的研究

云计算充分利用物理设施的弹性来处理快速增长的大数据,云计算能为大数据提供存储空间和访问渠道[5-6],因此大数据必须以云作为基础架构,云计算是大数据的基础架构平台。由于各种云存储、云端操作和云备份等中包含重要的潜在证据源,近年来关于云取证模型的研究也成为学术界探索的热点。现有的云取证模型研究集中在两类:普适性解决方案和特定类型性解决方案[7]。普适性解决方案是分析电子数据取证各个阶段在云环境中可能会遇到的问题,提出一个通用性、普适性的解决思路,而特定类型性解决方案是针对某个特定类型的云模型或云产品如OpenStack云计算平台、Amazon s3,Drop box,Google Does,EverNote等提出一套具针对性的取证解决思路。

当前理论研究中存在着很多云取证模型,但是具有综合性和整体性取证策略与实施方法的云取证模型仍然缺乏[8],不足以指导大数据应用层取证中云环境下的取证工作。从电子数据识别发现技术的研究看,云取证模型的研究一是要解决电子数据的识别和定位问题,针对云环境的特点指导取证人员识别和定位电子数据所在虚拟机的物理位置,并研究可行的数据收集方法和数据分析方法,二是在云环境中针对存在着混杂存储的用户数据,一方面从保护用户的隐私角度,要研究如何判断哪些电子数据是合法的,哪些用户数据是不应触及的,另一方面也要保障电子数据的真实性和关联性。

3.2 综合性多样性取证工具产品的研究

在大数据时代,人们交流方式多样化,信息分享便捷化,数据已成为人类生产生活的重要基础资源,计算机不再是生产数据的主力军,大量的取证数据源将来自各类物联网传感器、汽车、摄像头、洗衣机、烤箱等在内的智能设备等。比如在皮肤上可以监测运动时健康状况的电子纹身,汽车的行驶数据、智慧城市传感数据、家用电器操作指令、各类共享出行设备的信息记录等,这些信息来源包括智能设备、控制智能设备的移动APP、智能设备与云端的通信信息。

大数据环境下电子数据的形式将更多样化,非结构化、半结构化的数据会越来越多,来源不同的非结构化、半结构化数据可能记录着嫌疑人涉嫌犯罪的痕迹,这些异构多源数据是相互关联的,单独分析每个来源数据,是难以给案件侦查提供有效地办案线索和证据来源,当前传统单一型的电子数据单兵工具无法统一处理案件过程中各个阶段异构多源的电子数据取证要求。虽然目前可以采用分层思想开展电子数据取证,例如,整合传统取证工具提取实时证据,虚拟机电子数据采用自动化提取技术,客户端本地缓存数据提取等,但是由于云计算具有分布性和虚拟性等特性,传统的基于单机的电子数据提取存在诸多局限,在落地实施方面普遍存在存储开销和性能负载过高、运维困难等问题[7]。因此,从电子数据提取收集技术角度看,针对无所不在的各类物联网传感器、智能设备,综合性多样性取证工具产品、基于大数据架构取证平台的研究是未来大数据环境下电子数据取证领域的一个研究重点。

3.3 电子数据分析检验技术研究

电子数据分析检验技术指的是在电子数据收集的基础上,对所提取的电子数据结合案件进行合理解释后所涉及的技术,具体包括数据复制技术、数据恢复技术、关键字搜索技术等。

大数据环境下,面对巨大的数据量,在电子数据分析检验技术的研究中,一是在取证思路上要建立从“分析所有数据以确保不遗漏任何内容”到更多地依赖于智能方法研究的转变,二是要在数据源的分析、文件搜索等方面开展大数据智能取证检索技术研究,研究和开发智能检索引擎,满足全面、准确、快速的取证检索,三是要在事件重构等方面,展开将杂乱无章的、分散的数据变成有条理的、集中的档案化数据基础上,强化大数据挖掘算法的研究,结合公安办案工作实际需求,强化由案到人、由案到物、由案到案的案件串并等关联模型的算法研究。

3.4 电子数据取证的可视化技术研究

由于银行柜台、网上银行、手机银行等各种交易系统中会留下犯罪的蛛丝马迹,在侦查实践中,通过核查这些数据,可以展开以“资金流”引导“犯罪流”的侦查。例如,经济犯罪中的查账分析在现阶段可以通过顺查和逆查分析账表,采用抽查法开展数据抽样分析,或者采用數据查询方法、盘查法、统计分析等数据分析技术,能够得到大量可靠的线索和证据来源。在大数据环境下,这些账户的交易进出账频率、金额特征、资金流向等数据不仅数据量巨大,而且资金关系互相交织显得异常复杂,依靠人工梳理根本不可能完成复杂的资金数据分析。

可视化是指把数据转换成图形,通过可视化图形界面,帮助分析人员洞察出数据背后隐藏的潜在信息,数据可视化有助于海量复杂数据的分析[6]。可视化可以提供取证人员对电子数据的直观感受,取证人员通过交互式图形界面,结合自身的取证背景知识,可以对收集和提取的电子数据进行不同方面的分析和理解,“洞察” 收集提取的电子数据其内在因素的模式和关联,快速从中发现问题。另一方面,随着《电子数据司法鉴定通用实施规范(SF/ZJD0400001)》、《公安机关鉴定规则》、《关于建立司法鉴定管理与使用衔接机制的意见》等相关规定和指导意见的出台,电子数据鉴定人依法出庭将成为常态,如何在法庭上将抽象的、异构多源的电子数据以直观可视的方式展示,如何让电子数据分析结果成为有利的呈堂证供,电子数据取证的可视化技术研究可以解决此类问题。

4 结束语

电子数据取证技术支撑电子数据的识别,贯穿于整个电子数据取证过程中,电子数据取证技术之于整个电子数据取证工作的重要性不言而喻。大数据时代背景下,传统的电子数据取证技术及其技术方法应用在大数据环境下存在很大的局限性。在电子数据取证技术发展中,要充分利用大数据技术其带来的发展优势,回避大数据技术带来的风险,让大数据变成活数据、有价值的数据,成为案件侦查的线索来源和法庭采纳的证据,才能发挥出电子数据取证的最大实效。

【参考文献】

[1]李毅.电子数据取证发展概况[J].中国信息安全,2019,(05):44-47.

[2]张其前,尤俊生,高云飞.大数据取证技术综述[J].信息安全研究,2017,(9):795-802.

[3]高元照,李学娟,李炳龙,吴熙曦.云计算取证模型[J].网络与信息安全学报,2017,(9):13-23.

[4]杜春鹏.电子证据取证和鉴定[M].中国政法大学出版社,2014年版,82-84.

[5]肖伊涵,石天唯.基于大数据环境下的电子数据审计机遇、挑战与方法[J].纳税,2018,(02):194-195.

[6]陈伟.SMIELIAUSKAS Wally.大数据环境下的电子数据审计:机遇、挑战与方法[J].计算机科学,2016(01):8-13.

[7]高运,伏晓,骆斌.云取证综述[J].计算机应用研究,2016,(1):1-6.

[8]丁丽萍,刘雪花.云环境下的电子数据取证技术研究[J].中国信息安全,2019,(05):59-60.

猜你喜欢

环境研究
FMS与YBT相关性的实证研究
长期锻炼创造体内抑癌环境
2020年国内翻译研究述评
辽代千人邑研究述论
一种用于自主学习的虚拟仿真环境
孕期远离容易致畸的环境
视错觉在平面设计中的应用与研究
不能改变环境,那就改变心境
EMA伺服控制系统研究
环境