APP下载

大数据对公安情报流程影响研究

2015-01-16李建辉陈俊旭单一唯

湖北警官学院学报 2015年3期
关键词:结构化警务情报

李建辉,陈俊旭,单一唯

(中国人民武装警察部队学院,河北 廊坊065000)

近年来,大数据(big data)一词在经济、金融、IT等领域被广泛提及,人们用它描述信息爆炸时代产生的海量数据。随着互联网、物联网技术的发展,信息技术领域的变革日新月异,数据正以前所未有的速度和规模产生、累积。2013年3月29日,美国宣布“大数据研究和发展倡议”,[1]提出通过对海量数据的挖掘、分析,加快大数据在美国科学、工程及国家安全等领域的应用,转变当下的教学和学习方式,并希望与相关行业和机构携手迎接大数据带来的机遇和挑战。同样,大数据时代的到来必将对我国的公安情报工作产生深远影响。

一、大数据的含义和特征

大数据是当前信息技术领域、计算机领域的研究热点。截至目前,学术界对大数据的定义还没有形成统一的认识。不同学者、研究机构从不同的角度给大数据下了定义。亚马逊网络服务(AWS)大数据科学家John Rauser认为:大数据是任何超过了一台计算机处理能力的庞大数据量。全球著名咨询管理公司麦肯锡认为:无法在一定时间内用传统数据库软件工具对内容进行抓取、管理和处理的数据集合即为大数据。从上述有关大数据的定义,结合数据的用途可以总结出大数据具有“4V”特点:

(一)规模(Volume)大

大数据时代,接收和处理的数据规模从GB、TB(1TB=1024GB)、PB(1PB=1024TB)跃升至 EB(1EB=1024PB)、ZB(1ZB=1024EB)级别,出现“超大规模”、“海量”数据。随着数据量的爆炸式增长,以后必将出现新的数据计量单位。

(二)类型(Variety)多

数据来源增多,且以不同形态和格式呈现,如文本、图片、视频、音频等众多形式。数据从结构化数据向结构化、半结构化和非结构化融合演变,且半结构化和非结构化数据所占比重与日俱增。

(三)速度(Velocity)快

庞大的数据集合加之数据的时效性必然要求对数据的高速处理,数据流转、分析、储存、检索等环节较之以往的速度都有大幅提升。

(四)价值(Value)密度低

纷繁复杂的数据中蕴含着难以估计的价值,通过对庞大的数据进行处理、整合分析,可以发现新的知识,创造新的、更大的价值。但是,随着数据量的爆炸性增长,数据中的噪音也在增多,数据的价值呈现出稀疏性特点,故数据的价值密度在降低。

二、大数据的产生和处理模式

在数据的产生和发展历程中,从来没有像今天这样的速度和规模产生如此庞大的数据。数据的产生已经不受时间、地点的局限,数据的管理方式随之产生了变革。20世纪60年代末70年代初产生了数据库技术,数据库是按照数据结构来组织、存储和管理数据的仓库。其主要目的是有效地管理和存储大量的数据资源。从数据库技术的出现到大数据时代的到来,数据的产生经历了三个发展阶段。

(一)大数据的产生

从开始采用数据库进行数据管理开始,人类社会的数据产生方式大致经历了三个阶段,数据产生方式的巨大变化最终导致大数据时代的到来。

1.数据被动产生阶段。数据库技术的发展使得数据管理的复杂度大大降低,不同的组织、机构都建立了本系统的数据库,来运营管理本系统的数据。例如,超市的销售记录系统,超市每售出一件商品经扫描该商品后就会在超市数据库中产生一条销售记录;银行的交易记录系统,银行与客户间每进行一次交易,银行数据库中就会形成一条交易记录。这种数据产生方式的主要特点是数据往往伴随着一定的运营活动而产生并记录在数据库中。这个阶段数据产生方式就是被动的。

2.数据主动产生阶段。该阶段以因特网(Internet)的诞生为标志,尤其是进入Web2.0时代,数据开始快速增长,主要表现在以下两个方面:一是以博客、微博、微信、QQ为代表的新型社交网络的出现和快速发展,用户可以随时随地表达自己的感想,这些感想便以数据的形式出现在网络上。二是以智能手机为代表的新型移动设备终端的出现,手机便于携带,随着网络信号的覆盖,可以全天候接入互联网观看世界最新动态,发表自己的观点。这个阶段数据的产生方式是主动的。

3.数据自动产生阶段。随着传感技术的发展及广泛应用,人们开始将微小的传感器安装在社会的各个角落,通过这些设备监控整个社会的运转情况,这些传感器会源源不断地产生新数据。此外,如公安机关的“天眼”工程,在城市的主要道路的路口安装电子监控(电子眼),监控过往车辆和行人,以便记录交通工具的轨迹,对违规车辆进行拍照记录,从而实施交通管理。这一阶段数据的产生方式便是自动的。自动式的数据是大数据产生的根本原因。

(二)大数据的处理模式

大数据的“4V”特点决定了它的数据处理方式与“小数据”时代的数据处理方式会有很大差别。大数据的处理模式主要有两种,流处理(stream processing)和批处理(batch processing)。流处理是实时处理,批处理则是先存储后处理。

1.流处理。有些数据具有很强的时效性,数据价值会随着时间的流逝而递减。这就要求对数据的处理一刻也不能耽搁,必须尽可能快地对最新数据进行分析。这种数据处理模式就是流处理。

2.批处理。在实践中,源源不断的数据并不总是眼下工作所需的,其分析结果可能对未来产生效用,故直接处理会占用有限的数据流通道并且耗费更多的人力而造成数据处理效率的降低,故可采取先存储数据后处理的批处理模式。如公安机关获取的日常视频监控数据,并不需要实时处理,在有案件的情况下可以提取与案件相关、与案发地相近的一段时间内、一定范围内的视频监控,把这些视频资料集中起来从中查找线索。

无论是流处理还是批处理,在这两种模式下大数据所涉及到的信息量规模超越目前使用的主流数据分析软件的处理能力。研究人员已开始研究新的处理模式和技术,如采用大规模并行处理数据库、分布式数据库、云计算平台等来实现对大数据的分析。

三、公安情报流程评析

情报流程是情报实践工作和理论构建的核心概念。美国情报界认为,情报流程是将信息转变为情报并让用户获得的过程,它由六种相互联系的情报行动组成:计划与指导、搜集、处理与加工、分析与生产、分发与整合以及评估与反馈。[2]目前,我国学术界还没有形成情报流程的统一定义。无论军事情报领域还是竞争情报领域亦或其他情报领域,大多都是从用户需求开始,经分析研判形成情报产品应用于决策这样一个线性或环形的情报流程。公安情报流程则是公安机关将信息转变工作所需情报的过程,是指公安情报工作所遵循的程序和步骤。如果将情报视为由若干环节组成的系统,那么一个设置科学、合理的情报流程就能发挥情报的最大效用。公安情报流程经历了从信息主导警务的情报流程到情报主导警务的情报流程的演变,[3]见图1。

图1 情报主导警务的情报流程图

图2 情报主导警务的情报流程图

上述两种不同的情报流程是基于信息与情报的区别反应在警务工作中的不同模式。近年来,情报主导警务理念逐渐被我国各级公安机关所接受,今天已成为公安工作的基本理念。情报主导警务的情报流程是对情报生产格局及生产操作程序的优化和再造,是基于当下日益繁重的警务工作对不断增长的情报需求而设计创造出来的公安信息运转新模式。该流程是一个策划→收集→评估→整理→分析→发布→反馈→策划的七步循环过程,大量的情报在循环过程中传送到基层一线实战部门,情报主导警务工作的效应显现。

在“小数据”时代,这种流程设计能够应对有限量的且结构化的数据,实现公安信息向公安情报的快速转化。这种线性、闭合、循环的情报流程处理的信息量与大数据相比是极其有限的。当前的公安情报流程对于数量一般的结构化数据能进行实时处理,而大数据时代数量庞大的半结构化、非结构化数据对现有的公安情报流程必将带来颠覆性冲击。

四、大数据对公安情报流程带来的挑战

现有的公安情报数据库是基于普通数据规模构造的数据库,目前的数据处理能力在TB级别,而大数据时代的数据以PB、EB甚至ZB级别增长,当前的数据管理和处理能力远远不能满足数据规模的需求。公安机关迫切需要对现有的情报数据库更新换代、扩容增量。

(一)数据类型复杂,难以统一处理

大数据中包含着结构化、半结构化和非结构化数据,数据种类繁多。非结构化数据的多样性决定了数据处理技术的复杂性。目前公安机关常用的情报分析软件只能处理结构化数据,对非结构化的数据无法提取和解读。此外,数据的复杂性已超越现有分析软件处理能力的极限。

(二)数据量庞大,难以实时处理

数据具有很强的时效性,数据的价值会随着时间的推移而逐渐降低甚至消失。情报同样具有时效性,尤其是情报主导警务战略的流行,对情报时效性的要求则更高了。大数据时代源源不断涌入的数据,必然会给有限的警力和数据通道带来巨大压力。

(三)运算量大,技术要求高

情报分析是情报流程的中心环节。大数据时代,各种信息都以数据的形式呈现,数据是情报分析原材料。大数据时代的到来,使得当前情报主导警务下的情报流程中的分析环节难以应对数据洪流(data deluge)的到来,传统的数据分析技术如统计分析、定量分析、层次分析、数据挖掘等都需要优化技术架构,才能使数据流转顺畅并在实战中应用。

五、大数据时代公安情报流程优化设想

大数据对公安情报工作既带来了前所未有的机遇又必将产生颠覆性影响。传统的公安情报流程难以适应大数据的要求,必须加以变革和优化。大数据时代,公安情报流程实质上是处理大数据的流程。笔者根据大数据的特点,结合公安情报工作实际提出处理大数据的以下几个步骤。

(一)数据挖掘

数据挖掘(Data mining)是指从观察数据(经常是大量的)中分析探索到某些未知关系,并且用一种新的方式归纳数据,使得这些数据对于数据拥有者更加容易理解和有价值。[4]数据挖掘需要对数据进行清洗、合并、压缩,要转换格式,然后进行统计分析、知识发现以及可视化处理。数据洪流中往往夹杂着大量的数据噪音,由于大数据具有数据规模大而价值密度低的特点,把这些数据全部流转进入公安情报流程必将耗费大量的人力、财力及存储空间,占用大量数据通道,影响公安情报工作效率。因此,在正式处理数据前,要对数据进行清洗,剔除数据中的噪音。大数据中包含着大量的半结构化和非结构化数据,而当前的情报分析技术及相关软件能识别和解读的数据格式是有限的。尽管当前的数据分析软件在尽可能多地兼容不同格式的数据,但有时大数据中非结构化的数据经过清洗后依然无法直接进入分析程序,可能出现有些数据无法识别的问题。因此,在进入分析程序前,需要对数据统一加工,将那些半结构化和非结构的数据进行编码、合并、压缩,转换格式,使之结构化和标准化,从而使数据分析软件能够直接识别、解读、分析这些数据。数据经标准化操作之后,开始进入情报主导警务下的情报流程。需要指出的是,有些数据难以找到对应的标准而无法进行标准化,情报分析人员要把这类数据提取出来进行人工处理。

(二)数据管理

数据挖掘实际上是对大数据的预处理,对大数据进行清洗和清除噪音后,便可对数据进行进一步处理。数据管理环节的任务:一是根据情报用户的需求,明确情报产品应包含的数据项。二是对数据进行分类,如根据数据的格式不同,分成文本数据、图片数据、音频数据、视频数据等分别进行处理。根据数据的时效价值,引导数据进入流处理和批处理模式。三是对数据进行整理,通过解码、解压缩、翻译、数据简化将大量的数据转换成便于分析操作的格式。数据管理环节在新的情报流程中能够起到策划指导作用,并能减少数据的运算量,从而提高分析效率。

(三)分析预测

情报的分析与研判是情报工作的中心环节,也应当是情报学研究的中心。[5]数据挖掘和数据管理环节均是为分析做的准备和铺垫。分析环节是运用各种情报分析方法(假设分析、回归分析、贝叶斯分析等)和工具对数据进行归纳、推导和运算,从中发现蕴藏在数据中的规律并对未来事件进行预测。与以往的普通数据处理环节一样,数据分析是整个大数据处理流程的核心,因为大数据的价值产生于分析过程。[6]公安情报的分析流程本质上是对数据的处理过程,只不过分析大数据所采用的技术和算法较之以往更加复杂,如云计算①云计算(Cloud computing)是一种按使用量付费的模式。这种模式提供可用的、便捷的、按需的网络访问,进入可配置的计算资源共享池(资源包括网络,服务器,存储,应用软件等),这些资源能够被快速提供,只需投入很少的管理工作,或与服务供应商进行很少的交互。、遗传算法、神经网络、回归分析、分类分析、聚类分析、数据融合与集成、情感分析、网络分析、空间分析、时间序列分析等技术。[7]传统的数据处理工具已经无法满足大数据时代数据管理、分析与需求多样化的要求,一种新的数据处理工具应运而生——Hadoop,是目前最为先进的大数据处理平台,已经发展成为包括文件系统、数据库、数据处理等功能在内的完整生态系统。公安机关可以引入这种工具,建立警务大数据分析研判平台。

(四)情报产品分发与反馈

对庞杂数据进行一系列的分析研判所形成的结果就是情报产品。在大数据中获取的情报产品需要提交到决策部门,决策部门依情报内容下达各种指令传递到一线警员,情报的一次循环就完成了。在公安情报实践工作中,一次情报循环往往不能圆满地完成任务,一线警员第一次接到上级依据情报产品进行的行动并不能保证任务的顺利完成,因此需要将执行结果迅速反馈到情报部门,情报部门根据基层反馈的情况,进行进一步的数据搜集和挖掘,由此进入下一个情报循环过程,如此往复才能推动任务的圆满完成。见图2。

图2 大数据时代公安情报流程

六、结论

大数据时代给公安情报工作带来了海量的情报素材,同时也给情报处理工作带来了巨大挑战,它对公安情报流程的影响是颠覆性的。在公安情报工作实践中,每名警员都要具有敏锐的数据意识和数据思维,认识大数据,研究大数据,运用大数据,利用大数据带来的丰富的数据资源。同时,主动出击,迎接大数据带来的各种挑战,不断调整优化出一个更加科学合理的公安情报工作流程,为“情报主导警务”战略的实施提供更加精确的情报支撑。

[1]Obama Administration Unveils"Big Data"Initiative:Announces$200 Million in New R&D Investments[R].USA:Executive Officeof the President,2012.

[2]张晓军.美国军事情报理论研究[M].北京:军事科学出版社,2011:70.

[3]崔嵩.再造公安情报[M].北京:中国人民公安大学出版社,2008:38-39.

[4]David Hand,Heikki Mannila,Padhraic Smyth.数据挖掘原理[M].剑桥:MIT出版社,2001:1.

[5]赵峰.情报与情报研判:学科建设路径[J].中国人民公安大学学报(社会科学版),2005(1).

[6]孟小峰.大数据管理:概念、技术与挑战[J].计算机研究与发展,2 013(1).

[7]严霄风,张德馨.大数据研究[J].计算机技术与发展,2013(4).

猜你喜欢

结构化警务情报
情报
情报
情报
促进知识结构化的主题式复习初探
改进的非结构化对等网络动态搜索算法
结构化面试方法在研究生复试中的应用
左顾右盼 瞻前顾后 融会贯通——基于数学结构化的深度学习
HIV感染的警务预防与处置
警务训练中腹痛的成因及预防
交接情报