APP下载

未来反恐态势预测研究

2019-10-11冒伟

软件导刊 2019年7期
关键词:自然语言处理

摘 要:通过对全球恐怖主义数据库(GTD)进行分析,为未来反恐防恐行动提供有价值的信息支持,提出利用大数据挖掘方法对未来反恐态势进行分析。首先采用N-gram模型对原始数据中的motive属性进行挖掘,分析恐怖袭击事件发生的主要动机。其次通过AR自回归模型,对恐袭造成的死亡人数进行预测。最后通过构建TreeMap图,展示未来全球某些重点地区的反恐态势,从恐怖事件发起动机、死亡人数、重点地区3个方面对未来恐怖袭击进行预测。实验结果显示,采用大数据分析预测精度较高。

关键词:N-gram模型;AR自回归模型;TreeMap图;自然语言处理

DOI:10. 11907/rjdk. 182602 开放科学(资源服务)标识码(OSID):

中图分类号:TP301文献标识码:A 文章编号:1672-7800(2019)007-0028-04

Research on Future Counter-terrorism Situation Based on Big Data Analysis

MAO Wei

(School of Optical-Electrical and Computer Engineering,University of Shanghai for Science and Technology,Shanghai 200093,China)

Abstract: The analysis of data in the global terrorism database (GTD) can provide reliable and valuable information support for future counter-terrorism and counter-terrorism operations. This paper proposes the method of big data mining to analyze and study the future counter-terrorism situation. First, n-gram model is used to mine motive attributes in original data and analyze the main motivation of terrorist attacks. Secondly, AR autoregressive model was used to predict the death toll caused by terrorist attacks. Finally, TreeMap map was constructed to show the counter-terrorism situation in some key regions of the world in the future. The obtained results are used to predict future terrorist attacks from three aspects: the motivation of terrorist incidents, the number of deaths, and key areas. Experimental results show that the prediction accuracy of big data analysis is relatively high.

Key Words: N-gram model; AR autoregressive model; TreeMap diagram; natural language processing

作者简介:冒伟(1993-),男,上海理工大学光电信息与计算机工程学院硕士研究生,研究方向为机器学习、自然语言处理。

0 引言

2001年9月11日美国发生恐怖袭击事件已经过去了17年。恐怖袭击不仅造成重大人员伤亡和财产损失,而且给世界带来巨大的心理阴影,严重扰乱社会秩序,阻碍世界经济发展。在信息时代,通过对恐怖袭击事件相关数据进行分析,了解受害者、凶手、伤亡和后果等信息,可更深入探寻近20年恐怖袭击事件发生规律,为未来的反恐防恐行动提供有价值的信息支持。

文献[1]提出应用改进神经网络模型对恐怖袭击进行预测,利用BP神经网络实现风险指数预测,并结合遗传算法优化神经网络的初始值和阈值。但该方法预测模型的外推年份由专家评估而定,存在一定的主观性,而且使用遗传算法对BP神经网络进行改进,时间复杂度较高。文献[2]利用隐马尔可夫模型与贝叶斯网络方法,通过分析一些先前发生的事件预测未来一段时间可能发动的恐怖活动。该方法检测过程获取的情报信息较少,一定程度上影响了模型结果的精确度。文献[3]利用改进的随机森林算法对犯罪进行预测,但由于缺少实际应用数据,分类精度和分类可靠性得不到保证。文献[4]利用加权贝叶斯方法预测恐怖组织行为,所提算法在准确度及时间复杂度上优于CAPE算法,但存在计算繁琐、耗时长等問题。

针对以上问题,本文对全球恐怖主义数据库(GTD)中1998-2017年世界发生的恐怖袭击事件记录进行分析。首先采用自然语言处理中常用的N-gram模型对原始数据中的motive属性进行挖掘[5],分析恐怖袭击事件发生的主要动机。具体采用二元Bi-gram和三元Tri-gram生成词云方法[6-7],分析出大部分恐袭事件动机与宗教暴力及武装暴力有关[8]。其次,通过对历史数据进行分析,得出历年恐袭造成的死亡人数随时间变化折线图,将2014年后的数据作为训练对象,通过AR自回归模型[9-11],对2018年恐袭造成的死亡人数进行预测,结果为18 934人左右。通过绘制历年各地区恐袭死亡人数折线图,分析出中东、北亚、南亚和亚撒哈拉地区是近几年恐袭死亡人员重灾区。最后,通过构建TreeMap图,获得历史上国家死亡人数和受伤人数树形图,发现伊拉克、尼日利亚、阿富汗、叙利亚是全球恐怖袭击重灾区,需要动用国际力量重点防范。

1 数据预处理

(1)动机(motive)分析。需对全球恐怖主义数据库(GTD)中motive字段中出现的常见词/无意义的词进行过滤,如“Unknown”,“attack”,“specific”,“motive”,“sources”,“unknown”,“claimed”,“targeted”,“carried”,“noted”,“incident”,“stated”,“responsibility”,“the”,这些词没有包含有价值的信息,会对分析产生干扰。

(2)时间特性分析。主要关注事件死亡人数和受伤人数。从死亡人数出发去评判袭击事件影响程度、地区受灾程度以及预测来年可能产生的恐怖袭击所造成的死亡人数,预测未来几年恐怖袭击态势。

2 模型建立

动机分析指挖掘恐怖袭击凶手的主要作案动机[13-14]。通过挖掘原始数据里的motive属性,对动机进行详细分析[15-16]。采用自然语言处理中常用的N-gram模型[17],它是一种基于统计语言模型的算法,其基本思想是将文本里的内容按照字节进行大小为n的滑动窗口操作,从而形成长度是n 的字节片段序列。每一个字节片段称为gram,再对所有gram的出现频度进行统计,并且按照事先设定好的阈值进行过滤,形成关键gram列表,也就是该文本的向量特征空间,列表中的每一种gram就是一个特征向量维度。该模型基于马尔科夫假设,即假设在一段文本中第N个词的出现只与前面n-1个词相关,与其它任何词都不相关。基于这样一种假设,可以评估文本中每个词出现的概率,整句的概率就是各个词出现概率的乘积,这些概率可通过直接从语料中统计N个词同时出现的次数得到。本文采用常用的二元Bi-Gram和三元Tri-Gram生成词云[18]。

针对时空分析,采用自回归AR模型预测2018年恐怖袭击可能造成的死亡人数。自回归模型是一种用于处理时间序列预测的回归模型,是用同一变量之前的表现情况预测该变量本期的表现。本文中需要预测的变量即为2018年恐怖袭击造成的死亡人数,而训练数据即为往年的死亡人数。

3 模型求解

3.1 动机分析

动机分析采用基于N-gram模型的关键词提取算法,具体流程如下:

求解过程伪代码:

输入:[(w1,w2,w3,?,wn)]

计算:[P(w1,w2?,wm)=P(w1)*P(w2|w1)*P(w3|w1,w2)?][P(wm|][w1,w2,?,wm-1)]

二元-gram模型计算公式: [P(w1,w2,?,wm)=i=1mP][(wi|wi-1)]

三元-gram模型计算公式: [P(w1,w2,?,wm)=i=1mP][(wi|wi-2,wi-1)]

输出:概率最大的N个[(w1,w2,w3,?wn)]词序列

根据计算结果,使用二元Bi-gram和三元Tri-gram生成的词云如图1、图2所示。其中词短语越大其出现的概率越高,也相对更重要。

图1 二元Bi-gram模型词云

图2 三元Tri-gram模型词云

根据词云生成结果,可发现最常见的词组包括:“trend sectarian violence”,“larger sectarian violence”,“larger trend violence”,“sectarian violence iraqs”,“trend violence related”,“violence iraqs sunni”,“iraqs sunni minority”等。

通过对这些常见词组分析得到如下结论:①大部分恐怖袭击事件的动机都和宗教暴力及武装暴力有关;②伊拉克是恐怖袭击的重灾区;③larger 等词汇暗示了近几年恐怖袭击的程度与规模还会继续增长。

3.2 时空特性分析

为对未来态势进行较为准确的评估,首先需要对历史数据进行分析。以时间年份为横坐标,死亡人数为纵坐标,绘制历年恐袭造成的死亡人数折线图,如图3所示。

图3 历年恐袭造成的死亡人数折线

通过对图3进行分析,可以很直观地看出2014年是恐怖袭击造成死亡人数最多的年份,此后死亡人数呈线性降低态势。截取2014年后的数据作为训练数据,因为其符合AR自回归模型所要求的变量之间存在线性关系的要求。利用自回归模型对2018年死亡人数进行预测,模型公式如下:

[X=c+i=1pφiXt-i+εt]     (1)

式(1)中,c是常数项,[εt]为随机误差值。通过计算,预测2018年死亡人数应该在 18 934左右。

图4 2018年恐袭死亡人数预测

4 反恐態势预测

为研究下一年全球或某些重点地区的反恐态势,绘制历年各地区恐怖袭击造成的死亡人数折线图,如图5所示。从图5可以发现,中东、北亚、南亚和亚撒哈拉地区是这几年死亡人数重灾区域,其中,中东、北亚、南亚都有放缓趋势,但是亚撒哈拉地区2017年略有增长,从而判断其在2018年可能会有小幅增长。对重点反恐地区进行预测,构建TreeMap图[19-20],从而获得历史上国家死亡人数和受伤人数树形图,如图6所示。图6中,正方形面积越大,代表该国家该年份恐怖袭击造成的死亡人数越多,同时颜色越深,代表恐怖袭击造成的受伤人数越多。

图5 历年恐袭造成的各地区死亡人数

图6 各国历年恐袭造成死亡/受伤人数

从图6可以发现,伊拉克、尼日利亚、阿富汗、叙利亚仍是恐怖袭击的重灾区,虽然死亡人数逐年下降,但其规模从全球角度看依然很大,因此这些地区需要重点防范。

5 结语

采用N-gram模型有效挖掘了恐怖袭击的常见动机,并通过词云进行可视化分析,形象直观。使用自回归模型对恐怖袭击可能造成的死亡人进行量化预测,从而有效预测未来的恐怖袭击事态。构建了TreeMap图,从树状图中可以发现,伊拉克、尼日利亚、阿富汗、叙利亚仍然是恐怖袭击重灾区。本文采用大数据挖掘方法,有效分析预测了全球恐怖事件发展态势,较传统方法在预测精度上有了显著提高。

参考文献:

[1] 项寅. 基于改进神经网络的恐怖袭击风险预警系统[J]. 灾害学, 2018(1):32-33.

[2] 战兵,韩锐. 基于隐马尔可夫的恐怖事件预测模型[J]. 解放军理工大学学报:自然科学版,2015,16(4): 386-393.

[3] 孙菲菲,曹卓,肖晓雷. 基于随机森林的分类器在犯罪预测中的应用研究[J]. 情报杂志,2014,33(10): 148-152.

[4] 薛安荣,毛文渊,王孟頔,等. 基于贝叶斯方法和变化表的恐怖行为预测算法[J]. 计算机科学,2016, 43(12): 130-134.

[5] TRIPATHY A,AGRAWAL A,RATH S K. Classification of sentiment reviews using n-gram machine learning approach[J]. Expert Systems with Applications, 2016(57):117-126.

[6] DURRANI N,SCHMID H,FRASER A,et al. The operation sequence model—combining n-gram-based and phrase-based statistical machine translation[J]. Computational Linguistics,2015,41(2): 185-214.

[7] POPOVI? M. Chrf: character n-gram f-score for automatic mt evaluation[C]. Proceedings of the Tenth Workshop on Statistical Machine Translation,2015: 392-395.

[8] GOLDWATER S. Anlp lecture 6 n-gram models and smoothing[EB/OL]. https://onlinelibrary.wiley.com/journal/18673899,2018.

[9] WANG C,CHAN K S. Quasi-likelihood estimation of a censored autoregressive model with exogenous variables[J]. Journal of the American Statistical Association, 2018, 113(523): 1135-1145.

[10] PALM B G, ALVES D I, VU V T, et al. Autoregressive model for multi-pass sar change detection based on image stacks[C]. Image and Signal Processing for Remote Sensing XXIV,International Society for Optics and Photonics, 2018.

[11] KALLIOVIRTA L, MEITZ M, SAIKKONEN P. A gaussian mixture autoregressive model for univariate time series[J]. Journal of Time Series Analysis, 2015, 36(2): 247-266.

[12] 褚晓敏,朱巧明,周国栋. 自然语言处理中的篇章主次关系研究[J]. 计算机学报,2017,40(4): 842-860.

[13] CONNEAU A,SCHWENK H,BARRAULT L,et al. Very deep convolutional networks for natural language processing[J]. arXiv preprint, 2016(4):394-399.

[14] BROWN D, DALTON J, HOYLE H. Spatial forecast methods for terrorist events in urban environments[C].International Conference on Intelligence and Security Informatics. Springer, Berlin, Heidelberg, 2004: 426-435.

[15] CLAUSET A,WOODARD R. Estimating the historical and future probabilities of large terrorist events[J]. The Annals of Applied Statistics, 2013, 7(4): 1838-1865.

[16] NAJGEBAUER A,ANTKIEWICZ R,CHMIELEWSKI M,et al. The prediction of terrorist threat on the basis of semantic association acquisition and complex network evolution[J]. Journal of Telecommunications and Information Technology, 2008(3): 14-20.

[17] 吳应良,韦岗,李海洲. 一种基于 N-gram 模型和机器学习的汉语分词算法[J]. 电子与信息学报, 2001, 23(11): 1148-1153.

[18] 徐志明,王晓龙. N-gram 语言模型的数据平滑技术[J]. 计算机应用研究,1999,16(7): 37-39.

[19] 艾廷华,周梦杰,陈亚婕. 专题地图属性信息的 LOD 表达与 TreeMap 可视化[J]. 测绘学报,2014,42(3): 1-3.

[20] 周宁,陈旭毅,曾桢. 主题数据模型的可视化挖掘方法应用研究[J]. 数据分析与知识发现,2010,26(7/8):22-26.

(责任编辑:杜能钢)

猜你喜欢

自然语言处理
基于LSTM自动编码机的短文本聚类方法
自然语言处理与司法案例
基于组合分类算法的源代码注释质量评估方法
词向量的语义学规范化