基于ARIMA模型的通讯网络诈骗犯罪增长趋势分析

2017-06-21韩一士范英盛李国军郑滋椀

理论观察 2017年5期

韩一士++范英盛++李国军++郑滋椀

摘要：近年来，随着网络通信技术的不断发展，通讯网络诈骗犯罪已经成为严重危害群众财产安全的侵财犯罪之一，也是困扰公安机关侦查破案的一大难点问题。基于ARIMA模型，通过对2012年7月至2015年6月期间浙江省衢州市通讯网络诈骗案件的发案量的研究，给出了浙江省衢州市通讯网络诈骗犯罪的发案模型。经过检验，模型与之后时间内通讯网络诈骗犯罪发案量吻合良好，为当地警方预防犯罪提供了指导，从而达到提高警务活动效率的目的。

关键词：通讯网络诈骗；时间序列分析；ARIMA模型；情报分析；警务活动

中图分类号：D92 文献标识码：A 文章编号：1009 — 2234（2017）05 — 0101 — 03

0引言

通讯网络诈骗作为近年来兴起的一种新型犯罪，在我国迅速产生和蔓延，由于通讯网络诈骗具有明显的地域不确定性，发案地和犯罪嫌疑人所在地往往不在同一区域。传统的通过对犯罪热点进行分析来调整警务资源分配的方式面对这种新型的犯罪方式难以奏效。因此，必须从时间序列方面来探究通讯网络诈骗犯罪的特点。本文针对浙江省衢州市2012年7月至2015年6月通讯网络诈骗发案量建立ARIMA模型，并使用该模型对衢州市之后一段时间内的犯罪量进行预测。

本文采用的数据来自“基于大数据架构的公安信息化应用”公安部重点实验室，使用的分析软件为Eviews6.0。

1浙江省衢州市通讯网络诈骗犯罪量ARIMA模型的建立

1.1ARIMA模型概述

ARIMA模型是求和自回归移动平均模型（auto-regressive integrated moving average）的简写，主要用于将非平稳时间序列差分平稳后进行分析，其表达式为：

其中实参数p称为自回归系数，？兹1，？兹2，…？兹q称为移动平均系数，自回归系数和移动平均系数均为模型的待估参数。？着t为相互独立的白噪声序列，且服从均值为0，方差为？滓2的正态分布。ARIMA模型又可以表示为ARIMA（p，d，q），其中p为自回归阶数，q为移动平均项数，d为使时间序列平稳所作的差分次数。确定p，d，q三者的阶数是ARIMA模型建立过程中所要面对的一个重要问题。

1.2浙江省衢州市通讯网络诈骗犯罪量时间序列的平稳性检验及处理

在进行时间序列分析时，我们希望该时间序列是平稳的，否则往往会出现大量随机变量，且一些实际上不相关的随机变量之间会表现出很大的相关性。为避免这种情况出现，下面首先进行平稳性检验。

平稳性检验主要有单位根（ADF）检验和PP检验两种方法，将浙江省衢州市2012年7月至2015年6月的通讯网络诈骗犯罪量序列记为{Xt}。通过对{Xt}进行ADF检验及PP检验（图略），结果显示{Xt}序列是非平稳的，这说明通讯网络诈骗犯罪量序列{Xt}受到多种因素制约为非平稳序列，需要对其进行处理使其变得平稳。常见的处理方法有取对数法及差分法，在这里我们将两种方法综合运用。

考虑到{Xt}存在异方差，我们先对{Xt}进行对数处理得到新的序列{Yt}，其中Yt=1n（Xt）。下面对{Yt}进行一阶差分以提取其中所含有的确定性信息，得到新的序列{Zt}。此时{Zt}即为我们想要得到的平稳序列，为确定其平稳性，再对{Zt}进行ADF检验和PP检验。

经检验得，在1%的置信区间下，ADF检验中的检验值为-2.639210，大于ADF检验值-6.263234。PP检验中的检验值为-2.634731，大于PP检验值-13.34858，因此拒绝序列非平稳的统计假设，序列{Zt}是平稳的，且存在一定的趋势性，可以进行时间序列分析。

1.3浙江省衢州市通訊网络诈骗犯罪量时间序列ARIMA模型阶数的分析

为了确定ARIMA模型的阶数，需要先求出序列{Zt}的样本自相关系数（ACF）和样本偏自相关系数（PACF）的值。

下面通过观察表一来确定模型的阶数，注意到自相关系数（ACF）和样本偏自相关系数（PACF）都是拖尾的，1、3、4阶自相关系数及1、3阶偏自相关系数超过正负两倍标准差，显著不为0，因此估计p=3，q=4。考虑到之前进行的序列平稳性检验，我们进行了一次差分便得到了平稳的时间序列，因此确定ARIMA模型的步长为1。所以初步估计使用ARIMA（3，1，4）模型对衢州市通信网络诈骗犯罪发案量的时间序列进行模拟和预测。

1.4衢州市通信网络诈骗犯罪量ARIMA模型参数估计

由于ARIMA模型的阶数决定存在着一定的主观性，因此我们在ARIMA（3，1，4）的基础上对阶数进行小幅变动并反复拟合。通过比较R^2、AIC、SC这三个统计量的取值，我们发现疏系数模型ARIMA（4，1，（1，3，4））模型的R^2统计量约为0.74，在所有可取模型中最大。AIC和SC统计量分别约为0.35和0.72，在所有可取模型中最小。根据R^2、AIC和SC准则确定ARIMA（4，1，（1，3，4））模型为最佳模型，其表达式为

Zt=-0.763118Zt-1-0.759613Zt-2-0.737856Zt-3+0.051669Zt-4+0.106490？着t-1-0.137473？着t-3-0.95828l？着t-4

下图为模型的拟合结果图像

从图中可以观察到拟合结果良好，因此初步确定ARIMA（4，1，（1，3，4））模型为最佳模型。但是肉眼的观察往往不具有说服力，为了提高可信度，下面对拟合结果中的参数进行检验。

2衢州市通信网络诈骗犯罪量的预测

由之前估计得到的结果，衢州市通信网络诈骗发案量的最优模型ARIMA（4，1，（1，3，4））模型的表达式为：

Zt=-0.763118Zt-1-0.759613Zt-2-0.737856Zt-3+0.051669Zt-4+0.106490？著t-1-0.137473？着t-3-0.95828l？着t-4

经过反向推导，得到原时间序列{Xt}的表达式为：

Xt=eYt-1-0.763118Zt-1-0.759613Zt-2-0.737856Zt-3+0.051669Zt-4+0.106490？着t-1-0.137473？着t-3-0.95828l？着t-4

下面使用得到的ARIMA（4，1，（1，3，4））模型对衢州市2015年7月至2015年12月通讯网络犯罪发案量进行预测。在此之前，本文将先使用得到的ARIMA（4，1，（1，3，4））模型对2015年1月到2015年6月的数据进行检验，如果拟合的结果较好，则说明模型较为成功，我们可以用其对未来一段时间内的衢州市通信网络诈骗犯罪发案量进行预测。如果模型拟合的结果不理想，则需要根据实际情况对模型进行修改。以下是我们对2015年1月至2015年6月衢州市通讯网络诈骗犯罪发案量估计结果。

通过观察表6我们发现，2015年1，3，4，5，6月的相对差值都小于15%，取绝对值后平均误差约为9.2%，预测结果较好。但是2015年2月预测结果相对误差高达71.4%，我们通过观察发现该月的实际犯罪量发生了巨大变化，低于2015年上半年平均水平的一半。考虑到实际情况，出现这种情况的原因很有可能是当地公安机关对通信网络诈骗采取了专项打击，导致了发案率大大下降。因此，在统计学上可以认为2015年2月的数据为坏点，不影响预测结果。

综上所述，ARIMA（4，1，（1，3，4））模型在短期内较好地反映了衢州市通信网络诈骗发案数量。下面是本文使用该模型对2015年下半年衢州市通讯网络诈骗案犯罪发案量的预测。

3结果分析与建议

本文采用ARIMA建模法进行分析，并对2015年7月至2015年12月的发案量进行了预测。建模结果R^2较大，对犯罪量变化的解释率为73.87%，预测结果较为理想。结果显示，2012年7月至2015年6月通讯网络诈骗发案数量总体将呈上升趋势。在2015年6月以后的每一个月中，通过得到的ARIMA模型，警方可以较为精确地得知将会发生的通讯网络诈骗案件数量，这对警方调配警力提供了重要的参考依据〔6〕。

传统意义上的犯罪预防，往往建立在经验的基础上，存在着大量主观判断，往往结果不尽如人意。而随着统计学的发展，引入计算机工具来进行犯罪预测必将是未来的趋势。通过研究发现，犯罪数据的变化并不是混沌不明的，而是存在着特定的规律，是可以预测的〔7〕。一些学者如陈鹏等运用聚类分析法对犯罪进行短期预测，取得了较好的效果〔8〕。希望犯罪学界对加大对统计学的关注力度，将统计学的方法引入犯罪时空预测，共同推动犯罪学的发展。

〔参考文献〕

〔1〕禹文豪.路径单元剖分法支持下的网络空间分析〔D〕.武汉大学，2015.

〔2〕黄超，李继红.犯罪预测的方法〔J〕.江苏警官学院学报，2011，01：107-110.

〔3〕陈鹏，马伟.层次聚类法在空间犯罪热点分析中的应用〔J〕.中国人民公安大学学报：自然科学版，2013，01：64-67.〔责任编辑：陈玉荣〕