APP下载

基于LSTM模型的盗窃犯罪预测研究*

2022-10-16徐会军福建警察学院

警察技术 2022年5期
关键词:警情时序犯罪

徐会军 福建警察学院

引言

犯罪治理是国家治理体系和治理能力现代化的重要内容之一,开展犯罪预防,维护社会治安,是关系人民群众生命财产安全和改革、发展、稳定的大事,对犯罪趋势的预测可以指导警力有效投入,然而,很多公安实战部门仍然使用同比、环比等较为简单和传统的趋势分析手段应对宏观情报,缺少较为科学的定量分析手段。在我国,盗窃类案件是占比较高的刑事案件,但由于其高发低破的特点,是公安机关较为头痛的一类犯罪,因此,以盗窃案件类为对象,开展基于深度学习的犯罪预测研究与应用,对于公安部门依据预测结果开展高发案件的专项整治行动与情报研判分析具有十分重要的实际意义。

本文以日为时间单位,采用LSTM网络开展盗窃案件的趋势预测分析,探索适合地区环境的犯罪预测模型和分析手段。

一、研究综述

犯罪预测的研究方向包括:犯罪时空预测(时序预测和犯罪预测)、犯罪类型预测、犯罪人预测、受害人预测和再犯预测[1],本文主要开展犯罪时序预测研究。时间序列数据通常能够刻画事物及现象的发展过程,并揭示其发展规律,通过建立合适的数学模型对过去时空的时间序列数据进行统计分析则可以实现有效预测[2],犯罪时序预测是利用犯罪数量时序数据进行犯罪预测的一种犯罪预测方法。

我国警务研究者自80年代初就开始运用不同的数理统计方法开展犯罪时序预测研究。杨萍采用数学模型对云南省1977~1986年连续10年的年刑事案件模拟仿真,较为准确的预测1987年的刑事案件数,为犯罪预测的可能性提供科学依据[3];李其富应用灰色预测模型GM(1,1)对全国的杀人案和抢劫案的案件数进行了外推预测[4];屈茂辉等建立了中国财产类犯罪的ARMA(1,10)时序预测模型[5];唐德权等采用2014年芝加哥犯罪数据,设计了一种多模态信息特征融合的犯罪预测算法[6];张晟运用决策树算法分析多发性盗窃案件以期预测潜在案发时段和区域[7];邓灵评引入多种聚类算法对入室盗窃犯罪行为分析,探索盗窃犯罪的时空规律[8]。研究者尝试多维度进行犯罪分析和预测,但多数依赖国外数据或国内的宏观统计数据,主要采用传统的机器学习方法或数理统计方法,多数集中于长期或宏观视角的研究分析,缺乏对于微观层面的数据分析以及对于短期预测研究还需进一步丰富与改进[9]。

传统的犯罪分析对于经验的依赖性强,容易受主观盲目性、分析数据量等因素限制;目前,我国犯罪的情势出现了新变化,新型犯罪不断出现,需要推广科学的研究方法在犯罪学中的应用[10],社会治理亟需犯罪学界贡献出更为科学有效的犯罪治理良策。犯罪预测面临的一个主要挑战是能否准确有效地分析日益增长的犯罪数据集[11],大数据时代的来临,为短期犯罪预测提供了技术支撑。在当前大数据时代背景下,随着机器学习方法在各研究领域的不断普及和应用,犯罪预测防控研究迎来了新的机遇,运用深度学习方法开展犯罪分析与预测研究,能够有效促进理论与实践,为社会治理与犯罪防控提供科学有效的手段。

犯罪事件具有时间和空间上的关联性,这种关联性在学习算法中表现为对数据时空特征的记忆性。深度学习之所以比传统机器学习具有更强的泛化能力,就是因为其良好的记忆能力,尤其长短期记忆模型(Long Short-Term Memory,LSTM)算法能够有效记住犯罪事件在发生时间和空间上的长期或短期特征,这是传统机器学习算法所不具备的。LSTM是由RNN发展而来的一种递归网络[12],具有隐藏单元循环递归的特点,能够将上一时间节点的特性传递到当前节点,在性能上具有更好的优势,近年来被广泛应用于时序分析研究上,沈寒蕾等提出基于长短期记忆模型的入室盗窃犯罪预测研究[9];颜靖华等提出基于LSTM网络的盗窃犯罪时间序列预测研究,对比ARIMA、支持向量回归、随机森林以及XGBoost等方法的预测结果,具有较高的预测精度[13];刘学仁等提出基于长短期记忆模型的盗三车犯罪预测[14]。从研究结果来看,基于深度学习的犯罪预测分析手段具有较为出色的预测表现,能够较好的实现犯罪行为的分析预测。

本文通过对A市的盗窃警情数据开展基于LSTM的盗窃犯罪趋势预测分析研究,通过分析提取盗窃案件内在的规律性和关联性,充分运用大数据技术“大海捞针”的特点,为A市公安机关预防犯罪行为的发生和案发后的情报研判提供较为科学的方法,对于指导公安机关实施微观打击,提升综合战斗力,具有十分重要的实战意义。

二、LSTM模型

1943年,Warren McCulloch和Walter Pitts提出人工神经网络(Artificial Neural Networks,ANN),打开了人工神经网络的全新局面。ANN是一种模拟人体大脑神经活动行为的复杂网络结构,通过对人脑神经元的建模和联接,构建出具有人脑神经功能的模型。神经网络从环境中学习,将结果以样本模式存储并输入网络,再根据学习算法调整各层网络的权值矩阵,学习过程的结束与否由网络的权值收敛值决定。

循环神经网络(RNN)是指随着时间的推移而反复出现的一种结构。它广泛应用于自然语言处理(NLP)、语音和图像处理等领域。RNN实现了类似人脑的机制,能在一定程度上保留处理过的信息,不同于其他类型的神经网络不能保留处理过的信息,因此是进行时间序列分析的最好选择。

RNN存在长序列依赖会出现梯度爆炸和梯度消失问题[15],而犯罪事件的近期重复性特点,具有时空范围依赖度,因此无法用于犯罪预测研究。1997年,Hochreiter等人解决了长期依赖问题,在RNN改进基础上提出LSTM模型[12],可以对长期依赖信息进行学习,能够处理梯度消失问题,使得可处理序列长度更长的问题。LSTM拥有优异的长序列性能,是一种包含多个神经网络模块的连接链结构,LSTM网络引入了三个门限(交互运算过程),分别是遗忘门ft更 新门it和 输出门ot,如图1所示。

图1 LSTM内部运算结构图

(1)首先细胞状态Ct-1的信息,将在最上面那条线上传递;利用不同门运算过程,t时刻的隐层状态ht与输入Xt会 对Ct进行状态更新并传递到下一时刻。

(2)遗忘门层:使用取值为[0,1]间控制变量σ逐位与状态变量Ct-1相乘,当σ为0时,则Ct-1对应的信息就被舍去(遗忘)了,只有σ为1时才保留完整状态信息。

(3)更新门层:这一层有两个步骤,一是通过变量σ控制状态变量,表示有所选择的遗忘过去信息,获得输出it;二是通过归一处理为[-1,1]的激活函数tanh进行类似遗忘门的过程,表示有保留的获取更新信息Ct,两部分信息加起来就是更新内容。

(4)输出门层:利用变量σ控制输出内容,并通过tanh函数缩放为最后t时刻的输出。

以上就是LSTM在t时刻的完整运算过程。本文的研究就是在上述过程中实现对盗窃警情的分析预测。

三、数据分析与讨论

本研究主要目的在于探索深度学习技术在犯罪趋势预测的应用实践,针对A市3年的日盗窃犯罪的110接警数据,运用TensorFlow平台的LSTM模型模拟预测,为犯罪预测提供较为科学的方法手段。

(一)数据预处理

1. 时间分割

考虑到数据的特殊性,研究首先对110警情数据进行脱敏处理,仅保留数据的时间列;然后进行时间分割,为LSTM模型输入数据做准备。本研究假定犯罪预测模型是针对指定区域每天的犯罪情况做预测,因此,通过Excel透视表功能,将数据整合以日尺度为单位的时间序列,从时间维度上将原始数据按天进行分割,整理为包括每日的盗窃犯罪案件数量和对应时间的数据集。经整理,数据集共包含盗窃警情56000起,日均51起,其中,最高105起,最低4起,标准差为19.5起。从数据集的时间分布趋势上看(如图2所示),警情数量随时间波动较大,呈上升趋势,之后趋于平稳的状态。

图2 盗窃警情分布趋势

2. 平稳性检验

为确保数据集具有较好的平稳时序特征,需要对数据集进行单位根(ADF)检验。因为数据集的ADF检验值小于1%置信水平的临界值,对数据集进行一阶差分平移,平移后,数据集的ADF检验值小于1%置信水平的临界值,属于平稳序列,能够进行时序预测(见表1)。

表1 数据集的ADF检验结果

3. 建立多变量序列

本文参考颜靖华等人提供的特征因素提取方法[13],引入月份(month)、工作日(Is_weekend)、是否节假日(Is_holiday)、每月均值(month_avg)、每工作日均值(weekend_avg)、每非工作日均值(weekday_avg)以及前一日的警情数量(count_lag1),建立多变量时间序列,并转换为监督学习数据集,其中滞后观察日为1,并进行归一化处理。

4. 模型构建

预测模型主要由LSTM、Dense两个层级构成,将上述数据集按比例分割成训练集和测试集数据输入LSTM模型,其中损失函数为MAE,优化器函数为ADAM,设置好epoch、batchsize等参数,并采用均方根误差(RMSE)对模型进行性能评估。

(二)结果与讨论

拟合结果如图3所示,虚线前的日期为训练集,虚线后的日期为测试集。在训练集中,LSTM模型较好地捕捉了盗窃犯罪案件数量的波动,拟合效果较好。将测试集结果输入LSTM模型进行性能评估,预测性能评估指标RMSE为0.099,表明测试结果较好。图4为预测结果进行反归一化及逆向1阶差分等还原操作过程后数据对比效果。

图3 LSTM损失分析过程

图4 LSTM预测结果

四、结论

本文采用LSTM模型实现了多变量时间序列的日尺度盗窃警情数据的预测分析,结果表明,LSTM模型能够较为出色的对日尺度下的警情进行模拟预测,能够一定程度的给出犯罪行为的总体趋势演变情况。本文研究基于盗窃案件是一个独立的封闭系统的假定下开展,然而,犯罪行为是一个受众多因素影响的复杂事件,本文的研究仅仅提供了一个犯罪预测的方法和手段,在犯罪预测和情报研判实战中,应当融合社会等因素,预测结果也只能作为警力部署和智慧决策的参考。

从技术角度上看,犯罪预测面临的一个难点就在于能否准确有效地分析日益增长的犯罪数据集,对于使用规模较大的数据集时,模型精度就高,反之,模型精度就会较低,因此,一个具有较高精度的犯罪预测分析模型的实现,需要大量的历史案例积累进行训练。另外,受限于犯罪预测算法的局限性和不确定性,多种模型的混合应用能够有效提高犯罪预测的精度[11],后续的研究将引入更多的因素,通过构建混合模型来提升预测精度,让预测方法更加科学,更贴近实战。

猜你喜欢

警情时序犯罪
公园里的犯罪
清明
一种基于空间位置进行警情高发统计的方法
基于不同建设时序的地铁互联互通方案分析
福建省晋江市公安局青阳派出所:扎实推进辖区打防质态提升
Televisions
基于FPGA 的时序信号光纤传输系统
环境犯罪的崛起
基于模体演化的时序链路预测方法
“犯罪”种种