大数据视角下的重新犯罪者特征分析

2021-07-02许清

法制博览 2021年15期

许清

（江苏省司法警官高等职业学校，江苏镇江 212002）

司法部《全面深化司法行政改革纲要（2018—2022年）》目标指出，司法部将深化监狱体制和机制改革，建设“重新犯罪大数据监测分析平台”。由此观之，随着数据时代的到来，运用大数据推动司法行政系统的履职能力的提升已成为必然趋势。

实证法律研究发展至今，国内研究者大多还不能科学、熟练地运用数理统计等分析手段与方法对问题展开统计学意义上的定量分析［1］。目前，研究者大多倾向于收集特定范围内的小规模数据作为研究对象，同时以基础的平均数、方差等为研究工具，对数据信息的使用停留在描述、解释阶段，结合经济学、社会学等学科进行交叉研究等成果较为缺乏。

近年来，以裁判文书网为主的司法公开平台的建设，将进一步推进实证法律研究的发展。大数据的可获得性丰富了实证研究的资料来源［2］，通过结合计算机科学、统计学等技术，研究者可以获得更为客观、角度更加多维的数据导向信息［3］。基于此背景，本文借助裁判文书网数据，抓取重新犯罪者的基本特征，探索基于数据分析技术的实证法律研究途径。

一、数据特征

截至文章撰写日期，裁判文书网刑事文书总量为9987409篇。本文根据研究需要，根据：江苏省、中级人民法院、刑事案件、判决书、前科等关键词，筛选出其中1511份判决书。利用Python3.8.3进行数据载入、清洗（包括关键词抓取、缺失值处理、数据类型转换、数据排序、异常值处理）、模型建构，最终获取446份完整重新犯罪者数据。

本文所处理的判决书包含被告人资料、基本案情等部分案件原始信息，数据具有较强的可生成性，为构建特色化研究模型提供了丰富资料。然而，由于原始数据中包含大量重复文书、空白文书，同时数据无标签且非结构化，经过清洗后出现了样本大量损失的情况。

经过预处理后，实验中的有效变量以及样本量远远达不到大数据量级，但由于数据来自江苏省各地区中级人民法院所公开的判决书文本，数据所涵盖的地域、事件、案由等在江苏省内具有一定的随机性、客观性，可以在一定程度上区别于之前相关研究中数据收集的“小范围”现象。本文拟基于此数据，探索大数据视角下的重新犯罪者特征的统计学分析方法。

二、分析方法探索

数据挖掘技术，目的在于从数据中获取研究课题所需的信息支撑，在预处理后的数据中选取相关性较大的特征变量，通过分类模型、回归模型、神经网络和关联规则等机器算法构建模型，最后进行深度挖掘。结合本文数据样本量小、变量少等特征，本文拟对分析方法进行创新。

（一）反向特征工程

特征选择和特征抽取是特征工程的两个重要方向，其中特征选择仅对特征进行基础的排序、组合，而特征抽取通常会基于主成分分析、因子分析等结果重新建立特征之间的关系。目前的深度学习可以一定程度上缩减特征提取的工作量，但是在数据量不够大等限制出现时，特征构造的有效性一定程度上决定了模型的效率。

在样本量与变量数均较小的情况下，可以通过反向特征工程法提高特征构造的有效性。反向特征工程中，首先根据研究目标构建模拟预测变量，然后利用相关系数法、方差选择法、卡方检验、互信息法等方法构造变量，利用所构造的变量对模拟预测变量进行预测，最后根据预测结果筛选变量。

例如在本文实验中，研究目的是描述重新犯罪者的特征。判决书数据中可获取到的被告人信息包括姓名、性别、出生年月、文化水平、住所、前科情况等信息，本文将重新犯罪者的前科次数作为模拟预测变量，构造两次犯罪间隔平均时长、首次犯罪年龄、平均刑期等变量，利用SPSS25进行多层感知器神经网络模型预测前科次数，最终选取由最优预测结果所对应的特征变量：两次犯罪间隔平均时长、首次犯罪年龄。

（二）运用“全数据思维”

小数据时代，我们为了减少样本异常、错误等状况的出现，通常对数据质量要求较高。为了获得拟合研究目的的样本，数据预处理代价增大，大量数据清洗算法和模型层出不穷，但抽样数据在经历了极致清洗后，所得到的结论很可能已不符合客观事实。

从同类研究与本文中所选用的数据差别来看，大数据时代的分析对象，从根据研究目的小范围抽样得到的样本数据变为数据库随机抽取的结果，数据从抽样变为全样，数据中的缺失、异常等现象被保留至分析阶段。通过提高数据采集、存储、分析、呈现等技术水平，将全样数据所展现的客观信息挖掘出来，在这样的思维下，可以允许数据展现出“不寻常”事实。

小数据时代，数据分析的过程中人们更愿意相信因果关系。但从生活中的“黑天鹅事件”和许多小概率事件的发生发现，因果关系非常脆弱，一旦全样数据中的“反例”出现，因果关系就会被推翻。大数据时代，机器学习“隐藏层”等数据“黑箱”的出现，意味着因果关系几乎不可能被解释清楚，而相关关系等分析角度将变成一种可尝试的思路。

三、重新犯罪者特征分析实例

本文依据裁判文书网数据，经过载入、清洗等预处理过程，构建分析模型，从446份样本数据中获取如下分析结果。

（一）重新犯罪者年龄特征

本文根据原始数据结构，构建年龄相关特征进行进一步分析，包括：重新犯罪者年龄、首次犯罪年龄、重新犯罪间隔时间等特征。经交叉分析与多元Logistic回归分析，分析结果显示重新犯罪者年龄分布均匀，不存在明显的青少年偏多现象，同时首次犯罪年龄大者前科次数较少且所犯罪行偏重。

（二）重新犯罪行为特征

为了进一步从数据中获取重新犯罪者的更多特征信息，本文构建重新犯罪者最近一次被判处的刑罚、重新犯罪者几次犯罪时间间隔等特征数据，构建重新犯罪者画像。根据统计结果，重新犯罪者的犯罪行为时间间隔分布均匀（图1），数据并未显示出重新犯罪行为集中出现在刑满释放后5年内的现象。

图1 重新犯罪时间间隔情况统计

社会危害性、刑事违法性、应受刑罚性是犯罪的三个基本特征，社会危害性的大小是正确区分罪与非罪、决定量刑轻重、是否给予刑事处罚的重要标准［4］。本文根据重新犯罪者最近一次被判处的刑罚轻重判断重新犯罪者的社会危害性，分析结果显示，重新犯罪社会危害性与相关性不显著，即社会危害性不会明显随着前科次数的增加而产生关联变动。

综上所述，通过对裁判文书网数据的分析，不难发现，以司法大数据为基础对重新犯罪的实证研究相较于以往的小样本分析具有更为巨大的潜力空间，数据规模的变化使得例如异常现象、稀有事件的研究成为可能。未来，随着研究工具的进步，数据中尚未呈现出的隐藏规律将会推动法律实证分析新理论的产生，数据背后的价值将会造福于社会发展。