APP下载

基于公安大数据的人员背景标签应用分析与研究

2018-11-07朱振华于晓昀李超

电脑知识与技术 2018年21期

朱振华 于晓昀 李超

摘要:通过对公安大数据的标签体系分类方法及技术路线的研究,利用基础属性标注、统计、模型算法及大数据分析等技术,将公安业务对象实体形成属性标签、统计分析标签和模型算法标签,实现了在大数据业务场景下,对公安工作对象的背景标签从分类方法、标签生成、标签管理、标签应用等一整套解决方案,并提供了Rest风格的查询接口供其他系统进行展示,有效地推动公安數据跨地区、跨部门、跨警种的共享共用,促进了公安业务模型向智能化、自动化方向发展,发现和预测工作对象内在的特征,进行人员预警管控和风险评估。

关键词:公安大数据;背景标签;标签分类;模型算法

中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2018)21-0028-03

Abstract: Through the research on the classification method and technical route of the public security big data label system and the technology of the basic attribute tagging, statistics, model algorithm and big data analysis, the public security business object entity forms the attribute label, the statistical analysis label and the model algorithm label, and realizes the public security workers under the big data service scene. The background labels for the object are a set of solutions from the classification method, the label generation, the label management, the label application and so on. The Rest style query interface is provided for other systems to be displayed, which can effectively promote the sharing of public security data across regions, cross departments and cross police, and promote the intelligence of the public security business model. Develop automation, identify and predict the inherent characteristics of work objects, conduct early warning, control and risk assessment..

Key words: big public security data; background tag; tag classification; model algorithm

1 背景

标签,是描述客观事物的方法,是对业务逻辑的抽象表达,是从真实的人物行为、属性中通过收集和分析人物的社会属性、行为属性等信息后给出的人物特征,标签描述了一个数据集,如具有同一属性的人群(或者设备),性别(标签值:男、女)表示同性别的人员;如涉恐人员,表示公安涉恐人员。总之,标签是同一特征的人群集合,是一个业务逻辑的抽象。

近年来,用标签对人员进行画像和相关特征分析,对人员进行识别、分类,并建立相关的业务应用系统以帮助用户在其相关的业务上进行工作流程、工作模式的改进,是目前在消费、金融、公共事务等领域的普遍做法,如美国的亚马逊、中国的淘宝网、天猫、京东商城等大型电子商务网站都为访问商城用户进行建模,按其购物行为特征对每个用户打标签,从而给用户推荐用户可能喜欢的物品;公共安全行业在标签系统的建设中起步较晚,但随着公安信息化建设的不断深入,公安行业也在不断地汇聚政府及社会各方面的数据,也在基于警种业务及数据已经开展了一批标签系统建设,如烟台公安局就结合市局业务特点,建立了符合烟台公安业务体系的标签管理、建模和应用体系,按照公安五要素提出了5类标签,包括:人员标签、物品标签、组织关系标签、地点标签、案(事)件标签;其中对于人员标签,细分了人员身份标签和行踪和行为标签,但是该标签体系主要是基于人工经验、标签刻画较为宽泛,仅做到描述层级,无法实现深度的挖掘和关联,对业务警种特别是情报这样需要从海量情报信息中串并深挖,预测预警的业务警种来说意义不是很大,而且对于如何进行标签实体的挖掘没有形成方法论,利用实体标签进行分析应用较少,对于利用公安业务对象实体的关系、活动、地域、经历等数据的挖掘还没有形成相应的挖掘模型和方法。

2 该文研究内容

该文主要是利用基础属性标注、统计、模型算法及大数据分析等技术,对公安业务对象实体形成属性标签、统计分析标签和模型算法标签,实现对实体标签进行有效分类的方式方法,结合业务场景,探索利用公安业务对象标签挖掘实体相似行为的模型,快速定位有异常的业务对象,提高公安机关打击和防范突发事件的能力。

3 公安大数据的标签体系建设技术路线及分类方法

3.1 技术框架路线

大数据分析技术的理念就是“让数据说话”,通过模型算法对人员、车辆、行为、关系和情报等从时间、空间等方面进行分析,按照分类方法划分相应的标签,根据标签组合实现对公安业务对象的行为的基本判断。公安业务对象标签是基于标签引擎开发,标签开发和应用流程如图1:

其中的标签生产主要从基础属性,社会属性、行为属性及人员特征等几个维度来描述对象,形成初始粗粒度的标签;然后对粗粒度的标签数据进行加工整合,由业务、模型梳理得出相应的业务标签大类,然后经过ETL开发,生成分类体系化的标签市场。

标签管理是对标签市场进行管理的流程,标签分析,是对标签市场中的标签进行业务验证,分析标签的准确性,不断完善标签生成的逻辑规则;标签管理,提供管理界面,能进行录入、查询、删除等操作并提供相应的接口;同时,能提供SQL解析功能,将逻辑标签解析为可执行SQL,满足标签对接上层应用的接口;标签同步,主要是将标签同步到相应的存储,在标签使用时,某些标签存放在不同的存储介质上,为了标签关联,同步中心会将标签同步到同一个存储介质;特征工程是基于标签加工新的标签模型,以满足用户对标签的业务个性化要求。

标签应用主要是基于标签体系之上构建的数据应用,如标签查询展示、数据统计、组合分析、模型预警等。

3.2 人员背景标签分类

标签按照数据生成的维度可以分为属性标签、统计分析标签和模型算法标签;属性标签包括实体的所有原生属性和派生属性,包括人的年龄、性别、学历、星座、职业、社会登记信息、会员等级等;统计分析标签一般基于过去一段时间的行为、日志数据统计得出,如频繁入住酒店、频繁同行、出入重点地区次数等;模型算法标签是根据过去一段时间的行为状态,预测事物的基本属性或者将来的行为,这种标签是基于普通标签、统计标签以及样本数据,使用特定算法、挖掘技术计算出来的,常用的算法有pagerank、逻辑回归。

基于以上标签分类原则,公安业务对象标签的生成总体上有以下几个步骤:

1)选数据:确定业务数据范围,从业务主题出发,梳理标签的加工逻辑,确定需要的业务数据范围、数据表。

2)选维度:根据标签所描述的实体、粒度,确定标签的维度。

3)选属性:根据标签的逻辑,确定所需的字段,把相同粒度的标签合并同一个表。

4)代码开发:在数据仓库中结合业务数据模型,基于标签维度及标签属性进行代码开发,编写SQL语句,发布标签调度任务。

5)标签发布:按照标签调度任务的执行频率,定期生成标签数据,进行发布、管理及应用。

图2为标签生成的示意图:

实体标签生成后,通过对现有标签进行组合,利用历史数据进行逻辑回归,校验标签组合产生的相似行为预测与真实行为的偏离度,并通过调试后形成最终预测模型,预测实体将来的行为。

根据数据来源情况和实际的业务场景需求,每种类型的标签还可以做成实时标签和离线标签,实时标签是基于流式计算框架之上的实时更新;离线标签一般以天为单位离线更新计算。

4 应用实例

基于以上标签分类体系的思路下,我们开发了一套基于公安业务对象的标签管理及展示系统。系统的逻辑架构图如图3:

其中数据源主要包括人口库数据、教育信息数据、轨迹库数据(出行类数据、活动类数据)违法犯罪人员数据、网购数据及其他第三方类数据。

计算层主要是将收集的与公安工作对象相关的各类数据进行加载导入、规则清洗、维度合并、抽取转化等操作,为标签系统的数据存储提供格式化的数据。

存储层是标签系统的核心,海量的数据需要按照业务要求和技术要求进行合理存储,基于公安业务对象的标签管理及展示系统主要用到关系型数据库MySQL,KV数据库Redis,NoSQL数据库Hive和HBase。

查询层主要是针对标签系统开发的一系列的后台任务及接口级服务,后台任务主要包括实时计算和离线计算任务,用于标签生成及计算模型输出,后台数据的检索使用分布式检索系统ElasticSearch,Rest风格的查询接口主要提供系统内基本信息、行为、统计类的查询及对外系统的接口调用,既便于系统的前后台解耦,也便于对外提供服务。

应用层主要是提供可视化的标签查询、组合分析、分类统计、用户自定义标签任务等业务功能及系统配套的用户管理、日志管理、标签管理等功能。前端框架采用Jquery,统计类展示采用Echart可视化组件。

图4为标签系统的人员背景标签图;图5为标签系统的标签管理配置图。

通过构建基于公安大数据的标签系统,实现了对海量数据进行规整、关联、挖掘,形成了较为完备的标签体系,促进了不同类别数据资源的规整化,实战化,充分利用大数据技术挖掘了数据的潜在价值,为基于人员背景核查的各类业务提供有据可查的标签服务。

5 结论

研究表明,以公安大数据为基础的标签库系统通过多维度刻画公安业务对象,能帮助情报部门业务人员从海量数据中挖掘公安业务对象的总体特征,有针对性的指导基层开展人员管控及预防打击等工作。该文从实战业务出發,提出了公安业务对象的标签分类体系及生成方法,并在此基础上开发了一套基于公安业务对象的标签管理及展示系统,将复杂的业务分析以可视化的方式展示给用户,为公安行业信息化建设提供了较好的借鉴,下一步将结合实战业务,继续优化算法模型,在预测类标签生成的准确性方面进行重点研究。

参考文献:

[1] 李栋科. 基于大数据的智慧公安系统研究与应用[J]. 网络与信息安全学报, 2016, 2(12): 63-68.

[2] 吕辉, 许道强, 仲春林, 等. 基于电力大数据的标签画像技术与应用研究[J]. 电力信息与通信技术, 2017(2): 43-48.

[3] 张大伟. 公安数据标签化建设应用研究[J]. 警察技术, 2017(6): 37-41.

[4] 郭光明. 基于社交大数据的用户信用画像方法研究[D]. 合肥: 中国科学技术大学, 2017.

[5] 百分点. 用户画像的构建[EB/OL]. http://www.sohu.com/a/106301062_334205.

[6] 张姝. 基于社会化标签的个性化推荐技术研究[D]. 沈阳: 沈阳航空航天大学, 2011.

【通联编辑:谢媛媛】