APP下载

数据元标准在大数据平台关联库建设中的应用研究*

2016-03-16郑伟平言专艺唐晓红

广东公安科技 2016年2期
关键词:公安关联基础

郑伟平 言专艺 唐晓红

(广州市公安局科技通信处大数据项目组,广东 广州510030)

数据元标准在大数据平台关联库建设中的应用研究*

郑伟平言专艺唐晓红

(广州市公安局科技通信处大数据项目组,广东 广州510030)

数据元作为对数据项的一种标准化描述方式,对数据资源规范与整合、信息资源共享服务和业务协同等具有重要意义,本文从公安信息资源服务平台以及大数据平台的关联库建设角度入手,分析在关联库构建过程中遇到的问题,以数据元标准建设为出发点,提出一套对数据资源进行分类筛选、冗余分析、数据检查及规范化设计的方法,并提出构建主数据的思路,服务于关联库建设过程,将数据标准化建设成果与公安信息资源服务平台以及大数据平台的建设相结合以发挥实效。

数据元关联库主数据公安信息资源服务平台数据整合

引言

随着金盾工程建设的开展,公安科技信息化整体水平迅速提升,在各级公安机关和业务警种手中积累了丰富的业务数据资源。信息资源的种类不断丰富、总量呈现爆发性增长,已逐渐成为继警力资源、装备资源之后的新一类公安核心资源。

当前建立的众多公安信息化系统,虽然基本覆盖了公安各业务的工作,但是实际工作中又面临着数据资源分散、不规范、管理共享困难以及大数据应用缺乏等新问题。[1]随着业务系统建设的逐渐深化,对信息资源的质量和共享要求也在不断提高,来自单一业务部门和单一领域的数据越来越不能满足实战的需要,迫切需要围绕关联库进行数据资源的梳理整合,构建公安大数据资源的存储管理和共享服务体系。要打破部门间信息壁垒,提供更广泛的信息共享渠道,有效提高各警种综合应用信息资源的效能,需要着力解决信息资源中对人、地、案件等信息“看不全,看不准,管不了,用不好”的问题。为此,公安部规划了公安信息资源服务平台的建设工作。其中,公安信息资源库的建设是基础性工作,其以基础库、关联库、专题库等为主体,实现各类信息资源的汇集和整合,为公安各警种的业务开展提供数据资源支撑。

在这个过程中,数据的标准化程度直接关系到数据交换、共享、服务和应用的水平,特别是在实施更大范围和更高层次的一体化信息整合中,数据的标准化程度越加显现出重要性。[2]数据元作为对数据的一种“元”描述,可最大限度地保证信息交换的一致性和信息的共享,数据元理论研究和实践活动正在成为信息化建设中的研究热点。公安数据元标准体系的研究可以为公安行业数据共享提供统一的数据元标准,有利于公安信息资源的整合、共享与统一管理。

1 数据元标准

数据元通过标识符、对象类词、表示词、值域等一系列属性对数据项进行了规范性描述和定义,在特定的语义环境中被认为是不可再分的最小数据单元。数据元是称之为数据的一个广义概念的特殊成员。

早在2004年,国家标准化委员会就已发布了《电子政务数据元标准》,包括设计与管理规范,详细约定了数据元的表示规范、数据元的属性提取和分析过程、命名规则、分配规则、使用规则,以及数据元的提交注册。随后各个政府主管部门发布的各自领域的数据元目录,包括公安、工商、船舶、税务等。

为了对公安数据进行有效的表示和建模,公安部发布了一系列的公安数据元标准,包括GA/T543公安数据元、GA/T541公安业务数据元素管理规程;GA/T542公安业务数据元素编写规则;GA/T543公安业务基础数据元素集;GA/Z02公安业务基础数据元素代码集。[3-6]这些数据元标准规范的发布,对公安科技信息化建设具有重要意义,可以有效的提升数据资源质量及规范性,降低数据整合和共享难度。

公安领域的数据元由核心数据元以及扩展数据元构成,扩展数据元又按照不同领域划分为若干个集合,包括刑侦、经侦、治安、交管、消防等业务领域。

2 数据元标准在构建关联库中的应用

2.1关联库在数据资源建设中的作用

在公安信息资源服务平台建设过程中,数据资源主要汇集在基础库、关联库和专题库这几个逻辑库体中,是数据资源建设的几个主要阶段,其具有不同的作用:

(1)基础库:基础库的作用主要是按业务来源对数据进行汇集,建立数据增量抽取更新机制,实现数据资源的分类组织管理。

(2)关联库:对数据进行规范化、数据清洗、质量提升和数据整合处理,围绕公安五要素构建数据的关联关系,是数据资源对外共享的核心,并支撑专题库的建设。

(3)专题库:又称主题库,在关联库的基础上,面向公安业务建设的需要,通过多种技术手段,对数据进行再组织,例如人口专题库、电话号码专题库等。

以上几个逻辑库体中,关联库起到了承上启下的核心作用,是实现“数据”向“信息”价值提升的关键,也是公安信息资源服务平台和大数据平台数据资源建设的核心。关联库产生的具有逻辑一致性、完备性和权威性的数据资源,是开展数据共享服务、研判分析、数据挖掘、实战应用的基础。

2.2数据元标准对关联库建设的意义

关联库是以基础库数据资源为支撑的,其面向的是大量来自公安、社会、政务、互联网等来源的数据资源,数据质量参差不齐,存在大量冗余信息,在这些原始数据资源的基础之上要实现数据资源的规范性提升、质量提升、数据融合、关联关系建立的目标,存在极大的难度,[7]具体体现在以下一些方面:不同来源数据存在大量冗余信息,如何整合取舍缺乏头绪;对来源数据的分析耗费大量人工工作,缺乏有效的数据分析方法和手段;各种来源数据的属性项实际含义不清,对数据整合造成较大困难;数据字典异常复杂,涉及业务众多,缺乏统一标准。

基于数据元标准开展的数据标准化工作,正是支撑关联库建设的有效手段,其对关联库建设的重要意义体现在以下几个方面:

(1)数据元对数据规范化的意义。

数据元对数据项的名称、类型、长度、含义、值域(数据字典)等制订了明确的规范,其不但覆盖公安核心要素人、地、事、物品、组织等对象的基本属性,而且向治安、刑侦等业务领域进行延伸,是关联库建设过程中理想的参照标准。

(2)数据元对基础数据资源梳理的意义。

在信息资源整合中,如果涉及到的数据资源数量非常多,传统的数据资源目录组织方式具有其优势,但同时其主要面向系统管理员使用,难以在不同场合满足信息资源的查找与快速搜索需求。

数据元标准的出现使得对不同来源警种的数据资源字段进行统一描述成为可能,实际上提供了从数据元反向搜索数据资源的能力,并且可以通过多项数据元来对数据资源进行自动分配,将数量众多的数据资源按照数据元快速进行分类梳理,从而找到需要的数据资源,为以五要素为核心的关联库设计提供依据。

(3)数据元对数据质量分析的意义。

数据元对数据的长度、类型均有约束作用,其可以通过与传统的数据质检手段结合,在数据质量分析中发挥很大作用,对了解基础库数据资源的质量、规范性具有重要意义,可用于分析基础库数据资源的数据标准符合程度。

(4)数据元对数据冗余分析及消除的意义。

数据元确定了一个属性项的真正含义,在基础库数据资源分析中,可以将同名但不同含义的属性区分开,并确定真正存在冗余的属性项,这些属性项在实际应用中有可能会导致存在信息冲突的情况出现,因此通过数据元的分析可以对信息冗余情况进行全面了解并制订数据整合策略。

2.3结合数据元标准的关联库建设方式

综合以上分析,在关联库建设过程中,数据标准化体系具有重要意义,也是数据资源建设前期的一项重要工作内容。本节将结合广州市公安局大数据平台项目建设经验,以建设“人”的关联库为例,提出一套以数据标准化为支撑的关联库建设步骤和思路,以说明数据元标准在构建关联库过程中的作用。

2.3.1数据元分类

为了实现对基础库数据资源的有效梳理和分析,在广州公安大数据平台项目建设前期,通过软件批量导入公安数据元标准,并对现有数据元按照其发布机构、对象类词、特性词进行进一步梳理,按照人、地、事件、物品、组织等要素,以及数据元的描述对象进行了分类整理。通过对数据元进行归类整理,可更清晰了解不同数据元的作用领域,为基于数据元对数据资源的筛选做好了准备。

2.3.2数据元对标

数据元的对标工作在公安数据元和现有数据表的属性项之间建立了对应关系,为了辅助数据元的对标工作,在广州公安大数据平台项目中,为此专门研发了数据元的对标软件,在本地数据标准管理软件的支撑之上,可以基于属性项的名称、描述、取值范围等与公安数据元进行自动匹配,并结合人工审核开展数据元对标工作。当前已完成基础库全部属性项的梳理工作,以姓名、身份证、性别、出生日期、学历、籍贯、职业、政治面貌等常用的与人相关的数据元为例,已和几十个甚至上百个字段建立了关联关系。其具体过程包括:

(1)数据元的批量匹配:在基础库汇集的大量数据资源中,对所有的数据项进行分析,并与数据元进行批量匹配,将不规范的字段与数据元建立关联关系。

(2)审核确认:对批量匹配的结果进行人工审核确认,将一些匹配率低的字段与数据元做准确的映射,以便提高后续数据资源分类的准确性。

(3)扩充上报:在现有数据元对标的基础之上,结合市局、分局和派出所的一些特色数据资源进行数据元的扩充梳理,建立本地数据元标准,并经过本地数据标准化机构的内部审核向公安部进行上报。

2.3.3基础数据资源分析

在前面数据元分类及数据元对标的成果之上,首先结合公安五要素的划分,并根据分类的需要对数据元进行筛选,挑选出用于数据资源归纳的相关数据元项。然后按照数据元分类的结果,对对标后的基础库数据资源进行分级归纳、循环递归,按照五要素梳理出来相关的数据资源。为实现这一过程,在数据管控平台研发专门的数据元分析软件,辅助对基础库数据资源进行分析和梳理。

以人要素为例,基于数据元的对标成果,可以快速筛选出来提供人要素信息的150多类数据资源,这些数据资源也就是“人”类别关联库建设的主要数据来源。将这些数据资源进一步归类分析,可发现其主要提供人员的背景信息、状态信息、行为信息,此外其它一些数据资源仅作为一种信息来源,统计如下所示:

2.3.4数据冗余分析

利用数据元对字段含义建立准确描述的特性,可以对从基础库梳理出来的150多个数据资源进行进一步分析,研究来源数据中的数据冗余情况,以了解这些数据资源实际应用中可能会导致存在信息冲突的风险。通过了解不同数据资源中存在的数据冗余情况,为关联库设计提供依据,并针对性的制订数据冗余的消除、融合策略。

为实现此过程,在数据管控平台专门开发了数据元分析模块,可以准确的分析信息冗余情况,了解基础库各类数据资源的信息重复情况。

2.3.5数据质量检查

数据元对数据的长度、类型、值域等均有约束作用,其可以通过与传统的数据质检手段结合,在数据质量分析中发挥很大作用。通过引入数据元质检功能,对数据项的规范性以及值域的符合性进行检测,实现了对基础库数据资源规范性和数据质量的检测。这些检测结果为基础库数据资源向关联库转换和整合制订策略提供了依据。并且在本次关联库建设过程中,针对公民身份号码、姓名、外文姓名等核心数据元,建立了针对性的检测验证规则,以确保这些核心属性的质量。

2.3.6关联库设计

在实现对基础库数据资源的分析之后,对来源数据的信息冗余情况、数据质量已经有了全面的掌握,可开展对关联库的存储及整合规则设计工作。通过对基础库数据资源的全面分析,为了实现关联库的建设目标,在项目建设过程中提出了建设人员主数据的思路,并以主数据为核心,对人员数据进行规范化梳理和建立索引,并以关系数据库、列式数据库为主要物理支撑,构建人要素的关联库混合存储体系。

整个人要素关联库的构成包括以下几个逻辑结构:

(1)人员主数据:按照公安数据元标准进行设计,含有人的基本信息及各种扩展信息项,包括证件号码、常用证件代码、姓名、性别、民族、学历等信息,同时将数据的密级机制等落实到人员主数据上,实现面向具体人员的记录级密级访问控制和维护机制。在列式数据库的支撑之上,人员主数据的属性项具有良好的可扩充性,未来可结合数据资源的汇集情况及实际业务需要,进行方便的扩充。

(2)人员索引信息:通过对基础库数据资源的分析,可以为人员建立各种背景、状态、登记、职业、出行轨迹等索引记录,在主数据整合过程中同时维护人员的各种索引标志位,通过索引信息建立与基础库数据资源之间的关联关系,并制成档案的应用体系的建立。

(3)整合来源信息:在主数据整合过程中,记录主数据每一个属性项的整合来源,通过整合来源信息可以直接了解关联库的数据源头情况,不但在关联库内部建立关联关系,同时在关联库和基础库的数据之间建立追溯关系。

(4)规范化基础数据资源:按照公安数据元标准对数据进行清洗整合之后,形成的数据资源,与基础库数据资源进行对应,通过人员索引信息可以直接将这些数据进行关联展现。

按照以上思路,整个关联库以主数据为核心,实现了所有数据资源的汇集和整合,并建立了较强的内在关联关系,同时与基础库建立了数据的追溯关系。此外,通过对数据元的分析,将主数据表中数据项进行了进一步划分,分为需要整合的数据项(与人建立一对一关联)和仅需要规范化的数据项(与人建立一对多关联),在物理层分别采用不同的技术进行存储和组织,以满足数据快速分析检索的需要。

2.3.7主数据整合

按照关联库的设计方式,当前广州公安局正在开展人类别主数据的整合工作,并开发了专门的主数据整合软件,实现主数据下载、分析、生成报告、整合的一整套流程,将数据元标准体系建设成果、数据对标成果直接应用于主数据整合流程中。

目前通过对150多张数据资源表制订整合策略,现已汇集1.8亿人员证件信息,整合了来自公安数据资源的4000万人员姓名等核心属性,同时对公安、社会等数据资源形成数据质量分析报告。

3 总结与展望

本文以公安数据元为基础,从数据元标准化建设的角度,提出了一种结合数据元标准的数据资源分类筛选、冗余分析、质量检查等方法,应用于公安信息资源服务平台以及大数据等项目的关联库建设中,可以和数据标准化建设以及基础库建设成果相结合,有效提升数据资源质量及规范性,为公安数据资源整合和应用提供了借鉴思路和方法指导。随着公安信息化建设的不断深入,数据元的研究和应用领域将不断延伸,必将在公安数据中心建设等领域发挥越来越重要的作用。

[1]王斌君,王永红,孙巫龙.数据元标准在信息化中作用的再认识[J].中国人民公安大学学报(自然科学版),2005(3).

[2]高贵锦,龙翔.基于数据元的交换数据标准维护[J].吉林大学学报,2005.

[3]中华人民共和国公安部[S].GA/T541—2011公安业务数据元素管理规程,2011.

[4]中华人民共和国公安部[S].GA/T542—2011公安业务数据元素编写规则,2011.

[5]中华人民共和国公安部[S].GA/T543—2011公安业务基础数据元素集,2011.

[6]中华人民共和国公安部[S].GA/Z02—2005公安业务基础数据元素代码集,2005.

[7]杨永强,马世龙,靳文.一种保持数据完整性的数据集成机制的探讨[J].北京航空航天大学学报,2008,34(9).

*第二届公安信息化建设与应用优秀论文评选活动优秀论文

猜你喜欢

公安关联基础
“不等式”基础巩固
不惧于新,不困于形——一道函数“关联”题的剖析与拓展
“整式”基础巩固
Frequent attacks on health workers in China: social changes or historical origins?
“一带一路”递进,关联民生更紧
“防”“治”并举 筑牢基础
奇趣搭配
“10岁当公安”为何能畅通无阻
智趣
公安报道要有度