APP下载

政务数据治理中的弱隐私信息追踪监测模型研究*

2022-12-01

情报杂志 2022年11期
关键词:政务信息安全对象

王 征 朱 光

(西南财经大学 计算机与人工智能学院&研究生院 成都 611130)

近年来,国内外学界/业界参考企业数据治理的定义,提出了政务数据治理的定义:“数据驱动的政务环境中,围绕具备更高可用性的数据标准与数据模型,规划构建采集、存储、管理、服务等一整套制度体系的系统工程”;其中,广义的政务数据治理包含政务数据管理和数据价值实现两部分,集成了数据架构、主政数据、数据质量、时序数据等诸多数据管理活动[1-2]。由于政务数据治理工作是高度有序与紧密衔接的,因而任何一处信息隐患造成的危害都可能在后续治理环节中被放大,因此其中的数据安全与隐私保护工作显得尤为重要;而弱隐私信息保护是目前需要关注的重点之一。弱隐私信息是指单独难以造成重大信息安全事故、但会给数据处理过程带来较大安全隐患的隐私信息,例如单独的手机号,如不配合姓名、身份证号、银行卡号等其他弱隐私信息,诈骗分子也难以通过它开展犯罪活动。目前,针对政务数据治理中的弱隐私安全问题,国内外专家学者提出了众多的解决方案与配套模型,但由于弱隐私信息存在安全特征弱、影响关联复杂、治理应用线路长等特点,因此尚缺乏准确、全面、高效的弱隐私信息监测方法与模型[3]。基于此,本文提出了面向政务数据治理的弱隐私信息追踪监测模型(WPTM),构建了基于关联动态信息追踪与静态安全结构特征检测融合的配套算法,实施危害性评估,为政务数据治理工作提供信息安全参考与告警。

1 文献综述

针对当前政务数据治理中的弱隐私信息问题,以及相关解决方案存在的问题,本研究的开展依据与核心思想如下:我国电子政务系统结构的“二网四库十二金”,其中二网指公众信息网(外网)与电子政务内网,二者通常采用物理隔离,因此内网中的信息很少发生技术上的泄露;但随着数字化治理工作的深入开展,越来越多的业务需要内外网协同工作,同时公众信息网中处理的涉密(主要是涉及公众的弱隐私信息)也越来越多,因此必须对其中的弱隐私保护问题进行研究和解决。政府信息安全管理机构及相关部门可以应用WPTM模型中的模型及子算法,对其治理域内的信息进行过滤与筛查,并采用弱隐私结构特征识别技术,实施弱隐私信息的危害性评估,纵向上评估其对政务数据治理业务流的危害程度,横向上评估其对政务数据治理生态环境的影响程度,从而全面对其弱隐私安全结构特征进行识别,并生成信息安全警示与辅助决策信息。基于上述思想,本研究对当前国内外相关研究成果进行了总结与剖析,并对其中的缺陷与不足提出了改进与优化路径。

从当前政务数据治理的安全现状来看,主流的安全管理策略中还缺乏针对流程数据中弱隐私信息的跟踪监测方法与模型;政务数据治理中常用的隐私保护和动态关联分析方法,一方面对隐私信息源(主要是文件)的监测不彻底,通常采用分时段进行特定文件的横向关联扫描分析,而不是全程式的跟踪分析;另一方面大量模型和系统仍采用硬性隐私判别规则,漏检率较高,响应速度也较慢,因此WPTM模型针对这些问题提出了相关的破解方案。国内外相关研究成果主要集中在显性公开数据的安全过滤模型、数据访问流程管控等方面,鲜见弱隐私信息相关的成果。田贤鹏、张豹等人指出:政务数据治理工作中的信息融合以及安全隐患,对整个数据治理生态构成了一定的威胁[4-5]。吴信东、熊翠兰等发现近年大数据背景下的信息开放和共享,使得隐私和信息安全问题被显著放大,因此政务数据治理中的弱隐私问题已成为学界与业界的关注焦点[6-7]。占南等人指出:当前的政务数据治理中,忽视了弱隐私信息的关联融合式泄露,导致了相关的安全事故频发,迫切需要构建在应用与治理流程中进行弱隐私信息安全监测的算法与模型[8]。基于此,本研究一方面将研究弱隐私信息在政务数据治理生态中的静态结构特征,另一方面将对治理过程中弱隐私信息的动态变迁特征与形态进行剖析,从而为跟踪监测工作奠定数据基础。

从当前的政务数据治理的安全管理方式来看,基于局部文件与内存扫描的安全监控方法仍然处于主流地位,缺少动态的、全域的弱隐私信息安全监测模型与手段。国内外相关研究成果主要集中在文件的隐私评估、内存监测管理、文件的外部访问控制等方面,鲜见弱隐私信息的应用流程监测相关成果。Alhuwail Dari,Birch Kean等人指出:数据治理生态中的信息具有动态性、融合性和流动性,应对这种数据管理模式之下的隐私安全给予足够的重视[9-10]。Holt Alison和Gillan Ana等人指出弱隐私信息隐蔽性较强,导致其很难通过单一文件或端口进行监测,必须设计持续跟踪的动态监测算法,才能对其安全性进行评估[11-12]。PerezPozuelo Ignacio等人通过构建对电子政务系统中的公开文件进行了融合式安全检测,发现了部分国外网站中的弱隐私信息漏洞;而进一步的研究发现,电子政务服务器的缓冲、信息交换区等临时存储空间中更多的弱隐私信息[13]。基于此,WPTM模型将重点研究如何根据弱隐私信息的关联影响范围与可能危害程度进行安全甄别,实现全程、全面、有效的弱隐私信息安全参考与告警。

最后,从当前的政务数据治理中的弱隐私安全管理模型与工具来看,应对外部入侵与非法访问为主的防火墙技术仍然处于主导地位,缺少从自身治理环境出发、监测与评估内部弱隐私信息安全的算法与模型。国内外相关研究成果主要集中在对外防御网络入侵、非法访问等方面,鲜见对内进行基于数据治理进行弱隐私信息安全管理的相关成果。Brous Paul, Mara Maretti等人指出当前政务数据治理安全算法,大多仍然拘泥于访问模式识别,管理效率较低,很难解决弱隐私数据的低安全辨识度和低匹配度问题[14-15]。Mark Keil, Jones Kerina, Delacroix Sylvie等人研发了若干针对政务系统的全局隐私侦测系统,尽管取得了较高的监测精度,但由于需要进行全局一致性侦测,系统开销较大[16-18]。基于此,WPTM模型中的子算法与配套模型,将重点对政务数据治理环境中的内部弱隐私信息进行安全监测,重点研究它们在治理流程与应用过程出现的安全隐患,从而保证弱隐私信息在可控的安全域内公开与应用。

2 模型结构与处理流程

WPTM模型主要包括几个功能模块(如图1所示):首先是信息对象监测模块,该模块主要对政务数据治理过程中应用到的各种信息对象进行监测,并生成其元数据(文件名、修改时间、存储位置等)备用。其次是信息特征扫描模块,该模块主要对政务数据治理过程中动态生成的各类信息对象进行弱隐私信息特征扫描,重点从其内容与结构上进行安全特征分析。再次是动态关联追踪模块,该模块主要对政务数据治理过程中各信息对象之间的关系进行检测,重点从对象间关系、对象与治理环境之间的关系进行安全分析。最后是交互管理模块,该模块主要为安全管理人员提供管理接口与全程安全视图,如:在发生弱隐私信息报警时。

图1 WPTM结构与处理流程

Step1:当政务数据治理过程中的信息对象被处理时,将触发信息对象监测模块。基于数据治理生态中既有的安全监测评估先验概率信息集(既往评估数据),对弱隐私信息对象(主要是文件)的静态安全结构进行初始化,之后可以对其权重进行调节,使之逼近稳定状态;最终,上文中的监测对象集合可以演变为更新后状态和预测状态,并存储在数据库中备用:

xt=ft(xt-1,vt-1)

(1)

yt=ht(xt,wt)

(2)

算式(1)和(2)中,ft与ht是弱隐私信息监测对象与安全等级之间构成的系统动力方程,在t时刻,监测对象的更新后状态与预测状态用xt与yt代表,而其中的环境干扰与测度干扰用vt与wt代表,这些变量间是彼此独立的;由此可以将整个数据治理过程的弱隐私信息对象集合定义为:

x0:t={x0,x1,…,xt}

(3)

y0:t={y0,y1,…,yt}

(4)

Step2:当静态的弱隐私信息对象进入动态的政务数据治理过程中,并处于被处理或应用状态时,信息特征扫描模块将对其结构与内容进行扫描;并通过p(xt,yt)对其后续的安全信息进行预测,有:

(5)

政务数据治理过程中生成的临时文件和处理操作的安全性都将在该步骤中由动态关联追踪模块进行监测;由此,对整个治理过程持续进行监测,可得其在整个过程中的安全状态(详细的分解算法将在下文中详述):

p(xt|yt)∝p(yt|xt)p(xt|yt-1)

(6)

(7)

3 关键算法

WPTM模型中的核心算法包括弱隐私信息特征扫描子算法和关联动态追踪子算法。其中,前者主要对政务数据处理过程中产生的、独立的中间信息对象与处理应用场景进行安全结构特征扫描;后者主要对政务数据处理过程中的信息对象间的关系结构进行动态追踪,从而发掘其中影响信息安全的关键对象。

3.1 弱隐私信息特征扫描子算法

既往的信息安全要素特征扫描或者监测框架,往往忽略弱隐私信息的融合安全结构特征,片面基于其单独或若干的信息特征进行扫描,而弱隐私信息,特别是复杂政务数据治理环境中的弱隐私信息,其信息暴露过程通常较为复杂,既往算法难以奏效。基于上述,本研究一方面对弱隐私的安全结构特征进行挖掘,另一方面通过其应用场景进行融合式安全结构特征扫描,从而大大提高了弱隐私信息的识别精度与覆盖度。

由于政务数据治理环境中的弱隐私信息,在不同信息应用空间(场景)中呈现的安全性与重要性是完全不同的,因此,本研究构建了动态的数据治理空间的安全核函数,从而对不同信息空间的弱隐私信息赋予差异化的权重,以便更为精准的对其安全结构特征进行描述。WPTM框架中,采用的核函数为:

(8)

(9)

由于弱隐私信息在数据治理环境中的结构存在变换关系,因此需要对其结构特征模型的变化进行微观变换记录,构建变换记录函数,有:

(10)

(11)

此时,可以生成弱隐私信息对象的结构特征,有:

Gx(x,y)=H(x+1,y)-H(x-1,y)

(12)

Gy(x,y)=H(x,y+1)-H(x,y-1)

(13)

其中,H(x,y)静态安全信息表征此,而Gx,Gy可以生成:

(14)

结构倾向可以表示为:

(15)

为了进一步对数据治理过程中的信息元素进行动态权重度量,利用横向时间轴变迁相似性算法,可以分解出弱隐私信息对象安全结构变迁的概率分布;其两次相关处理的安全分布分别为pu、qu,n设为其安全维度,则有:

(16)

(17)

此时,可以通过政务数据治理中通用的安全检测框架预期安全程度和当前安全程度(To与Tc)进行测度,最终的安全程度如下:

(18)

此时,可以引入更替系数α来表征当前弱隐私信息对象的结构安全程度,有:Tt-1,Tt,可以得到Tc的更替办法为:

Tc=αTt+(1-α)Tt-1

(19)

由于政务数据治理中的信息结构操作差异较大,为避免误报警,设定了数据治理操作影响阈值dthr,当两次操作之内的安全程度相差不超限的情况下,并不告警或关停操作,有:

d(To,Tc)>dthr

(20)

3.2 关联动态信息追踪子算法

如上文所述,在政务数据治理过程中,弱隐私信息对象的重要性在不同的过程中、不同阶段中是不断变化的,因此WPTM模型通过关联动态信息追踪子算法对其进行全面监测。上节中子算法对其自身的安全结构特征进行了刻画与监测,本节中将通过关联动态信息追踪子算法对弱隐私信息对象在周边对象集合的关联安全程度进行刻画,从而进一步提高安全侦测的准确性与全面性。

(21)

(22)

落实到具体的弱隐私对象的关联动态信息追踪过程中,有如下处理过程:

首先通过政务数据治理部门获取弱隐私信息的m类安全问题,其中每类安全问题中n项指标:x1,x2,…,xm,而具体的弱隐私关联信息安全指标项为y1,y2,…,yt,有:

xi={xi(1),xi(2),…,xi(n)}i=1,2,…,m

(23)

yj={yj(1),yj(2),…,yj(n)}j=1,2,…,t

(24)

此时,可以将同一个数据治理过程中的弱隐私关联信息安全程度表述为:

(25)

此时,将对xi与yi之间的关联信息安全度进行测算:

(26)

(27)

为加快处理速度,通过(22)式对上式进行了化简,有:

(28)

此时,两种安全度之间的差可以表述为:

εij(k)=ξij(k)-rij

(29)

ξij(k)=εij(k)+rij

(30)

进一步对(28)式进行刻画,可得:

(31)

最终,通过对该值进行判断,即可得到当前的弱隐私信息是否会对具体数据治理过程中的关联信息造成重大安全影响,并发出报警或记录。

4 算例与实验

为了检验面向政务数据治理的弱隐私信息追踪监测模型(WPTM)的实际效能,开展了相应数据跟踪实验与安全算例剖析。本研究并未采用高级服务器实施安全侦测,相关硬件环境包括HP Z710商用服务器(至强E40处理器,16G内存)和百兆以太网;软件环境包括Windows Server2016操作系统、Suse操作系统以及MySQL数据库。上述软硬件均为电子政务网络中常用配置,保证了实验与算例的真实性与普适性。相关的算例剖析与实验结果如下:

4.1 算例剖析

WPTM的算例基于某电子政务中心的财政服务数据治理环境展开,其基本步骤如图1中所示,相关过程中的算例细节如下:

Step1:基于数据治理生态中既有的安全评估先验概率信息集(既往评估数据),对弱隐私信息安全结构进行初始化,之后可以对其权重进行调节,使之逼近稳定状态,从而进行跟踪过程中的第一次结构检测。在该项检测中,DaikuanID.xlsx等3个文件均未出现安全阈值超标的情况。实际上,这3个文件均包含了身份证号等隐私信息,但由于这些信息不能单独形成破坏,安全阈值并未超标,因此继续进行后续监测。

Step2:当弱隐私信息在数据治理过程中被处理或应用后,将根据第3节中的算法进行监测,对其安全状态以及在当前数据治理步骤中的信息安全重要程度进行追踪。DaikuanID.xlsx与其他文件临时合并,生成了“贷款所需放款银行卡号、贷款人姓名、身份证号”这一信息结构,WPTM中子算法经过处理,发现其已经属于高危信息,提高了其安全优先级,并将其初步判定为弱隐私信息。

Step3:通过数据治理操作跟踪与弱隐私信息融合概率的调偏,求得监测目标在最大相似状态的权重,从而根据3.2节中的子算法进一步从全局对弱隐私信息的安全状态进行追踪和分析。在该步骤中,3.2节中的子算法进一步检测到“贷款所需放款银行卡号、贷款人姓名、身份证号”信息结构中引入了“电话号码、地址”信息,其安全阈值严重超标,此时将该临时文件截获,并将生成该临时文件的若干源文件及地址进行记录。

Step4:数据治理操作完成后,对弱隐私信息的监测进入最后纵向融合阶段;将综合前3个步骤中的局部与全局安全信息进行全过程迭代计算,从而获得上述3项弱隐私信息的总体安全度,并作出最后的安全评估,最终将安全报告(临时文件、源文件以及相关的数据治理过程记录)提交给管理员。

4.2 实验结果分析

由于算例剖析是通过外部视角对政务数据治理过程进行安全性检测,因此无法以内部管理视角对其进行运行效能方面的实验。为保证WPTM的适用性,通过某高校网站(静态侦测文件超过230万个,动态跟踪数据治理过程8 000多项)对其进行了性能实验,相关结果如下:

在弱隐私信息侦测方面,WPTM模型从230万份文件中侦测到3份包含弱隐私信息的文件,其中包含有超过800条学生隐私信息(因数据治理过程是动态的,数量一直不断增长),为该校排除了重大信息安全隐患。

图2 内存资源占用对比

如图2所示,在系统内存资源占用方面,WPTM在整个静态侦测周期内(与前后两个工作日的同时段内存使用情况进行对比)并未过多占用内存资源;此外,网络流量监测显示WPTM模型带来的附加网络流量也很小,并未引起网络负载过大,体现了较高的实用性。

如图3所示,在系统计算资源(CPU)占用方面,WPTM在整个动态弱隐私信息侦测周期内(与前后两个工作日的同时段CPU使用情况进行对比)并未过多占用计算资源,显示了良好的性价比。

图3 CPU占用率对比

综上所述,WPTM及其配套子算法的弱隐私信息检测能力良好,并且由于其采用静态安全结构侦测与关联动态信息追踪的方法相结合,避免了静态对象的反复动态刷新和评估,降低了系统资源开销,具有较高的可用性。

5 结 语

针对政府数据治理过程中暴露出来的弱隐私泄露等实际问题,本研究构建了面向政务数据治理的弱隐私信息追踪监测模型,给出了该模型的结构与关键子算法。该模型一方面对弱隐私的结构特征进行挖掘,并通过应用场景进行融合式安全特征扫描;另一方面通过关联信息安全追踪子算法对弱隐私信息对象在处理过程中的安全程度进行刻画,从而实现弱隐私信息的数据治理过程全监测。针对未来可能出现的问题,还计划对政府数据治理中的情报信息功率评估、暂存流式文件等问题开展进一步的研究。

猜你喜欢

政务信息安全对象
晒晒全国优秀县委书记拟推荐对象
判断电压表测量对象有妙招
计算机网络信息安全技术研究
计算机网络信息安全及防护策略
攻略对象的心思好难猜
政务云上看政情
关于陈某政务公开申请案的启示
高校信息安全防护
二维码让政务公开更直接
区间对象族的可镇定性分析