我国地方政府数据开放平台的安全风险测评

2022-02-07完颜邓邓

图书馆论坛 2022年2期

完颜邓邓，宋婷

0 引言

政府数据开放是在保护国家安全、个人隐私和商业机密的前提下，政府利用集成的网络平台主动向公众提供无需特别授权、可被机器读取、能够再次开发利用与分享数据的公共服务活动[1]，是保障公民知情权，建设透明政府，提高政府工作效率，推动经济增长的催化剂。自2009年1月美国推行开放政府计划之后，英国、欧盟等国家和地区也相继实施了推动政府数据开放和再利用的政策，建立政府数据开放平台。此后，政府数据开放的浪潮在全球兴起。2012年6月上海市率先上线试运行“上海市政府数据服务网”，随后各地陆续建立起开放政府数据平台。根据《2019年中国地方政府数据开放报告》，截至2019年10月底，我国已有102个地级及以上的地方政府上线了数据开放平台[2]。数据开放再利用所产生的政治、经济和社会效益有目共睹。然而，政府数据开放在产生巨大效益的同时，也存在潜在的风险。政府数据开放平台是汇聚、展示、发布、传播政府数据的窗口，其安全性不容忽视，如何防范平台安全风险，既保护数据安全，又促进数据利用和数据红利释放，是一个值得关注的问题。本文选择我国地方政府数据开放平台作为研究样本，测评政府数据开放平台的安全风险现状，分析导致风险的主要因素，发现现有安全措施的不足，为增强平台安全防护提供参考。

1 研究综述

自政府数据开放伊始，其面临的障碍或风险即是不可回避的问题，已有较多论文进行研究。Janssen等[3]研究政府数据开放的好处和障碍，认为法律障碍涉及隐私、安全、使用许可、再利用的合同或协议等。Kucera等[4]确定了政府数据开放中的一系列相关风险，其中有违法发布数据、侵犯商业秘密、侵犯隐私权等，提出采取合规评估、数据匿名化等措施。Conradie等[5]调查地方公共部门组织，发现障碍包括数据安全、版权、隐私问题等。Shao等[6]分析公共和私营部门利益相关者对坦桑尼亚OGD计划的反馈意见，发现该国建立健全的OGD，在组织、社会、法律和技术等方面存在障碍。Sadiq等[7]提出数据开放中存在质量不高且缺乏监督，元数据和数据语义缺失，数据误用等风险。代佳欣[8]从解构政府数据开放全过程的角度分析政府数据开放筹备、实施和完善等三个阶段蕴藏的风险，并提出防范策略。丁红发等[9]从数据生命周期角度分析各个环节存在的数据安全和隐私保护问题。

政府数据开放中敏感数据的泄露与保护是一个研究重点，其中对个人隐私的关注最多，对国家秘密、商业秘密的研究较少。Zoonen[10]通过鹿特丹市的实例研究说明公众对隐私的忽视这一问题。Janssen等[11]和Jaatinen[12]探讨政府开放数据中的隐私保护和透明度的冲突，认为其受到立法、文化、价值观等因素的影响。Meijer等[13]研究如何协调数据开放在透明度、隐私、安全和信任方面的矛盾，提出预承诺(precommitment)概念。Zuiderwijk等[14]设计出改进数据发布流程的五个原则，以解决侵犯隐私等问题。黄如花等[15]和尹正惠[16]从我国实际出发，分析了我国政府数据开放中的个人隐私保护问题。陈朝兵等[17]、陈美[18]、张晓娟等[19]调查了美英澳政府数据开放隐私保护的实践，总结出可供中国借鉴的经验。赵需要等[20]和吉倩雯[21]从理论上分析政府开放数据中个人隐私的评判指标、泄露的风险点、泄露的影响因素。仅有杜荷花[22]构建政府数据开放平台用户隐私保护评价指标体系，对81个政府数据开放平台隐私保护现状进行了评价。此外，政府数据开放商业秘密判定标准与保护策略[23-24]；国家秘密的评判标准及国家秘密泄露的风险点[25]仅有少量文献研究。

对政府数据开放平台风险的研究主要是根据网站内容分析，总结风险。Martin等[26]通过对德国、英国、法国政府数据开放平台的研究，得出开放数据的7类风险。黄思棉等[27]认为我国政府数据开放平台存在着开放数据的范围太窄、数据规模小，更新周期过长、影响数据的使用价值，数据含金量不够、缺乏研究和挖掘的价值等方面的问题。杨瑞仙等[28]则认为存在着数据量少、实用性和规范性差，缺乏完善、系统的数据描述，缺乏完善、科学的分类体系，缺乏有效、丰富的互动交流等方面的问题。邹东升[29]认为各政府数据开放平台兴建过程中，受到技术准备不充分、管理机制不完善等限制。黄如花等[30]则认为存在数据质量差、隐私泄漏、过度关联分析等潜在风险。此外，杨瑞仙等[31]从政策体系、保障机制和公开系统这三个方面进行中外政府数据开放平台的比较，发现中国政府数据开放平台存在缺乏完善的制度体系、政策执行能力不足等问题。

从以上相关研究可知：关注政府数据开放发展，重视数据开放风险研究已成为共识，各方关注点主要集中于数据安全、隐私泄露与保护、法律制度等风险，专门针对政府数据开放平台风险的实证研究较匮乏。尽管政府数据开放平台不断涌现，发展成效显著，但仍存在诸多潜在风险阻碍其发展步伐。因此需要从评测平台安全风险入手，有针对性地排除风险隐患，从而提高政府数据开放平台的安全性，加速政府数据开放进程。

2 政府数据开放平台安全风险测评指标体系设计

2.1 指标体系设计

通过上述对研究的系统梳理，可知已有研究主要围绕政府数据安全、隐私泄露与保护、法律制度、技术障碍等方面的风险展开，为我国地方政府数据开放平台安全风险测评指标体系的设计提供一定参考。同时，笔者对各地方政府数据开放平台的调查发现，平台主要由数据、认证、应用、互动、开发、协议几大功能模块组成，其稳定运行与数据可用性、技术先进性、管理人员专业性、用户可操作性、管理制度健全性以及法律制度的完整与规范性息息相关。因此，基于已有研究成果与调查结果，本文将政府数据开放平台面临的安全风险总结为数据风险、技术风险、管理风险、法律风险四方面。在科学性、可操作性、全面与重点相结合、定性与定量相结合原则的指引下构建指标体系。指标体系分为三个层级，包含一级指标4个，二级指标8个，三级指标26个(见表1)。

表1 政府数据开放平台安全风险测评指标体系

(1)数据风险，即政府数据开放平台向社会开放的各类数据本身问题而造成的风险。分为数据质量、数据开放两个维度。

数据质量是指数据符合用户的使用目的，能满足业务场景具体需求的程度[32]，包括优质数据、无低质数据、无问题数据三方面。优质数据是指数据容量大，社会需求高的数据集。无低质数据包括无低容量数据和无碎片化数据。低容量数据是指条数在两行或两行以内的数据集，或是数据量本身稀少，或是数据经统计归总后颗粒度过大。碎片化数据是指按照时间、行政区划、政府部门等被人为分割的数据集。无问题数据指的是无重复创建和无格式问题的数据[33]。各政府数据开放平台拥有上述数据量越多，表明其数据质量越高，相应地，数据风险程度会降低。

数据开放是指平台数据对用户开放的形式和规则等。包括分级分类开放、数据集开放授权协议两方面。分级分类是指将平台大量无序数据按照资源类型、数据领域、提供部门、开放属性、格式、安全级别等进行归纳划分，对数据进行系统组织，提升数据管理与利用的效率。数据集开放授权协议是平台授予用户有关开放数据利用规则的协议，是规范用户利用行为，防止数据滥用风险的有效条件。

(2)技术风险，指支撑政府数据开放平台稳定运行的有关技术，如信息安全技术、元数据技术、数据规范技术等方面存在的风险。可分为平台运行与平台防护两个维度。

平台运行风险指平台运行技术存在的漏洞，包括身份认证、接口访问、下载格式三方面[34]。身份认证指用户获取平台数据时提交个人身份信息进行注册与认证，是提升用户准入门槛，保证平台有序运行的必要条件。接口访问主要体现在平台接口访问的约束性与跳转的有效性。下载格式是指平台支持的数据下载格式的可用性与稳定性是不同的，按照关联开放数据五星评价法的评价标准，可将常见的GIF、JEPG、PDF、XLS、CSV、JSON、XML、RDF、SPARQL、OWL等格式的可利用性从低到高进行评分。

平台防护风险是指黑客攻击、数据泄露与窃取对平台防护系统提出的风险。可分为防止外界攻击平台的技术、防止数据泄露与窃取的技术两方面，如数据脱敏、数据沙箱、数据加密、数据屏蔽等技术的运用[35]。

(3)管理风险，政府数据开放平台的管理机制是约束平台开放行为、防范平台风险的有效手段。其风险可分为内部人员管理、用户管理、运营管理三个维度。

内部人员管理是指管理机构对平台工作人员的要求与规定，包括安全责任人与培训考核两方面。安全责任人指平台的安全管理需要明确责任，防止平台安全事件发生时，出现互相推诿责任的情况。培训考核指管理机构的员工培养计划，定期对其工作进行培训与考核，强化平台管理安全意识与服务能力。

用户管理指平台针对用户开展的管理方式，体现在互动交流与开发利用两方面。互动交流主要有平台征集调查、用户纠错反馈、平台回复等方式，是加强平台与用户两者之间交流与联系，发现与降低平台风险的有效渠道。开发利用是指开发者(用户)在平台提供的开发中心提交应用申请前，平台对应用安全的测试以及开发者姓名、联系方式、数据来源等相关信息的收集，是降低数据应用风险的一道必要程序。

运营管理指对平台运行的规范与约束，其风险与平台安全保障机构的设立、平台定期风险评估、应急预案制定、数据开放标准规范的实施、平台年度工作计划的公布息息相关[36]。

(4)法律风险，指保障平台安全运营的法律条件的不完整与不规范方面的风险。主要体现为平台协议的合规性。

合规性指政府数据开放平台授予用户数据使用权利的授权协议、用户协议等制度的规范性问题，主要体现为敏感数据脱敏，分级开放与利用、非敏感数据开放与利用(个人隐私、国家秘密、商业秘密等敏感数据以外的数据)，用户权利与义务，用户信息收集、使用与存储，免责范围，服务终止事由，协议更新通知等方面的规范程度。上述协议内容的规范程度与平台法律风险呈负相关，规范性越高，法律风险则越低。

2.2 指标权重确定

根据层次分析法的原理及步骤，笔者借助Yaahp软件，首先构建了层次结构模型，生成ahp调查表；邀请5名从事政府数据开放研究的高校教师、5名政府部门分管数据开放工作的领导和工作人员，请其根据AHP(1-9标度)法对每个层次各项指标的相对重要性进行比较，进而构造两两比较判断矩阵；并对判断矩阵进行一致性检验。最后用加权几何平均法对10个专家的意见进行综合，最终得到如表2所示的评价指标权重计算结果。

表2 政府数据开放平台安全风险测评指标权重

3 政府数据开放平台安全风险测评实证

3.1 数据来源与方法

参考复旦大学数字与移动治理实验室公布的《中国地方数据开放报告(2019年下半年)》开放数林综合指数排名，选取省级与地级(含副省级)中分别排名前15的政府数据开放平台为调查对象，排除4个未能获取与判定的政府数据开放网站，调查对象共包括26个政府数据开放网站。

采用网络调查法与内容分析法，逐一调查26个政府数据开放平台有关风险内容(调查时间为2020年6月5日-7月10日)。基于各平台对三级指标的符合程度进行评分，符合三级指标条件的则该项指标得1分，Hi=1，不符合的则赋值为零，Hi=0，不区分简单与复杂性质。无法直接用“有”“无”判断并赋分的特殊情况则基于各地在评估指标上的实际表现赋值为0-1分之间的数值作为该项得分，如下载格式按照数据集可重复利用性评分标准，GIF、JEPG、PDF格式分数为0.2分，XLS格式0.4分，CSV格式0.6分，JSON、XML格式0.8分，RDF、SPARQL、OWL格式为1.0分。设Ci为第i项三级指标的权重，则第i项的实际得分为Ti=Ci*Hi。相应的，该政府数据开放平台安全风险水平得分T(换算为百分制)为：

3.2 数据分析

3.2.1 整体情况：政府数据开放平台安全风险防范整体水平欠佳，存在地区分化现象

由此次调查的26个政府数据开放平台评价得分与排名可知(见表3)，地方政府数据开放平台安全风险平均得分为60.23分，近一半平台综合得分低于平均分，反映出我国地方政府数据开放平台安全风险防范的整体水平偏低，大部分地方政府的安全意识有待加强。从城市行政级别来说，省级城市与地级(含副省级)的平均得分分别为60.16和60.30，总体得分差距很小，且地级(含副省级)的分数要稍高于省级。但从单个城市而论，分数80以上的两个平台都属于省级城市，其中最高得分上海市有88.25分；而地级(含副省级)中，最高得分为深圳市78.73分。这说明省级城市的政府数据开放平台安全风险问题发展的两级分化现象比地级(含副省级)要更为凸出。从区域划分来看，东部地区的平均得分明显高于西部地区，分别为63.62分、54.24分，这反映出我国政府数据开放平台的安全风险问题存在发展不平衡情况，部分平台的建设起步晚，发展缓慢，其安全级别较低，风险问题较为突出。

表3 政府数据开放平台安全风险评价得分与排名表

3.2.2 数据风险指标：高质量数据占比不高，数据集开放授权协议缺位

由表2可知，“数据风险”通过“数据质量”“数据开放”两项二级指标来衡量，各二级指标又分别通过C1-C3与C4、C5这些三级指标来判定。本文借鉴《中国地方政府数据开放报告(2019下半年)》中数据质量指标评估方法，在已有调查结果的基础上通过人工观察分析来评判各政府数据开放平台中是否存在优质数据、无低质数据与无问题数据。图1显示，在被调查平台中，大多数都具有优质数据，即数据容量大、社会需求高的数据集，且集中于综合指数排名靠前的平台，优质数据集排名第一的平台是山东，其次是烟台、浙江、广州。但无低质数据和无问题数据却寥寥无几，大部分平台都存在按照时间、行政区划、政府部门等被人为分割的碎片化数据集以及数据量为0和数据集名称下没有可供查看和下载的数据。以“经济指标”为关键词在各平台上进行搜索，无法得到有效信息则更换关键词，结果显示仅有少数平台如福建、青岛、东莞没有碎片化数据，经济指标数据都是经过整合后才对外发布的。而满足无重复创建、无生硬格式转化、无无效数据集、无标题缺失或不清这些无问题数据条件的平台同样屈指可数。此外，针对C4分级分类开放指标，文章根据各平台中数据分级分类设置的有无来进行评分，未细分多维度分类与简单分类得分标准。由图2可知，虽然各平台都在不同形式上对数据集进行了分级分类，但所调查平台把数据集开放以及用户使用权利涵盖在整个平台的开放协议、使用条款或者隐私声明中，专门针对数据集的开放授权协议严重缺位。以上表明，多数平台在数据质量风险防范上仍存在薄弱环节，加大了隐私泄露等风险发生机率。

图1 “数据质量”指标数据图

图2 “数据开放”指标数据图

3.2.3 技术风险指标：平台防攻击、数据泄露与窃取技术的应用未得到普及

“技术风险”通过两项二级指标“平台运行”下的C6-C8与“平台防护”下的C9、C10进行衡量。调查发现(见图3)，在平台运行方面，几乎所有平台在提供数据免费下载前都会要求用户以个人或机构账号进行注册登录，以验证用户身份。仅“数据东莞”平台没有发现注册登录标识，用户无需进行登录也可下载数据。接口访问上，大部分平台都会提供有效的数据接口，只不过各平台数量不一，仅“陕西省公共数据开放平台”没有提供数据接口。从下载格式上看，所调查平台都有提供机读格式，但只有极少平台做到了XLS、XML、CSV、JSON、RDF等开放格式的全覆盖。从图4可知，在平台防护方面，有约65%的平台具备技术支持单位，提供防攻击、防泄漏与窃取等技术支持，而仍有约35%的平台并未重视防攻击、防泄漏与窃取技术的应用，平台防护得不到技术保障。

图3“平台运行”指标数据图

图4“平台防护”指标数据图

图5“内部人员管理”指标数据图

图6“用户管理”指标数据图

3.2.4 管理风险指标：平台运营管理缺乏有效标准规范与工作计划

“管理风险”通过“内部人员管理”“用户管理”“运营管理”三项二级指标来衡量，其中“内部人员管理”通过C11与C12衡量，“用户管理”通过C13与C14衡量，“运营管理”通过C15-C19衡量。政府数据开放平台的正常运行与安全防范需要各方面管理的有效配合。调查显示，内部人员管理上(见图5)，大多平台重视对员工的专业技能和知识的培训考核，但缺乏明确安全负责人，或是未对外公布而无从查询。用户管理方面(见图6)，各平台都有专门的互动交流通道，供用户进行评分、反馈、纠错、建议等，通过了解用户的体验感与使用感排查平台各方面安全风险。此外，各平台基本都支持用户对平台数据进行开发利用，建立开发者文档帮助用户掌握开发流程，并在用户发布应用前进行审核以保障应用App的安全性。在运营管理上(见图7)，各地区多以大数据管理局、或是政府机关下内设机构作为专门的平台安全保障机构。部分平台发布的政府网站工作年度报表中，对安全检测评估次数、应急演练的有无进行了统计，但也存在多数平台年度报表未对外发布的情况，风险评估、应急预案指标无从得知。在数据开放标准规范、平台年度工作计划两项指标上，只有上海市公共数据开放平台全部符合。以上信息说明我国大部分政府数据开放平台在内部人员管理及平台运营管理上还有诸多安全漏洞未得到有效解决。

3.2.5 法律风险指标：平台协议内容合规度有待进一步完善

“法律风险”通过二级指标“合规性”下的7个三级指标C20-C26来衡量。平台协议通常以使用条款、网站声明、服务协议等为表现形式。协议主要内容包括平台所提供服务介绍、平台权利与义务、用户权利与义务、免责范围、隐私声明等。由调查数据可知(见图8)，在各平台的协议内容中，对用户权利与义务、用户信息收集、使用与存储以及免责范围都做了详细规定，只有极个别平台协议中未全部包含。与之相反的是，平台鲜有对敏感数据脱敏、分级开放与利用的说明，且只有少部分平台设置无条件开放、有条件开放这一分类标准。此外，多数平台协议内容中提到服务终止事由，即在任何情况下，当网站合理地认为用户的行为可能违反法律、法规，可以在任何时候，终止向该用户提供服务，并通知用户。并提到一旦发生用户协议的条款变动，将及时发出协议更新通知，在网站页面上提示修改内容。由此可知，我国政府数据开放平台协议内容在各项合规性指标上缺乏一定的完整度，尤其在对敏感数据的处理上需要完善。

图7“运营管理”指标数据图

图8“合规性”指标数据图

4 政府数据开放平台安全风险防范建议

在我国政府数据开放平台建设飞速推进的同时，安全风险突显，以数据、技术、管理、法律四类风险为主，且存在较大的区域差异与部分功能服务缺位现象，阻碍政府数据开放平台有序发展。本文从四个风险角度提出加强政府数据开放平台安全风险防范的建议。

其一，从数据风险角度出发，应提升开放数据中高质量、高需求的优质数据集比例，尤其是以API接口形式开放的实时动态的、大容量的数据集。减少碎片化、低容量的低质数据集，定时剔除重复、无效数据集，集中清理碎片化、限制型和无效API接口，保持开放数据集的持续增长与动态更新[37]。注重规范数据审查流程，将自动化检查与人工审核有效结合，提高开放数据集的整体质量水平，实现高效利用。此外，推进数据集开放种类的多样化与精细化，标注开放类型，在参考国际现行的开放政府协议的基础上，根据中国当前平台发展现状与社会法律环境，制定兼具适用性、针对性的数据集开放授权协议。

其二，从技术风险角度看，重视用户账户注册中密钥、验证码等的使用，强化账户密保等级，利用人脸识别、指纹识别技术验证个人身份，强调实名认证，保障账户安全。降低申请API接口难度，为API接口使用提供详细具体的使用说明及操作指南，降低因操作失误而导致数据泄露的风险。API接口响应的速度与准确性问题也同样不容忽视。还应努力做到开放数据集可机读格式、非专属格式的全覆盖，减少结构化的DOC、PDF等文件的使用，提升RDF格式比例。同时，要加强与技术支持单位的开发合作，攻克风险管控核心技术难关，构筑数据开放技术防范体系，提高政府应对突发防范事件的技术支撑能力。普及数据脱敏、数据沙箱等数据安全技术的应用，并建立统一的脱敏标准，以防脱敏度过高降低数据利用价值，过低则无法保障用户隐私。

其三，从管理风险看，一是明确牵头负责数据开放的机构，赋予足够的职权以统筹协调各部门数据，逐渐打造政府数据开放的动态治理模式，根据国家政策标准以及政府数据资源自身属性与具体内容进行动态管理。建立专人专岗的管理制度，明确分工与职责，制定数据开放培训计划，定期对内部工作人员开展培训考核，并纳入公务员培训工作体系，提高有关工作人员的专业技能与职业素养。二是加强宣传教育，强化用户在数据访问、获取、利用、共享过程中的危机与权利意识，并在平台开发利用版块提供数据发布者联系方式与智能客服，及时回复用户评价、建议、纠错等反馈信息，从中总结改进。三是重视发挥第三方监督的作用，联合司法机关、社会媒体与公众的力量，形成协同监督机制，打造紧密交织的监督网，以督促各平台定期开展应急演练与风险评估。四是建立公共数据开放安全预警机制，对敏感数据泄露等异常情况进行实时监控，确保数据开放工作安全有序进行。此外，制定并公布针对数据开放的年度工作计划以及为政府数据开放提供指导的标准规范。

其四，从法律风险角度来说，首先，法规与政策方面，加快规范政府数据开放的地方性法规、地方政府规章或规范性文件的制定与出台步伐，对数据开放方式、范围、开发利用、安全保护、保障渠道等方面做出明确的规定和要求，厘清数据开放与信息公开对象、概念与形式边界，对隐私泄露、数据窃取、黑客攻击等行为进行有效规制。其次，平台协议合规性方面，确定政府数据开放的优先级，明确敏感数据与非敏感数据的划分标准，并对其分级开放与利用作出详细说明。同时，平台协议内容的完整度上，需重视补充与完善用户权利与义务、用户信息收集、使用与存储、免责范围、服务终止事由、协议更新通知等方面内容，防止因法律内容漏洞而引发风险。

5 结语

随着政府数据开放实践的深入推进，政府数据开放平台不断涌现，数据开放利用持续深化，数据风险、隐私泄露等安全问题愈发凸显。以往对政府数据开放评估的研究，侧重于评估平台绩效、平台可用性、数据质量等方面，对于政府数据开放中的安全风险缺少深入论证。本文聚焦于政府数据开放平台的安全风险，基于所构建的评价指标体系，抽样评估了我国26个地方政府数据开放平台的安全风险，发现地方政府数据开放平台安全风险防范的整体水平欠佳，在数据、技术、管理、法律方面仍面临严峻挑战，据此提出了针对性策略，对于解决我国地方政府数据开放平台现存风险漏洞，提高政府数据开放平台的安全性具有参考价值。我国各地方政府在平台建设中应努力平衡数据开放与风险防范之间的关系，逐步加强上述四个维度的安全等级，促进数据红利释放。