APP下载

英国政府开放数据的目录聚合机制及对我国的启示

2019-04-20刘汪洋梁艺多谢真强

图书馆 2019年4期
关键词:开放平台标准政府

刘汪洋 翟 军 梁艺多 程 序 谢真强

(1.中电科大数据研究院有限公司 贵阳 550018; 2.大连海事大学航运经济与管理学院辽宁大连 116026;3.大连外国语大学软件学院 辽宁大连 116044)

1 引言

英国的“开放政府数据”(Open Government Data, OGD)运动处于世界领先位置,连续四年(2013—2016年)在“开放数据晴雨表”(Open Data Barometer, ODB)上高居榜首,得分为满分(100)[1]。2011至2018年,英国政府连续实施三轮“开放政府国家行动计划”(Open Government National Action Plan, NAP)[2]。第一轮NAP(2011—2013年)的工作重点是推动中央政府机构的数据开放。到2013年11月,Data.Gov.UK共收集来自中央政府和公共机构的10300多个数据集,成为真正的“一站式”数据平台。第二轮NAP(2011—2013年)在加大OGD“国家信息基础设施”(National Information Infrastructure, NII)建设的同时[3],要求地方政府也要开放关键数据集[4]。为此,2015年2月27日,社区与地方政府事务部(Department for Housing, Communities &Local Government,DHCLG)发布新修订的指导性文件《地方政府透明准则》(Local Government Transparency Code),明确地方政府开放数据的范围、周期与方式等[5]。第三轮NAP(2016—2018年)一方面致力于提升国家层面核心数据的质量和利用水平,另一方面通过数据标准规范地方选举数据的开放[6]。

2014年11月,英国国家数据平台(Data.Gov.UK)开始提供“目录聚合”服务,以支持地方政府的数据开放。目前,Data.Gov.UK中已有4万多个数据集,其中来自300余个地方政府的数据集1万多个,占总数的四分之一以上[7]。文章从目录聚合的模式与流程、数据标准建设和溯源元数据等方面分析和介绍英国政府开放数据的目录聚合机制,以期为我国建设统一的开放数据平台提供借鉴和参考。

2 目录聚合的模式与流程

2.1 聚合模式

内阁办公室领导的“政府数字服务”(Government Digital Service ,GDS)工作组负责Data.Gov.UK的建设、运营与维护,其开发的“收集器”(Harvester)软件模块负责获取外部数据目录(即聚合源目录)的全部数据集的元数据记录(即目录清单),将其聚合到自己的目录清单中并发布在Data.Gov.UK 上[8]。

表1给出目前使用的七种“聚合模式”,分为“地理空间数据”和“非地理空间数据”两大类,支持所有的主流地理数据平台(如ArcGIS等)和开放数据平台(如CKAN、DKAN、DataShare和Socrata等)。“收集器”通过API或文件下载方式读取外部“目录清单”,其格式是机器可读的:XML或JSON等。同时,“收集器”对元数据规范/标准具有广泛的兼容性,既支持Data.Gov.UK本身采用的CKAN元数据和GEMINI地理元数据[9],也支持英国地方政府联合会(Local Government Association,LGA)开发的数据目录清单元数据规范,及通用的开放数据元数据标准DCAT和美国的元数据标准POD v1.1 (Project Open Data Metadata Schema v1.1)[10]。

表1 目录聚合模式分类

2.2 聚合流程

LGA出台的《地方政府透明实施指南》(Local Transparency Guidance)建议各地方政府在建设自己的开放数据目录网站的同时,同步将数据发布到国家数据平台(Data.Gov.UK)上[11],其流程如下:

数据提供方选择一种目录聚合模式(见表1),以Web数据文件或平台API的方式提供机器可读的“数据目录清单”;数据提供方通过data.gov.uk/user/register申请账户,经批准后成为一个publishers,具有editor权限;在Data.Gov.UK登录后选择“Dataset Harvesting”发布方式,这是一种批量、自动同步的发布方式,另一种是单个数据集的手工发布方式;创建新的Harvesting Source(收集源),需要提供信息:名称(Title)(如London Datastore)、元数据文件的URL(或数据平台的URL)(如data.london.gov.uk/data.json或lle.gov.wales)、聚合模式(Type)(如data.json或CSW等)和更新频率(Update Frequency)(如weekly或daily)。创建成功后,Harvesting Source会出现在仪表盘(data.gov.uk/harvest)的列表中。目前,共有450多个Harvesting Source,收集数据集记录26 000多个,占总数的55%以上。每个publishers可以创建多个“收集源”;检查收集结果是否正确。对应收集源的“收集器”会自动启动,也可以手工启动,运行成功后会显示出收集到的所有数据集的列表,点击一个数据集的名称,会显示它的元数据记录;数据提供方及时更新目录清单。当发布一个新的数据集,或向已有的数据集添加新的数据文件时,应在目录清单中添加或更新元数据记录,“收集器”会在Data.Gov.UK网站上自动实现同步更新。

表2对比了“London Schools Atlas”(伦敦学校地图)数据集分别在伦敦和英国数据平台上的元数据记录。可见,目录聚合后,一个数据集的大部分元数据项(如title、type、license和resources等)被保留下来,所属“主题”通过自动分类被重新设置,增加了“质量元数据”和“溯源元数据”(详见第4节)等[8]。主题分类是Data.Gov.UK平台数据组织的主要方式[12],共设有12个主题,帮助用户浏览和查找数据集。依据蒂姆·伯纳斯-李提出的开放程度(Openness)“五星评级模型”,平台还会对收集来的数据集的“开放等级”进行自动打分,并作为一种质量元数据被记录下来[8]。

3 支持目录聚合的数据标准

数据标准(Data Standard)是“数据的命名、定义、结构和取值范围方面的规则和基准”[13]。数据标准建设保障了各方(数据提供者、发布者、中介和使用者等)对数据内容、含义和格式等的共同理解,提升了系统间的互操作性,是OGD保障机制建设的重要内容[14]。

3.1 元数据标准

为实现数据目录的聚合,首先需要的是开放数据的元数据标准及目录清单的描述规范。为此,美国白宫的“开放数据项目”(Project Open Data)在2014年11月发布的元数据标准POD v1.1中规定,每个数据平台的目录清单文件以data.json命名,格式为JSON-LD(JSON for Linked Data),模式遵循POD v1.1所定义的Catalog模式,文件的URL为www.[agency].gov/data.json[10]。这套规范不仅在美国地方政府得到了广泛应用,也推广到英国(参见表1)、澳大利亚和爱尔兰等。

图1 目录清单的模式定义(部分)

在英国,面向Data.Gov.UK的自动聚合功能,为使得各地方政府以一致的方式建立数据目录清单(Inventory),LGA开发了“目录清单模式”(Inventory Schema)标准,在都柏林核心元数据的基础上规范了“目录清单”“数据集”(Dataset)和“数据资源”(Data Resources)等的元数据[15]。模式以XML Schema语法定义(见图1),“目录清单”(图1为Inventory元素)的元数据项有9个,包括 Identifier、Creator、Metadata.Title、Metadata.Publisher、Modified、ConformsTo和 Datasets等,其中 Datasets的取值为Dataset的列表;“数据集”的元数据项18个,包括Title、Identifier、Rights、Active、Modified 和 Resources(资源列表)等;“数据资源”的元数据项11个,包括Title、Identifier、Type和Renditions(数据文件列表)等;“数据文件”(Rendition)的元数据项8个,包括Title、Identifier、MimeType和ConformsTo等。

图2 目录清单的实例文档——霍尔沙姆区(部分)

LGA的“目录清单模式”标准规范得到DataShare软件平台的支持,它能自动生成符合模式定义的实例文档,将其发布到myDataShareAddress/api/esdInventory。图2给出了霍尔沙姆区目录清单XML文档的例子。Data.Gov.UK的收集器读取和解析这些文档后,会将其中的LGA元数据映射为CKAN元数据[15]。

3.2 数据模式标准

“数据模式”是对数据结构和格式的规范定义。当大量的数据集被聚集到Data.Gov.UK后,为保障聚合来的数据的一致性(Consistency),英国政府开发和应用了各类数据模式标准[16],促进了不同机构数据的比较、融合和深度利用。

英国第三轮NAP承诺以标准方式开放政府采购合同数据,即实施“开放合同”(Open Contracting)计划[6]。其成果从2016年11月起,Data.Gov.UK上的合同数据集都采用了“开放合同数据标准”(Open Contracting Data Standard,OCDC)[17]。第三轮NAP的另一项承诺是开放“选举数据”(Elections Data),目标是在2020年前实现地方政府和中央政府选举结果的数字化、标准化和机器可读[6]。地方政府联合会LGA负责选举数据标准和指南的制定和编写,其草案已公布在GitHub上[17]。

为支持《地方政府透明准则》所规定的更广范围的数据开放的标准化,LGA联合LeGSB(Local e-Government Standards Body,地方电子政务标准机构)推出“开放数据模式”(Open Data Schemas)激励计划,鼓励各地方政府开发和使用“数据模式标准”。目前,已有数百个数据模式发布在schemas.opendata.esd.org.uk,被广泛使用的有“土地与建筑物”(Land and Buildings)、“组织结构”(Organization Structure)、“停车场”(Parking)、“支出”(Spend)和“公厕”(Public Toilets)等。

LGA引进“数据文件”的元数据项conformsTo,用以指出其遵循的“数据模式”。图3给出霍尔沙姆区Contracts Register数据集的元数据记录,说明了可下载的CSV文件的数据模式定义文档所在的URL。

图3 霍尔沙姆区ContractsRegister数据集的部分元数据记录

4 溯源元数据

Data.Gov.UK描述“收集源”的元数据(见表3)大部分是溯源元数据(Provenance Metadata),如Publisher、Created和URL,可以帮助用户追踪数据的来源,增加数据的可信度。

表3 收集源的元数据

收集来的数据集的溯源元数据则更为丰富,表4以London Schools Atlas数据集(参见表2)为例展示了主要的元数据项,其中metadata_created指一个数据集的元数据记录首次被收集到Data.Gov.UK的时间,metadata_modified则是更新时间,即最近一次的采集时间。这些元数据是以JSON格式存在于数据集元数据API的返回结果中,供应用程序追溯数据的历史和来源,而手工单个发布的数据集则没有这些溯源元数据。

表4 数据集的溯源元数据

5 对我国的启示

英国开放政府数据是政策先行,重视顶层设计,其进程自上而下:从中央政府机构到地方政府[18]。而我国的OGD则发端于地方政府。根据2018年5月贵阳数博会上复旦大学发布的《2018中国地方政府数据开放报告》,我国已有46个地方政府建设了数据目录网站[19]。在国家层面上,中央网信办、发改委与工信部于2018年1月5日联合印发《公共信息资源开放试点工作方案》,确定在北京、上海、浙江、福建和贵州五省开展“建立统一开放平台、明确开放范围、提高数据质量、促进数据利用、建立完善制度规范和加强安全保障”的试点工作[20],探索形成可复制的经验,逐步在全国范围加以推广。其中,“建立统一开放平台”要求开放平台应具备目录发布、数据汇集和元数据发布等功能,地市级公共信息资源开放平台要与省级开放平台互联互通,试点地区开放平台要率先与国家公共信息资源开放平台对接。

这些要求同英国OGD的目录聚合是基本一致的。在参考和借鉴英国的先进经验时,应重点关注如下三方面的启示。

5.1 在标准规范的基础上实现目录聚合

从上文的分析可见,英国的数据目录聚合机制是建立在元数据标准和数据模式标准之上的,具有平台弱相关或平台无关、适应性强、自动高效、支持数据的细粒度比较和融合的优势。与此相类似,美国国家数据平台(Data.Gov)聚合了980个外部数据目录[10],欧洲数据门户(www.europeandataportal.eu)聚合了78个各国数据目录网站的元数据,这归功于美国的元数据标准POD和欧盟元数据标准DCAT-AP(DCAT Application Profile),及欧盟的“主题分类受控词汇表”等数据标准[21]。因此,基于标准规范的目录聚合已成为国际发展趋势。

我国大多数的开放数据平台还不具有目录聚合功能,如广东省平台(www.gddata.gov.cn)中来自深圳的数据集只有42个,而深圳市平台(opendata.sz.gov.cn)的数据集已达1 243个;贵州省平台(www.gzdata.gov.cn)的612个数据集中关于贵阳市的数据仅有2个,而贵阳市平台(www.gyopendata.gov.cn)的数据集已有2 700多个。相对照的是,山东省公共数据开放平台(data.sd.gov.cn)率先具备了“目录聚合”功能,济南(www.jndata.gov.cn)、青岛(data.qingdao.gov.cn)、烟台(ytdata.sd.gov.cn)、淄博(zbdata.sd.gov.cn)和威海(whdata.sd.gov.cn)等17个地市数据目录平台中的元数据记录同步出现在省级平台,总计9 233个,占总数(10 028)的92%。但该目录聚合的实现依赖于统一的浪潮开放数据软件平台[22],缺乏元数据标准、数据模式标准和溯源元数据等的支撑,难以大范围推广应用。同时,由于数据模式不一致,聚合来的数据难以比较和融合,表5给出“小学”和“教育局收费”两类数据不一致的例子。

表5 山东省公共数据开放平台中的数据集模式不一致举例

被广泛采纳的国际开放数据宪章(opendatacharter.net)确立的六原则之一是“基于标准的数据可比较和互操作”[3]。《公共信息资源开放试点工作方案》要解决的主要问题之一是“开放体制机制和标准规范不完善”。因此,我国应加强政府数据资源的元数据标准、分类标准和数据模式标准的建设和推广应用,在标准规范的基础上逐步形成、完善目录聚合和数据融合的机制,以实现开放政府数据生态系统的可持续发展。

5.2 开放政府数据的协作机制

高质量地实现各级政府数据的统一与一致开放,不仅需要完备的数据标准体系,还需要相应的指南、工具和平台的支撑。表6列出了英国这方面的主要成果,它们分别来自中央政府机构、地方政府、协会和研究机构。可见,在地方政府联合会(LGA)的组织下,英国已形成有效的开放数据协作机制。

我国不仅需要省内的协作机制(如山东省各级政府采用统一的开放数据平台),更需要省级政府间的协作机制,为统一规范、互联互通的国家开放数据平台(www.data.gov.cn)的建设创造必要条件。

5.3 数据平台提供元数据API

开放数据平台是OGD的关键基础设施,得到了国内外的普遍重视。国际上有以CKAN(Comprehensive Knowledge Archive Network)和DKAN(Drupal+CKAN)为代表的开源软件平台,及以Socrata等为代表的商用开放数据平台[23]。国内出现了应用于20多个网站的浪潮开放数据平台[23],及贵阳市信息产业发展中心开发的“贵阳市政府数据开放平台V3.0”等[24]。根据W3C的开放数据最佳实践,平台应通过元数据API向外提供机器可读的目录清单[25]。例如,建立在CKAN之上的伦敦开放数据平台共提供了四类元数据API(见图4),使得外部应用程序(如元数据收集器)能够读取全部或部分数据集的元数据记录。借助元数据API,伦敦的开放数据目录不仅被聚合到英国国家数据平台,也被聚合到欧洲数据平台上(详见www.europeandataportal.eu/data/en/organization/london-datastore)。

表6 支持英国数据目录聚合的指南、工具和平台

图4 伦敦开放数据平台的元数据API

我国的开放数据平台还普遍没有向外提供元数据API。贵阳市政府数据开放平台(www.gyopendata.gov.cn)虽然提供了“目录下载”功能,但只能手工下载Excel文件,不能通过应用程序读取,也就不能被元数据收集器自动收集。

6 结语

随着开放政府数据的发展,数据目录网站和数据集的数量在快速增长,提高数据的可发现性成为英国OGD需要解决的重点问题[26]。为此,英国一方面形成了较完善的目录聚合机制,一方面改进了“一站式”网站Data.Gov.UK的搜索功能。文章以支持地方政府数据开放的视角,介绍了英国目录聚合的模式与流程、数据标准和溯源元数据;结合我国实际,探讨了应该借鉴的经验与启示。下一步的工作将围绕构建适应国情的目录聚合机制展开,重点研究开放数据目录体系的元数据(包括溯源元数据)标准和基于元数据的目录聚合方法等。

(来稿时间:2018年9月)

猜你喜欢

开放平台标准政府
2022 年3 月实施的工程建设标准
基于百度地图开放平台的导航电子地图课程实践教学研究
基于在线开放平台的混合式课堂教学模式构建与实践
忠诚的标准
美还是丑?
知法犯法的政府副秘书长
基于AliGenie语音开放平台的传统家居智联网解决方案
一家之言:新标准将解决快递业“成长中的烦恼”
“政府信息公开”观察
开放平台发展迅速