APP下载

大数据时代档案数据质量:评估与优化

2023-06-17张夏子钰周林兴

北京档案 2023年5期
关键词:数据质量

张夏子钰 周林兴

摘要:大数据时代,档案管理工作对象向数据态转型,档案数据质量是档案数据研究的关键课题之一。在解读档案数据质量概念内涵的基础上,依据国内外数据质量标准,划分档案数据形式、内容、效用等评估维度,详细阐述规范性、完整性、准确性、安全性、时效性、可用性等档案评估指标。提出档案数据收集和创建集成化、存储和备份协同化、开发和利用知识化等优化路径,从而预防和修正档案数据质量问题,提高档案数据质量。

关键词:大數据 档案数据 数据质量

Abstract: In the era of big data, the objects of ar? chive management have been transforming into data so that archival data quality becomes one of the cru? cial issues of archival data research. Based on inter? preting archival data quality, this paper presents three assessment dimensions of archival data quali? ty, which are form, content and utility according to the domestic and international data quality standards, and elaborates six assessment indexes of archival da? ta quality including standardization, completeness, ac? curacy, security, timeliness and usability. Further? more, this paper proposes four suggestions to pre? vent and correct archival data quality problems so as to improve archival data quality, which are integrating archival data resources when collecting and creating archival data, employing several techniques when or? ganizing and keeping archival data, providing archival knowledge services when developing and utilizing ar? chival data.

Keywords: Big data; Archival data; Data quality

人类历史上从未有哪个时代像今天一样产生如此海量的数据,数据量正在以前所未有的速度增长,数据表现形式千变万化,我们已经进入大数据时代。2021年12月,中央网络安全和信息化委员会印发《“十四五”国家信息化规划》,对我国“十四五”时期信息化发展做出部署安排,指出大数据在行政管理、社会治理、产业发展等方面的应用潜力。[1]2021年6月,中共中央办公厅、国务院办公厅印发《“十四五”全国档案事业发展规划》,明确提出“加强档案资源质量管控”“加快档案资源数字转型”“推动档案全面纳入国家大数据战略”。[2]大数据的真正意义在于大价值。单纯数据量的累积不能满足人们对大数据的期待,只有建立适当的模型,使用合适的技术工具处理大量的数据,发现并利用数据背后的信息,才能实现大数据的全部价值。档案数据具备档案的基本属性和基本价值,[3]与其他数据相比,是更加真实可靠的决策依据。数据质量对决策质量具有决定性作用,[4]档案数据质量是档案数据规范管理与有效开发的基础,[5]所有数据管理的原则都应有助于提高数据质量,[6]需重视档案数据质量管理。

一、档案数据质量的内涵解读

将“档案数据质量”分解为“档案数据”与“数据质量”有助于理解“档案数据质量”。国内档案界最初使用“档案数据”一词,主要是指根据国家有关标准对档案进行著录、标引并录入档案计算机检索系统,转换成机读形式的档案元数据。[7]随着大数据时代的正式到来,以云计算、人工智能等为代表的新一代信息技术让档案界开始关注档案部门保管和产生的数据资源,[8-10]也促使档案界思考外部数据是否具有档案属性。[11-13]目前档案数据的概念还没有形成统一的认识,不同学者从不同角度进行了阐述。[14-16]基于现有研究中对档案数据的描述,本文认为档案数据既包括档案内容数据、档案目录数据等与档案本身直接相关的数据,也包括档案利用数据等档案管理过程中积累的数据。此外,网络行为数据由以新媒体、网页为来源的各种非结构化数据构成,这类数据超越了档案学科对档案数据的固有理解,其管理还没有被纳入档案部门的职能范畴,但网络行为信息符合档案原始记录的本质属性,网络行为数据也属于档案数据。GIGO原则(Garbage In Garbage Out)反映出数据质量决定信息质量,即输入的数据是低质量的,则最终输出的信息也是无用的。更为完整的思路是,输入数据的高质量是信息用户得到高质量信息的必要不充分条件,低质量的数据不可能得到高质量的信息,但受到信息用户数据素养的影响,利用高质量数据的结果未必就是得到高质量的信息。在大数据视角下,数据质量管理的目的主要是为了应用,因此数据质量的内涵倾向于以结果为导向。[17]数据质量指“在指定条件下使用时,数据的特性满足明确的和隐含的要求的程度”。[18]

二、档案数据质量的评估框架

ISO 8000数据质量系列标准填补了ISO 9000质量管理系列标准和数据产品之间的空白,是国际认可的全球性数据质量标准。我国2018年发布的国家标准《信息技术数据质量评价指标》(GB/T 36344—2018)规定了数据质量评价指标的框架,是目前国内最权威的数据质量评价标准。档案领域还没有专门的数据质量管理文件,本研究参考ISO 8000、GB/T 36344—2018,根据档案数据质量的概念内涵,提出档案数据质量评估框架,从形式、内容和效用三个维度梳理说明档案数据质量评估指标。档案数据形式的评估,是指针对档案数据的外在形式表现对档案数据质量进行评估;档案数据内容的评估,是指针对档案数据本身的具体内容对档案数据质量进行评估;档案数据效用的评估,是指针对档案数据能够提供利用者使用的程度对档案数据质量进行评估,具体如表1所示。

(一)档案数据形式维度

1.规范性。规范性用于评估档案数据的数据结构、数据格式、数据类型、数据值域等是否符合国内外标准及系统预设方案的各项规定。2009年、2014年、2017年国家档案局分别发布《文书类电子文件元数据方案》(DA/T 46—2009)、《照片类电子档案元数据方案》(DA/ T 54—2014)和《录音录像类电子档案元数据方案》(DA/ T 63—2017),规定了电子档案在档案管理过程中元数据设计、捕获、著录的一般要求,以及电子档案元数据实体和元数据构成。对复杂的电子档案元数据的抽取和表达需要面向语义和关联的规范作为基础,因而元数据规范普遍采用XML作为其默认描述格式。[19]《档案关系型数据库转换为XML文件的技术规范》(DA/T 57—2014)面向档案数据对象进行规范管理,旨在实现档案数据库记录格式开放且不依赖软硬件保存。

2.完整性。完整性用于评估档案数据是否保持统一整体的状态,数据实体和数据属性等是否缺失。数字时代的“新来源观”突破了档案来源就是档案的形成者和形成机构的理解,将来源原则扩展为以形成文件的个人、团体或组织的职能、过程及活动为中心。除档案内容外,档案的背景和结构信息也成为档案不可缺少的部分,完整性对保证档案真实可信更加具有重要意义。档案数据语义由遵循一定语法的形式化语言来表达,为保证档案内容、背景和结构的理解,在档案管理过程中需要维护档案数据语义完整。

(二)档案数据内容维度

1.准确性。准确性用于评估档案数据是否客观、真实地反映档案记录的事实。准确性是决定档案数据价值大小的关键属性,如若档案数据缺乏准确性,档案将不再能够作为人类社会实践的证明,进而失去可信度。档案数据的准确性不等同于内容的正确性,错误信息的产生和传播也是真实发生的社会实践活动,应予以记录。同时,由于混淆人们判断的信息的存在通常另有目的和意图,了解错误信息的生命周期有助于完整还原真实情况,更加贴近社会现实。档案数据的准确性既包括收集或创建的原始数据的准确性,也包括经过存储、传输、运行等处理过程的准确性。

2.安全性。安全性用于评估档案数据内容是否涉及个人隐私和国家秘密,是否采取必要措施确保数据处于有效保护和合法利用的状态。在数据价值被不断强调的当下,数据泄露或黑客攻击等数据安全问题的破坏性也愈发不容轻视。2021年6月通过的《中华人民共和国数据安全法》第二十一条提出:“建立数据分类分级保护制度,根据数据在经济社会发展中的重要程度,以及一旦遭到篡改、破坏、泄露或者非法获取、非法利用,对国家安全、公共利益或者个人、组织合法权益造成的危害程度,对数据实行分类分级保护。”档案数据不仅涉及个人隐私和组织机密,还可能关系到国家秘密和社会稳定,处于整个数据体系中的较高保护级别,有必要设定具有针对性的安全保护制度管理档案数据。

(三)档案数据效用维度

1.时效性。时效性用于评估档案数据是否随目标资源的使用而及时发生变化。档案数据在档案管理业务流程中不是固定不变的,通常要经过多次格式转换、网络传输、导入导出等操作,在数据更新不及时的情况下,会出现所读取的数据已被修改而该数据却没有得到相对应更新的情况,形成“脏数据”。档案数据的时效性在时间段上,表现为一定时间范围内档案数据记录数量或频率分布符合业务需求的程度;在时间点上,表现为基于时间戳的档案数据记录数量、频率分布、响应时间符合业务需求的程度;在时序性上,表现为档案数据元素之间的相对时序关系。

2.可用性。可用性用于评估档案数据是否能够被获取并被理解。由于政府数据开放的社会需求和大数据的应用,档案开放成为一种新的档案治理理念,档案数据开放成为历史发展的必然趋势。我国《“十四五”全国档案事业发展规划》提出“档案开放力度明显加大”的发展目标,将“加快推进档案开放”作为“十四五”期间档案事业发展的主要任务之一。[20]档案数据开放是档案机构服务升级的重要举措,在确保数据集和数据接口的开放种类、开放格式、开放权限具有系统规定的条件下,可考虑开放已经度过封闭期并且不在保密范围内的档案数据。同时,档案数据的组织开发程度直接影响着用户对数据质量的感受,间接影响数据发挥的作用和产生的结果。

三、档案数据质量的优化路径

从档案数据管理流程的角度,可将档案数据形成产生到价值发挥的过程划分为档案数据收集和创建、档案数据存储和备份、档案数据开发和利用等三个阶段。档案数据管理过程中的诸多因素都可能导致数据质量问题,数据质量问题的表现可能具有延迟性。档案数据质量管理应当贯穿于档案数据管理流程始终,并在各阶段有不同侧重。

(一)檔案数据收集和创建:集成化

以是否需要对档案进行数据化加工为区别,档案数据资源整合存在收集和创建两种方式。大数据是一种新的价值观和方法论,全数据模式要求记录、储存和分析的数据从部分样本扩展到所掌握的全体数据,[21]信息资源管理主体走向多元化。属于档案收集范围的数据,在成为档案之前,在各种平台和系统中大量形成和运转,分散保管在各个部门和机构中,由于管理体制、软硬件系统、技术标准的差异,部门和行业间数据格式异构、语义异构、系统异构。档案数据收集和创建要突破单一主体界限,在跨层级、跨系统、跨部门、跨区域间实现资源整合,[22]对数字档案进行结构化、颗粒化处理,使之成为标准化数据对象。进行集成化预处理能够打通不同平台间由于不相互共享数据而形成的孤立状态,解决多个数据源中字段间的语义差异、结构差异,以及关联关系、数据冗余等问题。[23]

(二)档案数据存储和备份:协同化

档案数据长期保存是一项专业性强的复杂工作,某种单一的技术不可能完成所有任务,而是需要多种技术和管理措施配合使用。[24]区块链技术集合了分布式数据存储、点对点传输、共识机制、加密算法等多重技术,数据一旦进入区块链,在多个节点的共同监督维护下,被篡改的可能性极大降低,从而能够保障档案数据的真实性。云存储是以数据存储和管理为核心的云计算系统,对档案部门来说,云存储可用作分布式数据备份云库房;对用户来说,云存储是使用整个云存储系统带来的一种超越存储设备实体的数据访问服务。2021年6月,安徽宝葫芦信息科技集团股份有限公司依托所承担的国家档案局科技计划项目,研发推出国内首款以区块链为核心技术的档案一体机。[25]中国石油化工集团有限公司从2017年开始关注到区块链技术对电子档案真实性保障的优势,现已基于中国石化云平台建设,将电子文件通过非结构化存储中心进行管理,并将电子文件归档系统与企业长城链同步对接,实现招投标电子文件单套制管理。[26]

(三)档案数据开发和利用:知识化

大数据环境中的数据质量具有动态性,与应用情境和任务类型密切相关,从数据的客观属性向主体感知视角转换。随着人们对现代信息技术的深入应用,用户对档案服务的期望超越了单向信息传递的传统展览和“关键词输入、列表式呈现”的常规检索。迫切需要进行档案信息组织,提供档案知识服务。档案学界已经开始了档案数据知识化开发利用的实践探索。为切实推动口述历史档案资源深度开发,构建口述历史档案资源知识发现模型,引入南京大学抗战老兵口述资料中心的数据源进行可视化展示;[27]设计名人档案知识聚合模式,对名人档案实现知识关联聚合,以吴宝康档案为例实现可视化呈现;[28]珍贵档案文献遗产承载民族记忆,针对水书档案文献构建本体,并通过知识推理完善水书档案实例库。[29]档案数据是最细粒度的档案形式,应当梳理档案数据要素与语义关系,构建档案知识本体模型,基于关联数据技术进行档案知识组织和构建关联数据集,最终构建档案知识库和档案知识服务平台,提供知识图谱、可视化、虚拟现实等档案知识服务形式。

四、结语

大数据时代,数据概念日益流行,数据的战略资源地位凸显,档案信息化发展至档案数据化。数据质量管理贯穿档案数据管理的整个过程,是质量分析、发现问题、解决问题、质量反馈的不断反复的过程,尚未有任何一种方法能毕其功于一役。面对技术浪潮,档案部门应主动作为,提高档案数据治理能力和治理水平,合理运用现代信息技术为档案之治引入新范式、创造新工具、构建新模式。

*本文系国家社会科学基金项目“国家大数据战略背景下档案数据质量优化控制研究”(项目编号:21BTQ016)的阶段性成果。

注释及参考文献:

[1]中共中央网络安全和信息化委员会.“十四五”国家信息化规划[EB/OL].(2021-12-27[2023-03-01].http://www. cac.gov.cn/2021-12/27/c_1642205314518676.htm.

[2] [20]中共中央办公厅,国务院办公厅.中办国办印发《“十四五”全国档案事业发展规划》[EB/OL].(2021-06-09)[2023-03-01]. https : //www. saac. gov. cn /daj /toutiao/ 202106/ecca2de5bce44a0eb55c890762868683.shtml.

[3] [14]金波,添志鹏.档案数据内涵与特征探析[J].档案学通讯,2020(3):4-11.

[4] LEE Y W, PIPINO L L, FUNK J D, et al. Journey to data quality[M]. Cambridge:The MIT Press, 2006:8.

[5]金波,杨鹏.大数据时代档案数据治理研究[J].档案学研究,2020(4):29-37.

[6]DAMA国际.DAMA数据管理知识体系指南[M].DA? MA中国分会翻译组,译.2版.北京:机械工业出版社,2020:4.

[7]冯惠玲,李华.档案工作现代化的重大课题——论档案计算机检索的数据准备[J].档案学通讯,1992(1):41-45.

[8]陶水龙.大数据视野下档案信息化建设的新思考[J].档案学研究,2017,No.156(3):93-99.

[9]钱毅.数据态环境中数字档案对象保存问题与策略分析[J].档案学通讯,2019(4):40-47.

[10]周林兴,崔云萍.大数据视域下档案数据质量控制实现路径探析[J].档案学通讯,2022,265(3):39-47.

[11]于英香.檔案大数据研究热的冷思考[J].档案学通讯,2015(2):4-8.

[12]郑金月.关于档案与大数据关系问题的思辨[J].档案学研究,2016,153(6):37-40.

[13]何嘉荪,谭建月.档案概念再认识——大数据引起的思考[J].档案与建设,2017(8):4-6;10.

[15]陈雪燕,于英香.从档案管理走向档案数据管理:大数据时代下的档案管理范式转型[J].山西档案,2019(5):24-32.

[16]赵生辉,胡莹.档案数据基因系统:概念、机理与实践[J].档案学研究,2021,178(1):40-48.

[17]孙俐丽,袁勤俭.数据质量研究述评:比较视角[J].农业图书情报,2019,31(7):4-13.

[18]金波,周枫,杨鹏.档案数据研究进展与研究题域[J].情报科学,2021,39(11):187-193.

[19]钱毅,马林青.基于三态视角的档案描述标准特征及演进脉络分析[J].档案学通讯,2021(5):40-48.

[21]迈尔-舍恩伯格,库克耶.大数据时代[M].盛杨燕,周涛,译.杭州:浙江人民出版社,2013:39.

[22]金波,陈坚,李佳男,等.大数据时代档案数据资源整合探究[J].档案与建设,2022,405(9):18-23.

[23]孟钰潇,周西平.基于数据生命周期的公安情报数据治理方法[J].情报探索,2021(10):33-40.

[24]刘越男,吴云鹏.基于区块链的数字档案长期保存:既有探索及未来发展[J].档案学通讯,2018(6):44-53.

[25]王春艳.区块链智慧档案一体机发布会在北京举行[N/ OL].中国档案报,2021- 06- 24(2) [2023- 3- 10].http:// www. zgdazxw. com. cn / news / 2021- 06/25/content_ 322284.htm.

[26]战立秋.物资装备招投标电子档案国家试点项目通过验收[N/OL].中国石化报,2022-08-05(1)[2023-03-10]. http://enews.sinopecnews.com.cn/zgshb/html/2022-08/ 05/node_2.htm.

[27]邓君,王阮.数字人文视域下口述历史档案资源知识发现模型构建[J].档案学研究,2022,184(1):110-116.

[28]牛力,展超凡,高晨翔,等.人物事件导向的多模态档案资源知识聚合模式研究[J].档案学通讯,2021,260(4):36-44.

[29]张伟民,宋雪雁,邢阁.水书档案文献遗产本体构建与知识推理研究[J].兰台世界,2022(12):31-36.

作者单位:1.武汉大学信息管理学院2.武汉大学图书情报国家级实验教学示范中心3.上海大学文化遗产与信息管理学院

猜你喜欢

数据质量
强化统计执法提高数据质量
浅谈统计数据质量控制