APP下载

《“十四五”全国档案事业发展规划》背景下的数据归档研究的若干思考

2023-08-19巩淑芳

档案管理 2023年3期
关键词:定性分析政务服务定量分析

巩淑芳

关键词:档案;数据归档;定量分析;定性分析;“十四五”规划;政务服务

1 数据归档研究现状

2022年11 月20日,在中国知网以篇名“数据归档”查询到文献283篇,首篇文献发表于1990年,2018年发表数量达到峰值。其中,沈阳师范大学的张岩是发表文献最多的作者,共发表文献3篇,共有27名作者发表2篇文献。现有研究的明显特征为:起步早、体量适中、有基金资助、有核心研究者但不知名、核心机构多样但无档案馆、研究主题聚集度高。

数据的长期保存是数据归档的关键环节之一。荷兰国家科学数据管理机构DANS(荷兰数据归档和网络服务中心)的科学数据长期保存工作国际领先。DANS长期保存机制由外部保障、运行系统、业务支撑及风险防控四部分构成。DANS通过对文件格式数据归档进行评估,得出了“经常使用、能够独立于特定软件、具备开放规范”三个最适合长期保存及访问的条件。[1]丹麦皇家图书馆的 Stem. S.Christensen认为,数据经过归档后,应具有不依赖于操作系统和硬件、满足 OASI(开放式档案信息系统)模型的要求、方便移植的存储特点。[2]

专业数据归档方面国外已经有了比较成熟的解决方案:EMC(易安信)公司实现了固定内容(企业需要大量存储空间进行长期可靠保存的数据信息,如医院病历、银行影像等)数据进行安全保护、高效访问、管理及扩展的归档管理;IBM(国际商业机器公司)數据存档解决方案可以实现包括历史数据、计算机输出文件、传真、电子邮件、扫描图片等各种格式业务信息的存档,而且存档的文档可以很方便地进行检索;SAP(思爱普公司)的数据归档方案具有“通过定义归档对象确定归档方案”的特点,系统提供700余种归档对象,每个应用模块都有对应的归档对象,每个归档对象都有关联的特定的业务。[3]

2 数据归档研究之必要

“数据”,信息的可再解释的形式化表示,以适用于通信、解释或处理(GB/T 5271.1-2000)。“归档”,办理完毕且具有保存价值的文件经系统整理交档案室或档案馆保存的过程(档案工作基本术语DA/T1—2000)。2016年,在《全国档案事业发展“十三五”规划纲要》首次将“数据归档”列入五年规划主要任务和实现指标。2021年,《“十四五”全国档案事业发展规划》(以下简称《“十四五”规划》)中“数据”一词出现14次,主要工作任务有7项明确与“数据归档”相关。如此大规模、多种类数据归档任务列入全国档案事业发展五年规划,标志着继文件、科技资料之后,数据已经成为档案的第三大来源。[4]研究档案始于归档,研究数据档案同样应始于归档。由于归档工作属于档案工作的关键性基础环节,开展数据归档研究既是落实《“十四五”规划》的任务要求,也是高质量完成数据归档任务的保障措施之一,是档案工作数据化转型中的当务之急和当为之事。

3 数据归档研究归纳

国内很多行业和企事业单位都明显认识到数据爆炸的问题,破解该问题的良策就是数据归档,他们已经自行研究且实施了一系列的数据归档工程。由于不同行业、不同专业形成的数据类型不同,数据归档管理的方法也不同。现有成果形成了一些有代表性、倾向性的认识和观点,主要集中在以下几个方面。

3.1 行业数据归档

3.1.1 政务数据归档方面。杭州市电子业务数据归档系统由杭州市档案局开发,系统可以完成政务服务网行政事项电子数据归档以及其他各类业务系统数据归档,实现了数据管理功能具有自动化归档、不依赖第三方的数据摄入、高度灵活的高性能优势的数据归档。[5]梁绍红、夏振华提出了政务大数据归档管理的基本思路和对策措施:将政务大数据分为两大类,一类是由政务事项办理单位产生的“原生政务数据”,按照“谁形成谁归档”的原则,以办件为单位进行完整归档;一类是“部门共享政务数据”,属于加工处理后的规范数据,按照“谁使用谁归档”的原则,由使用单位将共享数据作为事项办理的证明材料进行一并归档。[6]

3.1.2 企业数据归档方面。曾伟提出,采用对公司信息系统进行数据归档的方法来提高数据分析质量和报表查询速度,设计了“搭建数据归档系统、清查系统数据释放空间、与归档系统建立数据连接、优化系统”的数据归档方案。[7]耿如堂认为,当今企业管理过程中,存在重视数据备份、弱化数据归档的情况,甚至有人将这两个完全不同的概念混为一谈。数据备份是为了在意外情况时保证业务工作的连续性,其关注的是数据的变化和更新;数据归档是将大量数据按照档案管理要求有计划地迁移到其他存储系统中永久保存,数据归档不仅是为了保证数据的完整性,也是为了保证企业管理过程档案的完整性。[8]

3.1.3 高校数据归档方面。沈立强等认为,高校信息系统数据以数据库信息数据为主,也就是结构化数据,结构化数据归档大致可分为三种情况:一是,为满足高校信息系统高效运行,减轻后台存储和备份的压力,对业务库进行瘦身;二是,为满足历史数据查询需要,将业务数据按时间顺序进行整理归档;三是,为满足国家档案管理部门要求,将业务数据加工整理后归档。[9]石慧敏认为,在高校数字化校园平台中,对数据信息整合,进行数据归档,实现一次著录、网络共享,是解决重复著录问题的最佳途径。[10]

3.1.4 医院数据归档方面。张灿等针对北京清华长庚医院临床数据归档建设了一套临床数据仓库体系,体系包括数据归档、权限管理和数据展示。其中数据归档是整个体系的核心,对数据的实时性、内容完整性、准确性都提出了要求,进行有目的的数据采集、加工、收集后,采用按常规归档、按日期归档、按患者归档三种形式进行归档处理,形成临床数据仓库体系,为临床数据来源提供支撑和保障。[11 ]蔡光东认为,构建医院信息库,基于数据挖掘技术建立综合决策支持系统,可以进行在线网络信息处理、医疗数据动态分析与决策分析,而实现这个综合决策支持系统的数据基础和核心就是医院历史数据归档查询系统。[12]

3.1.5 银行数据归档方面。银行业务时间范围在逐年、逐月、逐日地不断增大,银行信息系统产生的各项业务数据逐渐增多,数据库随之不断增大,就会出现数据库的恢复和备份困难、系统升级数据库花费时间长、系统负荷过大的情况,导致终端用户读取数据耗时更长的问题。[13]所以有必要开发应用银行数据归档管理系统来解决上述问题。谢欣对银行归档数据的数据仓库进行了设计,归档存储银行重要系统的数据,包括对核心、手机银行、信贷等业务系统的账务、流水等数据表进行 T+1 的数据归档存储,进行长历史的存储,满足历史数据各式各样的查询场景。[14]

3.2 专业数据归档

3.2.1 汽车产业链数据归档方面。汽车制造厂、供应商、销售商、服务商构成了汽车产业链这个庞大的协作网络。ASP平台是汽车产业链的公共应用技术服务平台。随着时间的推移,注册企业数量越来越多,ASP平台系统数据库随之飞速扩张,系统的响应速度受到数据库中存储的大量不常用历史业务数据的严重影响,系统维护成本也相应增加。邓韩认为,数据归档是解决上述问题的有效途径,结合现有数据归档的方式提出建立三层存储模式的数据归档策略:在线数据库、近线数据库和历史数据库。[15]

3.2.2 气象数据归档方面。气象数据归档过程主要分为逻辑视图的更新与聚集计算、物理视图索引结构的更新两大块。许婧、任开军提出的气象数据IMPP算法,执行元数据索引结构的更新,可以有效降低数据归档时索引结构再组织的系统开销,从而为海量气象科学数据快速归档提供支撑和保障。[16]2015年,国家气象信息中心的“中国气象局S2S数据归档中心”开始建设,数据归档中心具有数据质量检查、数据交换、存储归档和数据服务等功能,实现对S2S数据集的完整准确归档以及开放服务。[17]

3.2.3 冶金工业产销系统数据归档方面。数据归档在归档存储历史数据的同时,还要删除在线业务数据,所以不能仅考虑数据的迁移。张博认为,目前国内外针对数据归档通用性较高的产品,主要是通过判断数据活跃程度,自动将不再活跃的数据进行归档,但是针对逻辑复杂的业务数据,其逻辑严密度无法满足要求,他基于大型产销系统关系数据库,结合冶金工业业务逻辑特点,从归档数据存储介质、存储结构、数据搬迁方案分析入手,设计了分别按时间删除、按数据链路、按设定的方式依据进行归档的数据归档策略。[18]

3.2.4 天文数据归档方面。郭航认为,当前天文元数据归档系统所采用的离线或周期性归档方式存在實时性不足的问题,同时数据查询响应较慢,难以满足实时数据查询的应用需求。针对这些问题,采用分布式流式数据处理架构和图数据库等技术,设计和实现了一个实时天文元数据归档系统。[19]

3.2.5 地震速度数据归档方面。地震叠后数据中地震速度数据和道数据配套对应,分开归档容易造成混乱。王洪义等提出将速度数据与道数据整合到一个数据体中的数据归档思路。[20]

3.3 研究成果特点及深入研究的必要

纵观这些先期成果内容十分具体,为我们开展数据归档工作,进行相关研究奠定了良好基础,也为项目基于《“十四五”规划》任务的数据归档研究提供了必要性认证和相对实际的视角。但是从完成《“十四五”规划》任务和将数据归档作为第三大档案来源两个更加宏观的角度看,成果的整体性和系统性尚欠,不同行业、不同专业数据归档系统具有完全定制化的局限性。因此,有必要将数据归档当作一项重要而紧迫的任务,投入更多资源,加大研究力度,从宏观与系统两个方向上展开研究。

4 研究设想

归档是一个老生常谈的问题。但数据归档却是一个新任务、新课题。如何将一个老问题与新任务、新课题完美融合在一起,实现数据归档的平稳推进,应该是开展数据归档的出发点和落脚点。同时,不能为了研究而研究,要以目标为导向,从实际出发,以为实际数据归档工作服务为根本原则开展研究。因此,可以考虑从内容、观点、重点、方法等方面展开研究。

4.1 研究的主要内容。数据归档是个新课题,涉及的内容众多,不可能在一个研究周期内全部研究一遍。需要从主要问题入手,抓问题的主要方面。可以考虑从以下6个方面着手。

4.1.1 数据归档工作目标任务。《“十四五”规划》中4方面发展目标、7项主要任务、14个任务分层涉及数据,7项任务与数据归档相关。通过对《“十四五”规划》部署的目标和任务分层逐个进行梳理分析,明确数据归档工作目标任务,确定项目研究方向和重点。

4.1.2 数据归档文献定量、定性、内容、实证分析。通过对数据归档已有成果文献数据进行定量分析,研究数据归档的发展脉络和趋势;进行定性分析,研究数据归档的工作特性;进行内容分析,了解现有研究状况,分析成果特点,为项目研究夯实理论基础;进行实证分析,研究各领域数据管理平台和数据归档机制建设情况,服务数据归档工作实践,实现经验成果转化。

4.1.3 档案第三大来源的形成及其种属关系辨析。档案管理在数据化时代进程中,产生了“档案”概念和“数据”概念的交叉。运用文献分析法,从定义、政策、理论方面,对从文件到档案、科技资料到科技档案、数据到数据档案的发展过程进行梳理,论证三大档案来源的种属关系,得出数据是数据档案的属概念结论。结合《“十四五”规划》任务的部署,得出数据已成为我国档案的第三大形成来源的结论,[21]并将此结论作为项目研究的新视角。

4.1.4 数据归档政策、组织、技术、人力环境和监督指导。随着电子文件管理的发展,出现了与数据管理深度融合的新态势,参考、借鉴电子文件和电子档案发展的理论和实践,以及现行的相关国家标准和行业标准,研究数据归档的基本思路、推进机制、技术路线、业务要求、人力环境和数据平台建设;研究如何推进档案业务在线监督指导,实现网络化、智能化、动态化的档案数据监管。

4.1.5 政务服务数据归档。参考借鉴浙江省档案局等单位的政务数据归档管理成功经验,研究如何完善政务服务数据归档机制,强化全流程一体化政务服务平台数据归档功能建设,切实推进政务服务数据归档。

4.1.6 数据归档法规供给。依据《中华人民共和国档案法》(以下简称《档案法》)《“十四五”规划》,契合信息化发展要求,参考借鉴《产品数据管理(PDM)系统电子文件归档与电子档案管理规范》(DA/T 88-2021)、《建设项目电子文件归档和电子档案管理暂行办法》(2019)、《政务服务事项电子文件归档规范》(DA/T 85- 2019)、《企业电子文件归档和电子档案管理指南》(2019)、《电子证照文件技术要求》(GB/T 36905 - 2018)、《浙江政务服务网电子文件存档信息包数据规范(试行)》(2017)、《电子文件归档与电子档案管理规范》(GB/T 18894-2016)等已有国家和地方标准和规范,研究探讨数据归档的法律保障。

4.2 主要观点

基于前述文献分析,对于数据归档形成如下认识与观点:

(1)数据归档是一项适应社会信息技术发展需求的过程性实践活动。数据归档在《“十四五”规划》中大规模列入,标志着数据已经继文件、科技资料之后,成为大数据环境下档案的第三大主要来源。

(2)数据已被视为数据文件,归档即是各类数据文件的档案化管理。

(3)归口集中管理数据档案是各级各类档案馆的新职能,应被列入档案管理的数据范围是“对国家和社会具有长久保存价值的数据”。

(4)围绕各行业各领域归档需求,尋求能够满足各类型业务系统归档需求全覆盖的数据归档标准化实施路径,是数据集中管理的关键和核心。

总之,从数据为档案第三大来源这一新研究视角出发,基于《“十四五”规划》部署主要任务,突破现有研究的局限,寻求解决问题的政策、理论、技术和人力支持以及法律保障,为高质量完成《“十四五”规划》任务奠定基础。

4.3 研究重点与思路

4.3.1 研究重点。我国正在大力推进政务一体化平台建设,2019年国务院出台《关于在线政务服务的若干规定》,全面推行政务服务事项网上办理。随之,各地积极搭建各级政务服务平台和各类自建政务系统。随着时间积累,政务服务平台形成了大量政务数据,迫切需要数据归档工作的标准化、规范化管理。《“十四五”规划》部署的7项数据归档任务中3项任务主体是“政务服务数据归档”。据此,项目研究重点拟为如何完善政务服务数据归档机制,强化全流程一体化政务服务平台数据归档功能建设,达到切实推进政务服务数据归档的要求。

4.3.2 研究思路。研究应当以新《档案法》及《档案工作基本术语》对归档的专业定义,相关法律对数据的定义,《“十四五”规划》中有关数据归档任务内容为依据,运用档案学、管理学、数据科学、图书情报科学等多个学科相融合的思路,采用理论与实践相结合的研究方法,从理论与操作两方面展开研究、论证与实践。

5 结语

综上,通过对数据归档研究状况、研究成果进行分析和数据归档研究的内容、观点、重点、思路、方法的探讨,得出数据归档是数据成为档案第三大来源的标志和数据归档任务的完成需要规划,需要实施,更需要法律的保障两大结论。因此,数据归档相关标准、规范及管理办法的研究与或可能的情况下数据归档规范性文件草本的起草是项目研究的难点之一;研究解决数据文件归档难题与结构化数据归档技术是项目研究的难点之二。解决了这两个难题,数据归档研究就会向前推进一大步,为数据归档纳入档案工作体系,实现重要数据向档案的平稳转换提供理论支持、政策保障、技术支撑。

猜你喜欢

定性分析政务服务定量分析
“互联网+政务服务”路径研究
定量分析的特点及其重要性
大规模古籍文本在中国史定量研究中的应用探索
FTA在工业气体探测报警系统中的应用
“互联网+ 政务”:电子政务发展新模式
商务英语词汇量与商务英语阅读能力相关性研究
国外艺术体操科研现状
贵州大数据产业发展战略理解和实施建议
基于层次分析法的电力公司财务风险评价