APP下载

数据文件归档研究

2018-08-20王子鹏

档案管理 2018年4期
关键词:元数据电子文件数据文件

王子鹏

摘  要:按照信息的存在形式划分,数据文件是电子文件的重要类别之一。本文界定了数据文件的概念和本质属性,总结了数据文件面临的管理难题,即来源复杂、系统依赖程度高和缺乏真实性保障。从具体案例入手,在实践层面分析了数据文件的归档价值、真实性保障途径和归档流程。在此基础上,提出了加强数据文件归档工作的对策思考。

关键词:大数据;数据文件;电子文件;元数据

Abstracts: According to the form of information, data files are one of the most important categories of electronic records. This paper defines the concept and essential attributes of data files, and summarizes the management difficulties faced by data files, namely, complex sources, high system dependence and lack of authenticity protection. Then from the specific case, the archiving value of data files, the way of ensuring the authenticity and the process of archiving are analyzed in the practical level. On this basis, this paper puts forward some countermeasures to strengthen the archiving of data files.

Keywords: Big data ;  Data file ;  Electronic records;  Metadata

近年來,政务、商务、医疗、交通、媒体、教育等各行业领域,越来越重视数据的积累,尝试采用基于大数据驱动的管理与决策。据国际数据公司(IDC)预测,2020 年全球数据量将达到 44ZB,而中国的数据量将会在 2020 年超过 8ZB[1],世界正在实质性地迈入大数据时代。在此背景下,数据文件归档工作,无疑将成为档案学理论研究和实践探索的重点之一。

1 研究对象的界定

按照信息的存在形式,电子文件可分为文本文件、数据文件、图像文件、影像文件、声音文件、程序文件、多媒体文件、超文本文件、超媒体文件等[2]。数据文件,作为电子文件重要的存在形式,主要包括两类,一是指含有数据的电子表格文件,如用Excel软件、WPS表格等制作的用于记录或计算各类数据的表格;二是数据库电子文件,是指在事务处理系统中单独承担文件职责,或者作为文件的重要组成部分出现的数据对象[3]。从本质上来讲,Excel等表格处理软件也算一种体量微小的数据库,数据文件可以理解为“以数据库形式存在的具有文件属性的记录”。

1.1 数据库形式。处理不同体量的数据,需要不同数量级的数据库软件。比如,日常办公处理数据,Excel等表格软件即可满足需要;而管理海量数据信息,则需要Oracle、SQL等大中型数据库。不同软件公司出品的数据库文件格式相异,比如Access数据库的扩展名是.mdb,SQL数据库的扩展名是.mdf, Oracle数据库的扩展名是.dbf。即使是同一款数据库,不同版本也会产生不同扩展名的数据文件。

1.2 文件属性。根据《档案工作基本术语》(DA/T1-2000)的规定,“文件”是指“国家机构、社会组织或个人在履行其法定职责或处理事务中形成的各种形式的信息记录”。数据文件具有文件属性,指在社会实践活动中产生的,经过形成、办理、传输等流程,以数据库文件格式存储的信息记录。其他不具备文件属性的数据库文件,不是数据文件。

2 数据文件归档面临的主要问题

2.1 来源复杂。产生数据文件主要有两个途径:一是在使用Excel等办公软件管理数据,生成.xlsx文件;二是业务系统(business system,BS )产生的数据文件,如办公自动化系统、电子商务系统、财务管理系统、地理空间数据系统、客户关系管理系统、人力资源管理系统等。业务系统产生的文档,会被归入电子文档管理系统(Electronic Records Management System,ERMS)或电子文件长期保存系统(trusted digital repository,TDR)进行管理,实现文档一体化。

2.2 系统依赖程度高。除了Excel表格类文件外,数据文件对业务系统软件和数据库的依赖程度高。没有了数据库,无法读取数据文件;缺少了业务系统软件,不能确定各字段数据之间的关联,无法表达确定含义。回顾数据库发展历史中出现了多种数据模型,无论是层次模型、网状模型,还是面向对象的模型,都存在较大程度的数据库依赖和软件依赖。

2.3 元数据无法保障数据文件真实性。关系型数据库的元数据,主要是指对创建时间、权属、权限、用户、角色等数据库层要素进行描述,对数据表、数据表关系、视图、存储过程等数据分区层逻辑关系进行解释,对约束、索引、触发器、字段限制等数据表层要素进行说明。可见,数据文件的元数据,功能在于完整、清晰地呈现数据文件的含义,而不在于确保其真实性。从数据、信息和文件之间的关系可知,数据处于底层,信息是提供决策的有效数据(处于中层),文件是由机构或个人在社会实践过程中所产生或接收的记录信息(处于顶层)[4]。业务系统管理处于底层的数据,在产生数据文件后,并没有像文书类电子文件一样,经历起草、流转、签批、归档等流程,也没有电子签章、时间戳等元数据保障其真实性。

3 基于实践案例的数据文件管理探索

3.1 系统业务流程及数据文件归档价值。“数据系统”基于Excel表格设计,内嵌8张参数表、81张基础数据表、10张数据分析表,用于采集与管理全国各高职院校人才培养数据。系统产生典型的数据文件,每张表格可以分别以.xlsx格式导出,所有数据也可以打包成一个.xlsx文件或.bak文件。

3.2 数据文件归档实践

3.2.1 在线归档。数据上传至院校数据平台、教育主管部门数据平台、教育部数据平台的过程,分别对应不同的主体,完成了三次在线归档。同时,教育部数据平台赋予各院校和教育主管部门相应的账号和密码,方便其在平台上浏览、下载本级数据[5]。

3.2.2 离线归档。参照本单位档案分类法,将数据文件按照“年度——组织机构——保管期限”的方法进行管理。为了确保数据文件的长期可读性,将数据文件、系统软件安装包同步归档,并制作电子备考表,记录系统的运行环境和需要注意的问题。进一步,将系统数据以.xlsx表格文件导出后,转换成PDF版式文件保存,重要的数据表格打印成纸质载体归档。

3.3 数据文件真实可靠性研究

3.3.1 数据源头采集机制。“人才数据系统”赋予填报个人或机构用户名和密码,用户登录后填报系统指定的表单,确保从源头采集数据。所有填报用户与此项工作无利害关系,也不知道系统数据的内部关联性。

3.3.2 数据校验机制。校验有三个层次,一是“人才数据系统”内置校验模块,对数据内部逻辑进行校验;二是数据上报至国家教育部平台后,平台会将其与该校历史数据、同类型其他院校数据进行关联校验;三是各级教育主管部门,会将“人才数据系统”的数据,与该校同年度其他数据统计报表,如“高等教育基层统计报表”“高校社科和科技统计年报”等,进行一致性校验(同字段数据需一致)。

3.3.3 教学评估检查机制。教育主管部门,每隔几年会对各高职院校进行教学评估检查,而检查的依据,即是评估年度内该院校上报的各类型数据。所以,各高职院校既不会敷衍这项工作,也不会作假提升数据美观度。

4 加强数据文件归档工作的对策思考

4.1 来源原则适用于数据文件管理。无论数据文件的来源多么杂乱,其生成主体必定可以划归至某一组织机构。如果是多个业务主体共同负责,则可以划归至牵头机构。档案部门应该进行深入的调查研究,考察各职能部门生成数据文件的现状,参照档案分类方案,制定数据文件的收集范围和保管期限,与纸质文件、其他类型电子文件同步归档。

4.2 数据文件归档形式分析。数据文件系统依赖程度高,所以归档数据文件应包含三部分内容:一是数据文件本身;二是软件安装包(含业务系统和数据库)和使用说明书;三是制作电子备考表,记录该业务系统和数据库运行环境及其他需要关注的问题。在此基础上,考虑到数据文件能以表格的形式展现,可以通过技术手段,将其转换为版式文件存储,进而打印成纸质载体归档。

4.3 数据文件的真实性保障路径。虽然数据文件的元数据在确保其真实性方面,具有先天劣势,但是,参考案例的做法,可以通过数据关联性、机构权威性等途径,确保数据文件的真实性。从机械论的角度出发,元数据可以用来确定电子文件从产生到归档各个步骤的因果关系。而在大数据时代,数据之间的相关性在某种程度上可以取代原来的因果关系,帮助我们得到答案,这便是大数据思维的核心[6]。在确保电子文件真实性方面,数据关联性与元数据并非完全对立,前者是对后者有益的补充。

参考文献:

[1] John Gantz,David Reinsel.The Digital Universe in 2020: Big Data, Bigger Digital Shadows, and Biggest Growth in the Far East[EB/OL].(2012-12)[2018-2-10].https://www.emc.com/leadership/digital-universe/2012iview/index.htm.

[2][3]冯惠玲,刘越男.电子文件管理教程(第二版)[M].北京:中国人民大学出版社,2017:8-9.

[4]石峻峰,周俐霞,樊泽恒,等.大数据时代高校数字档案资源管理研究[J].現代教育技术,2015(1):19-24.

[5]教育部“高等职业院校人才培养工作状态数据采集与管理系统”网址:http://crpdc.gzvtc.cn/xin/log/login.aspx.

[6]吴军.智能时代——大数据与智能革命重新定义未来[M].北京:中信出版社,2016:141.

猜你喜欢

元数据电子文件数据文件
数据文件恢复专题问答
数据文件安全管控技术的研究与实现
SQL数据文件恢复工具
电子文件检查归档移交备份存储机研究
浅谈电子文档与纸质文档在保护技术上的差异
元数据与社会化标签在微视频搜索中的应用
高等院校智慧校园建设规划与实现
档案管理中电子文件的存储探究
浅谈电子文件的全过程管理
Tekla Structure数据文件交互格式分析