APP下载

档案信息化的大数据问题与解决对策探析

2019-11-13许娟

报刊精萃 2019年2期
关键词:数字资源信息化

许娟

南京海事局办公室,江苏南京 210000

1 档案信息化研究现状

国内档案信息研究始于20 世纪90 年代后期,档案信息化研究起源于信息社会时代的到来。随着时代的进步和研究的深入,档案从业者,随着论文数量的不断增加而越来越多信息逐渐成为档案行业的焦点。在研究开始时,学者们更加关注档案信息研究的相关理论,研究范围主要集中在档案信息源与档案信息相关概念之间的关系和相关问题。在过程中存档信息问题和对策,该文件与社会信息化密切相关,讨论档案信息化的形成,分析未来的发展趋势。通过分析档案之间的关系。信息化与企业信息化,阐述信息化对企业档案开发的重要性。张瑞同志论述了档案信息化理论体系建设的有利时机、建设现状和存在的问题,以及完善档案信息化理论体系建设的对策和措施。丁立新同志在分析我国档案信息化发展机遇与困惑的基础上,对档案信息化发展模式、应用系统建设及其运行维护进行了趋势预测。在分析我国档案信息化建设基本现状的基础上,王美琴同志指出了档案信息化过程中存在的主要问题,并提出了加快实施档案信息化的措施。

2 档案信息化建设面临的大数据问题

目前大数据技术的演示应用主要包括社交媒体数据分析,在线广告,地理坐标和商业智能,主要用于数据挖掘和决策。但是,从长远来看,这些领域将延伸到长期数据保护和信息系统管理。任何新技术的应用都与社会环境密切相关,表现出技术的本质和受限制的社会性质以及各种社会条件。在档案信息建设过程中,大数据存储技术面临着一些问题,使用元数据的可追溯性,及时性和知识服务的可用性。

2.1 数字档案资源存储问题

只有一个系统能够可靠地和永久地保存收集的数字文件资源可以被称为数字文件系统。文档档案的本质是继续不断发展的历史过程。因此,数字档案资源的存储容量增长是一个长期的过程,需要不断扩张的存储运营商支持这种增长。此外,任何材料的载体受到自然环境的影响和技术进步,并逐渐失去了载体的功能,从而影响记录信息。永久保存的实现是指档案资源的定期数据迁移需要永久保存一段时间,所以可以更新数据,技术更新和更新,信息资源可以持续保存。基本要求为长期保存。

数据的数字存档由两部分组成:内容实体描述文件数据和描述数据(元数据)。文件数据通常具有只读属性。因此,诸如数字档案的描述,索引,索引和目录之类的元数据相对容易标准化。然而,实体和数据的类型,格式和结构数据的技术创新不断变化,信息的完整性和可靠性受到挑战。随着数据量的增加,相应硬件和软件设备的处理规模增加,但数据量特别大的情况下即使系统在数据系统中崩溃,数据的大小也可能导致控制数据在一定程度上下降。数据迁移是在大数据环境中最难测试的。虽然传统的关系数据库三重模式保持了迁移过程软件的独立性,但数据迁移量将越来越大;数据迁移数据结构中包含的信息对其含义的影响变得越来越复杂。分类;迁移周期和节奏加速技术创新,周期越来越短,传统的数据库模型没有有效地处理迁移的复杂性,特别是现有系统的重组技术或管理创新,数据类型,结构,约束等转换问题。保持记录的真实性和可靠性是一项巨大的挑战。

2.2 数字档案资源的可追溯问题

从纵向的角度通过档案了解其反映了基本的语义,背景,源文件的目的和原系统功能,而且还可以找到的相关性不同的文件,该文件具有可追溯性。文件,虽然通常是根据书中的案例本身,和所有相关单位的条件下保存,但有更多的水准或普遍存在的现实的社会环境。档案可追溯性并不局限在体积或在所有情况下,经常使用数字档案查询和分析的特点使用复杂的相关性。不同行业之间的相互渗透,专业领域,相互之间的关系将会越来越多,越来越复杂。此外,数字档案全宗和文件通常是发现在文本,图片,视频和其他异构和均匀,异构数据,然而,需求跟踪将会越来越多元化。

3 档案信息化建设中大数据问题的解决对策

3.1 加强数字档案资源存储

数字档案是借助计算机网络技术和多媒体技术开发和生成的一种新型档案信息表,将各种传统的文件载体转换为数字档案库的信息资源,以数字形式存储,网络传输和使用计算机系统进行管理,实现档案信息的快速利用和共享。在数字档案保存中需要按时间顺序或原因对数据进行分类,相关目标是通过矢量控制来控制存储管理。传统的数据结构,操作和约束模式,具有一定的模型,使用基于分布式数据库系统的转储或模型。通过中心管理服务器将分布在数据库中的不同节点数据中实现统一管理,逻辑存储方法一般将结构化关系模型作为元数据,虽然关系数据库可以实现更复杂的关联,但是数据量非常敏感,并且具有更大的空间和时间复杂度。在档案信息构建过程中,使用大数据存储时,存储数据结构,文件到关联实体。技术加强数字档案信息资源存储,如通过GFS(谷歌文件系统),HDFS(Hadoop 文件系统)等分布式文件存储系统,能够处理非结构化数据并实现相关自动建立基本索引元数据,适用于半结构数字档案信息资源的结构化存储和处理。

3.2 维护档案静态特征及迁移过程的可靠性

原始记录档案的本质属性、客观需要依靠软件和硬件环境,依附的载体及其语义保持记录的原始性、真实性和可靠性的信息,静态特征的需求同时,随着信息技术的发展,实现数据迁移的一致性,以确保档案信息的可追溯性。大数据分布式文件存储系统中的对象文件或文件夹直接转化为二进制数据序列,忽视档案资源的特定的格式或结构在各种形式的底层实现智能存储和处理,在更高的层次上,然后使用分析;此外,大数据技术更加适应大文件的处理,比如HDFS 文件系统,但要储存非结构化数据按照统一的二进制大小(64m)碎片,多点备份,并行处理,形成一系列的键/值对(键,值),然后进行按照合并的档案价值相同的关键因素汇总和合并。这也符合档案的组织特征(“a”或“体积”组织成复合文件)。因此能够维护一个文件的完整性、可靠性和资源存储和利用的过程中实现的智能档案数据转换、集成和利用率,可以基于存档文件的组织特点,复合文件或一组类的模型在各种形式的组织,然后按照反馈的节点,建立简化的数字档案存储管理方案。

结束语

尽管大数据面临着档案信息化问题,但相关研究的重点主要集中在大数据特征档案和相关宏观战略的管理与利用,而大数据技术、云计算、分布式智能化特征以及海量、异构的数据处理等方面。数字档案管理的优势和现实要求有一定的契合性,同时,大数据及其相关技术在数字档案管理中应用的深层次问题还需要进一步的理解和把握,如大数据技术如何存储、迁移和支持ACR 等。OSS 部门和知识发现平台,以及应用于数字档案管理的信息系统需要面对的重构、信息和数据转换层面的分类问题。大数据技术及其生态环境是信息技术发展的必然趋势。

猜你喜欢

数字资源信息化
月“睹”教育信息化
月“睹”教育信息化
月“睹”教育信息化
我给资源分分类
“一核三轴”:信息化时代教学管理模式的探索
资源回收
做好绿色资源保护和开发
答数字
数字看G20
激活村庄内部治理资源