大数据背景下档案信息服务体系构建方法探析

2021-07-14孔媛媛张舒王爱

档案与建设 2021年5期

孔媛媛张舒王爱

摘要：不断开发创新当前的档案信息资源共享平台，提升其数据处理能力，方能满足庞大的档案信息资源需求。文章从必要性方面对构建档案信息服务体系进行了论述，并提出大数据背景下应该更多地采用多源异构档案数据整合法，通过构建档案信息服务体系，优化设计相关的方案。

关键词：多源异构；档案信息；服务体系；构建；优化

大数据是指互联网、物联网等现代网络渠道在日常运营中生成、累积和广泛收集产生的海量数据。而大数据时代是指在大数据的基础上对信息进行存储、提炼、智能处理和展示的信息爆炸时代[1]。大数据时代随着新用户的增多，加之信息资源使用频率提升，档案信息资源数据也呈指数级增长。对大规模档案信息资源进行精确分析、有效管理、安全利用等，对于档案管理部门是一大挑战。以大数据来推动企业创新业务，实现档案融合，构建新型档案信息服务体系[2]，达到智能化体系的发展階段，实现安全性和快捷性，这也是当前急需解决的问题。

一、构建档案信息服务体系的必要性

1. 档案信息服务需求增多

构建档案信息服务体系，必须遵循“亲民、公正”原则，更新服务理念，变革服务形式，从而提升档案信息服务的用户体验。在大数据时代，提升档案信息服务的质量和水平日渐成为档案利用者迫切需求，档案部门必须转变服务理念，坚持用户为中心。档案馆作为信息储存的公共机构，一方面要提升硬件设施，另一方面要加强专业化人才的培训，从而在档案信息服务方面由提供信息向提供知识转变。随着大数据时代的发展，馆藏资源更多地以服务大众为出发点，要在新的社会背景下充分发挥出其原本价值，必须由被动服务转向主动服务。不仅要提升信息服务质量，还要提高服务效率，档案部门可以利用电视、网络等各种渠道将公开信息公布给社会，以供公众了解和使用。

2. 档案数据的多源异构特征

公众对于档案信息的个性化需求改变了信息获取方式，但原始的档案数据收集工作还停留在纸质文档和部分电子文档的汇编和转存阶段。随着大数据应用，大量的多媒体异构档案数据应运而生。主要的数据来源如下：

一是物联网盛行下的电邮数据、社交数据。其以文本居多，是重要的非结构化数据。这些电邮和社交数据是档案数据的重要来源[3]，具有重要的参考价值，但如何有效利用这些新型媒体数据将是档案信息化过程中的一个难题。

二是在大数据基础上产生的决策数据、统计报表。早期的档案数据量有限，数据类型单一，普通的信息管理系统完全可以处理。随着大数据盛行，档案数据量呈指数级增长，大数据中蕴含了大量有价值的决策数据和统计报表，当企业需要进行重要决策时，这些数据都是重要的参考。因此有效利用和融合这些决策数据和统计报表对企业构建决策支持系统具有重要意义。

三是实现电子政务后出现的气象环境、社会保障、食品安全等民生信息资源。随着电子政务的发展，产生了一系列形式多样的信息资源，这些信息资源涉及气象、社保、食品等方方面面。这类民生数据资源对社会发展、提升民生事业的信息化水平具有重要的参考价值。

四是电商环境发展下产生的物流数据、订单数据等。随着电商事业蓬勃发展，如京东、淘宝、亚马逊等电商平台的盛行，产生了大量用户交互数据、物流数据以及订单数据等。这些电商数据为档案管理和档案研究提供了丰富的数据资源，保障了档案数据的智能化与个性化分析。

档案数据从不同维度出发可以有不同的分类形式：从文件格式上进行划分，可以分为图像、视频、音频、图形和文本等；从数据形式上进行划分，可以分为Web服务数据、关系型数据、数据包数据、接口数据等。这些不同格式、不同系统、不同来源的档案数据从不同角度、不同粒度提供了大量可靠有用的信息，但目前最重要的是对信息进行有效利用，提高管理档案信息的水平，这是构建一个功能完善、高效易用的档案信息服务体系必须首要解决的底层问题。公众要想公正地获取资源，需要加强对多源异构档案的信息化处理。融合多源异构档案数据，设计一个合适的档案体系架构，更加有利于多源数据档案信息服务平台的设计与研发，是当下档案信息化建设的重要研究方向。

二、多源异构档案数据的融合方法

1. 异构档案信息资源内涵

异构档案信息资源是指由来自不同渠道、具有不同存储格式、具有独特数据特征的信息资源构成的数据集合。其主要的特点是具有异构性。这种异构性表现在以下五个方面：

一是计算机组成的异构。每台计算机具有不同的物理特性，如指令系统不同等。这些物理特性决定了不同的存储体系架构，因此不同的计算机具有不同的物理存储结构，经典物理存储结构包括顺序存储、索引存储以及链接存储等。

二是操作系统的异构。操作系统是用户和硬件交流的媒介，具有作业管理、存储管理、文件管理、设备管理等功能。处理来源于不同操作系统的数据，首先要考虑的就是如何将不同数据存储形式的数据进行标准化和统一化。典型的操作系统包括ios、Windows、MacOS X等。

三是数据格式异构。不同的工具软件和信息存储平台使用过程中会根据实际数据处理的特点选择不同的数据模式，即不同的数据格式。数据格式的形式多样，存储和读取不同格式数据的方式是不一样的。比如常见的一些数据库管理系统，包括SQL Server、DB2、DM、MY SQL等，这些数据库管理系统使用二维表格存储数据，因此被称为关系型数据库系统；还有一些文本数据，由于涉及读写操作，因此存储为文件型数据会更合适，包括TXT、CXV、XLS等。

四是数据存储地点异构。在一些大型档案系统中，由于数据是分散在全国乃至全世界的，因此无法统一对数据进行集中存储和管理。可以使用分布式技术对此类数据进行存储，如各地医保档案都分别存储在本地医保局系统中。这时就需要使用分布式数据存储的相关技术和原理。

五是数据逻辑模型异构。在维护大规模数据时，同一意义的数据具有不同的表达形式。由于目前各个企业都具有自己的人力资源管理平台，每个平台的底层数据存储模型是不同的，会出现对同样的信息采用不同的逻辑模型来存储的现象，这样就会导致信息合成时的数据不一致等问题，这也是实现多源异构数据融合面临的重要问题。

2. 基于SVM的多源异构档案数据融合方法

多源异构数据融合中，主流方法有神经网络、深度学习、SVM等。针对档案数据类别和分类层次较为固定的特点，选择SVM模型进行数据的融合可以较好地完成模型的训练，且分类精度较高，模型训练误差较小，有助于提升档案信息服务体系构建的时效性。

SVM是由模式识别中广义肖像算法（Generalized Portrait Algorithm）发展而来的分类器，其早期工作来自前苏联学者Vladimir N. Vapnik和Alexander Y. Lerner在1963年发表的研究。两位学者对广义肖像算法进行了进一步讨论并建立了硬边距的线性SVM。它可以根据结构风险的最小化来设计新型机器学习理论。由于档案数据具有海量性，目前已在多个领域有所应用，将SVM技术应用于档案数据异构融合，从而避免维数灾难现象的出现，在研究小样本和小概率事件上有很大的优势。SVM理论通过将输入的向量用函数映射到一个高维的特征空间，从而实现最优分类超平面。结构如图1所示。

三、构建档案信息服务体系方案

多源异构的档案数据是档案信息服务体系最关键和最底层的部分，对其进行有效融合标准化是构建出适用性强、数据处理效率高的档案信息服务体系的重要基础。除底层数据的高效融合以外，在顶层架构设计上要考虑各个组件的交互方式，考虑组件间的无缝对接，以及新型档案数据的可扩展性。需要从实际情况出发，以档案数据处理流程的合法性、规范性、可操作性等方面作为评判标准，构建出一个底层结构稳健，顶层结构合理的档案信息服务体系，从而实现档案数据管理的长久方便利用。

1. 总体思路

在传统管理模式下，档案都是由各部门来收集，通过人工管理和标注档案信息，对一些电子档案数据进行检索查询。这样的服务模式具有服务结构单一、数据处理效率低下的缺陷。在大数据时代，应利用大数据技术对海量的档案信息进行数据实时、自动归集的操作，利用云平台来分析计算工作，实现档案信息的管理。利用云平台来架构档案信息服务体系可以为使用者提供智能分析、实时发现与精准预测等功能，可以更有效地融合企业档案并创造其潜在价值，实现个性化定制信息加工服务，满足用户对档案数据的精准化和个性化需求。

2. 具体方案

档案信息服务平台建设应该从以下三个方面来开展，分别为数据库模型、处理平台、数据展示。

（1）数据库模型

档案信息服务体系结构应以水平和垂直的综合模式来构建数据库模型，从而满足数据管理的智能化和自动化发展目标。水平模式保证了数据之间的模块具有独立互斥的特性，满足数据库设计的低耦合特性。垂直模式保证了下层模块可以为上层模块提供服务，而上层模块可以调用底层模块的功能，满足了数据库设计的高内聚特性。

（2）处理平台

可用于开发档案信息服务处理平台的成熟软件有Hadoop、Spark等，在企业档案信息服务方面，当前主要采用的是文本分析、自然语言处理，再结合搜索引擎、多源异构数据采集等多种非结构化数据处理技术。可以通过Iterative Algorithms、Realtime Queries、MapReduce、Stream Processing 等数据处理模型来实现大数据平台的开发。海贝（Hybase）大数据管理平台可以用于管理企业的档案信息服务。该平台主要包括了大数据管理集成平台、企业级检索平台和企业级NoSQL等常用功能模块，并且该框架下的各个子模块是可以定制和配制的，因此被称为弹性可扩展的数据存储检索系统。这样的多源异构数据仓库能够实现跨结构处理模式，比如能够以结构化来处理非结构化数据，也能够以非结构化来处理结构化数据。所以如何提高搜索引擎检索模式的匹配速率，使得档案数据管理平台具有更强大的便捷性，提升數据应用可靠性、安全性和易用性是档案信息服务体系架构平台设计的主要目标。在技术领域，高度新型非结构大数据管理系统是一种非结构化的大数据应用处理平台，其基础为非结构化数据管理系统，并且通过与索引分片、多引擎机制、多副本机制、自然语言处理、Hadoop/HDFS 等技术融合，提升平台处理数据的能力。

（3）数据展示

设计数据模型来存储多源异构数据，通过处理平台的设计实现了大数据平台的开发问题，而后档案数据需要经过一定的处理加工进行信息和数据的展示。数据展示主要包括了信息加工、电子文件归档、数字档案馆等环节。其中信息加工就是对信息进行二次组织，以满足用户检索查询等响应请求；电子文件存档就是数据的存储环节。平台支持多种文件格式的读取任务，并能实现将各类文件按类别进行分类存储；数字档案馆可以实现对各类电子文档进行查询和智能检索等服务，方便查询者个性化查询档案数据，实现面向用户的档案数据检索与展示服务。

四、档案信息资源共享平台数据处理优化实现

档案信息服务平台不仅要从顶层设计上进行合理架构，设计出优化的数据库模型，使用高效的大数据管理工具进行开发，而且要对平台进行优化。主要包括使用用户浏览器缓存、采用CDN技术的前端数据优化和针对数据库中采用存储过程的后台数据优化。

1. 前端数据处理优化

档案信息资源服务平台的前端主要包括档案信息检索页面、档案信息管理和维护页面、用户管理页面。由于前端是面向用户的，所以其中对于检索页面的使用最为频繁。针对检索页面的数据处理优化，可以将CSS、JavaScript进行压缩存储并将其功能页面中的图片进行合并。当用户请求时，一次就可以完成CSS、JavaScript以及页面样式图片的获取。在档案信息资源服务平台上，将CSS、JS以及图标这些静态资源文件缓存在浏览器中，这样可以提升平台的访问效率，当用户进行资源请求时就可以直接读取浏览器上的缓存内容，实现了以最短路径实现资源访问，从而加快了平台的访问速度，减轻了档案信息资源服务平台服务器的负载。

2. 后台数据处理优化

不同于前端数据优化方案，后台数据方案要从如何减少数据访问量、提高存储的安全性以及如何提高查询效率等方面着手。因此后台数据处理优化主要采用以下方式：

首先，减少档案信息资源服务平台档案检索页面中数据来回访问的数据量，设计详细的档案检索条件并提交到后台进行数据检索，数据库检索成功后将结果返回给用户，通过该方式极大地提升系统检索的性能，并且减少数据访问量。

其次，为了减少前后台的数据交互，可以采用存储过程技术实现将过程数据处理逻辑封装到存储过程中，这样就不会出现网络重复的数据交互，减少数据交互频率。当档案检索过程中涉及复杂的数据提取时，此方法非常有效，因为此时档案数据可以通过存储过程处理并统一反馈给用户。并且由于存储过程采用参数的方式传入检索请求信息，不仅可以提升浏览器的检索性能，还极大地提升了平台的安全性。

最后，为提高检索效率，可以采用索引技术。在档案信息最频繁使用的检索点上创建索引，确保访问检索信息的快速性。索引的创建大大提升了查询效率，但也会引入一些不利因素。比如对档案数据进行增删或者修改表中数据时，也需要同步更新索引文件，因此对于频繁需要更新的档案数据应尽量避免使用索引，减少信息变动带来其他功能问题。

档案信息化建设是时代发展的趋势，档案工作也要适应当前的大环境，满足新时代发展的需要。大数据背景下档案信息服务平台的建设也要满足新技术、新时代的要求。将计算机学科与档案学科有效融合，提升信息管理效率，推动智慧档案建设工作顺利进行。

注释与参考文献

[1]曹筠慧，管先海，孙洋洋.基于大数据时代的档案价值及其开发利用探究[J].档案管理，2017（1）：27-29.

[2]郭立.基于信息服务生态系统的社区档案管理研究[J].山西档案，2018（3）：137-139.

[3]魏扣，李子林，郝琦. 社交媒体应用于档案知识服务的SWOT分析[J].档案学研究， 2019（1）：71-76.