APP下载

基于大数据技术的档案数据治理对策*

2022-07-20谭红英

科学与信息化 2022年12期
关键词:异构数据安全

谭红英

重庆工贸职业技术学院 重庆 408000

引言

当前大数据与档案行业融合渗透背景下,将传统档案进行数据化转型过程中档案数据呈现出质量不合格、多源异构的海量数据等问题,因此档案数据治理是关键。为了提高档案数据的治理能力水平,档案机构推进档案管理走向现代化档案治理[1],强化档案数据治理技术应用。随着信息科学技术的快速迭代,大数据技术、人工智能技术、云计算技术等崛起为应对多元异构的海量数据增长的治理提供了可能,保障了大数据治理的基础支撑技术,例如利用大数据Spark处理技术构建实时与高效的大数据处理方式;依托混合现实技术、灵境技术(又称虚拟现实技术)、增强现实技术等大数据沉浸式技术与可视化技术将数据体量巨大、多源异构的大数据以生动的图形化方式展现;利用大数据挖掘分析技术衍生出来的图计算、机器学习、流式计算、语义分析等技术来实现信息服务的智慧化与精准化服务[2];大数据时代档案数据体量巨大,档案数据是大数据生态圈与档案行业渗透融合应用的实时新数据整合[3],其档案数据采集途径多样、数据类型繁多、数据的来源广泛并且多元化。目前档案管理系统没有统一,导致操作系统异构、数据格式不标准、数据存储异构,同时出现重复数据获取而使系统数据冗余度高等产生了档案数据呈现重复性、质量不合格、数据碎片化等档案数据垃圾问题以及严重的档案数据安全隐患,使得档案信息资源开发及智能化档案创新服务开展工作面临巨大的瓶颈,其原因档案数据治理的技术滞后与缺失,这就迫切促使档案部门必须及时开展档案管理中数据的形成、存储及分析等环节的档案数据治理[4],运用大数据清洗处理技术、ETL技术及基于大数据生命周期的数据安全对策,实现在档案数据化转型中档案数据治理。

1 目前档案数据治理存在的问题

1.1 大数据环境下档案数据质量不合规

大数据环境下档案数据化转型中,档案数据治理过程中出现的核心问题是档案数据质量不合规。档案数据在自动化采集、处理、存储等过程中存在关联难、溯源难、纠错难等情况而使得档案数据质量出现缺失性、重复性、错误性等突出问题,其主要原因:一是档案元数据管理效率较低。由于档案记录采用档案部门管理人员人工录入档案管理系统方式进行著录,同时对档案记录数据赋予档案管理编码的方式,从而让档案元数据著录核验及档案管理数据质量没有得到有效完整保障;二是数据源不规范。档案数据来自开放广泛的不同行业和不同的档案部门的多源异构数据,社会各机构组织和行业的档案管理系统没有统一的“自下而上”的顶层设计和统筹规划,这些异构的档案数据主要包括档案管理系统异构、存储档案数据格式异构以及数据存储的逻辑模型异构等,这些多源导构的档案数据导致档案数据收集不齐全、格式不规范、档案数据属性缺失甚至出现档案数据错误等数据质量问题。三是档案数据处理过程中的技术异常。管理人员设置系统操作流程不当以及元数据描述错误的信息因素等导致的数据质量问题。因此,对于大数据环境下档案数据系统异构、数据结构复杂多样、数据集成不当等因素造成的档案数据收集不齐全、格式不统一、数据错误、数据不规范以及数据不完整等数据质量问题现状,档案界必须加强对这些不合规档案数据的治理。

1.2 多源异构档案数据的集中管控能力弱

大数据技术与档案行业渗透,档案数据特征呈现出多源异构的特点,主要体现为:一是数据来源扩大化:档案数据来自传统档案数字化转型而来的数字档案、电子档案、多媒体档案等各种形式档案信息资源,也有进行档案管理、统计、检索、服务及利用过程中产生的数据资源如智能档案库房管理的温湿度传感器感知数据、浏览档案网站平台的记录数据、浏览日志数据、查阅服务数据等,还有大数据背景下与其他行业融合渗透中产生的新型档案数据资源,如来自档案用户注册登录数据、用户访问档案网站的WEB日志数据、档案在线传统数据以及用户参与档案媒体的微信公众号互动、档案在线利用等社交媒体交互数据。二是在大数据环境下的档案数据结构也变得复杂多样:档案除了来自档案管理系统数据库原生的结构化数据还有很多半结构化数据及非结构化数据,如点击流数据、图片数据、视频数据以及日志文档数据等。三是档案数据来自不同机构、不同系统与不同行业的海量数据,同时还有来自各类社交网站访问产生的用户行为记录、访问内容记录、用户登录注册个人信息的海量档案数据,因此这些海量异构的档案数据缺乏有效的平台集中数据整合、高效存储、数据实时性处理与准确性处理。

1.3 档案数据安全治理技术严重滞后

新的IT架构、云技术和大数据等新技术被广泛应用于档案行业中,数据量呈指数级增长,但是档案数据安全治理技术严重滞后,档案数据安全除了基于传统档案收集、流转、归档、存储、管理、利用等业务环节中面临着数据安全问题,还包括人工智能环境下的档案信息资源的自动化采集、分析、存储、利用等安全风险。如黑客、勒索病毒、突发的数据泄露事件持续上升,如黑客通过档案管理系统漏洞、病毒传播等途径致使泄露档案数据、篡改档案内容、窃取档案秘密等档案数据安全问题时常发生,如印度国家身份认证系统曾被网络黑客窃取后在市场交易出售公民的身份证号码、虹膜、照片等隐私档案数据[5]。在大数据环境下档案数据在智慧采集、存储、分析、利用等业务数据流动过程中也存在着安全很大的风险问题,在档案信息资源建设进行数字化转型过程中传统的网络边界变得模糊,已有的安全措施无法有效管控安全风险,因此档案数据安全是信息技术时代档案数据治理重要内容,迫切需要在档案管理各个环节中加强档案数据生命周期安全防护。

2 基于大数据技术的档案数据治理对策

2.1 大数据实时清洗技术,提升档案数据质量

档案数据质量治理是档案数据治理的核心,其包括档案数据准确性、规范性、完整性、一致性、可控性以及关联性等这些方面。大数据技术中的数据清洗技术、分布式存储技术、Apache Hadoop 集群与封装等技术为保障档案数据质量提供了强大的技术支撑。为了得到更优质的数据信息,在数据治理实践过程中,引入大数据技术能够处理海量数据的优点,强调大数据实时清洗技术来为取得高质量的档案数据“推波助澜”。因此,本文利用大数据技术的开源Apache Hadoop分布式集群把档案数据放在集群中各个数据节点上,结合“发现数据—删除重复数据—填充缺失数据—规格化处理—重构数据”的数据清洗处理流程,利用基于内存计算低延迟的Spark达到对档案数据进行实时数据清洗目的,提高数据治理效率,确保档案数据质量。

大数据实时清洗技术主要实现档案数据重复、数据错误、数据缺失、数据异常、数据格式不标准等进行及时整理清洗,使这些异常数据变为后续数据治理系统可处理的数据,使档案数据有序统一。数据质量提升通过对数据结构复杂、海量的数据进行档案化处理,其数据清洗具体步骤为:①利用特征工程与关键值搜索等发现冗余属性与检测出重复数据并进行删除重复数据操作;②及时检测出不完整或缺失的数据实体、数据属性等,并进行补全操作以保持档案数据统一整体的状态;③对数据格式、数据类型不符合相关标准规划的不规范数据的进行标准化处理;④对已识别与其记录的事实或实体不一致的错误数据、问题数据进行修复,重构数据操作。同时针对档案元数据著录时人工错误,利用元数据自动捕获技术,通过对档案元数据的文件格式、大小及存储等档案元数据相关的信息智能高效获取技术,从而高效、实时地提升档案数据的准确性,推动档案数据质量上一个新台阶。

2.2 大数据治理的ETL技术,让多源异构档案数据融汇贯通

在档案数据治理过程中,采取同一路径的方式来实现数据结构统一、多源性、异构性海量档案数据的Extract, Transform,and Load(提取、转换和加载)即ETL技术,是档案大数据治理实施环节中的必要技术,成为档案数据治理技术体系中极其重要的一部分。ETL技术是档案数据融合的一个主要技术手段,它将多源异构档案数据源中抽取出所需整合的数据,经过数据清洗技术后到中间层后进行转换,按照预先定义好的数据仓库模型,最后将数据加载到数据仓库或数据集市中去。在进行数据整合的ETL实施过程中,其ETL规则设计和对多源异构数据转换占整个数据治理项目工作的60%以上,尤其是在数据类型复杂、档案数据源异构明显、档案数据调度时间差异严重的情况下,采用在大数据Hadoop平台上,充分利用分布式大数据集群、云存储平台以及并行处理环境,利用实时ETL作为数据源的数据抽取、转换及集成 。目前比较流行的开源ETL工具之一是Pentaho Kettle,它支撑广泛的数据库类型与文本格式输出,数据抽取高效稳定,且对数据进行分组、过滤、排序处理速度较快。ETL操作是通过对数据进行抽取即创建一个作业,每个作业实现多个转换操作,主要是通过JDBC驱动,建立连接,加载数据,传输数据,在这个过程中会调用XML脚本或批处理,实现对档案历史数据同步、异构系统数据交互等,从而实现大数据环境下多源异构档案数据的集成融合并进行数据处理。

2.3 利用大数据生命周期,实现档案数据治理的安全防护

档案数据安全治理是数据治理中最重要的一部分,档案具有秘密与凭证价值属性,需要注重从收集的各类型档案信息进行整理、编目、鉴定、利用等档案化处理过程中数据自身存在的安全风险,以及在数字档案资源的整理、存储、分析、服务的过程中档案数据丢失、泄露、篡改等安全风险。基于大数据生命周期的档案数据安全防护,从档案数据的产生收集、组织存储、传递、利用及销毁各阶段防护数据安全,其具体策略为:①档案数据产生收集阶段:将数据从分散的源头汇总,通过自动化的方式对数据类别、保密级别做初步判断,对敏感档案数据进行脱敏;②档案数据组织存储阶段:利用多元主体协同的档案大数据组织技术,将区块链技术引入到数据存储中,利用区块链过程可追溯和去中心化的特点,确保档案数据不被篡改,同时将主题相关的视频、图像、文本、音频等数据进行集中存储,并对集中存储并进行存储加密;③档案数据传递阶段:采用加密、检验等方式来保障数据在转换过程中的数据安全,在传输过程中经过的区域边界实现安全检测与防护;④档案数据利用阶段:通过防泄密、访问控制、敏感数据脱敏以及安全的数据交换等方式实现数据安全;⑤档案数据销毁阶段:通过数据格式化、物理破坏等方式达到档案数据治理中数据安全,确保档案数据的保密属性。

猜你喜欢

异构数据安全
ETC拓展应用场景下的多源异构交易系统
离散异构线性多智能体系统的输出一致性
试论同课异构之“同”与“异”
工信部:加快制定工信领域数据安全管理政策
部署推进2020年电信和互联网 行业网络数据安全管理工作
工信部:2021年初步建立网络数据安全标准体系
深度揭示小数本质的课堂教学——四位名师《小数的意义》同课异构的分析与启示
凝聚与铺张——孙绍振教授《以丑、呆为美》两岸同课异构教学观摩后记
建立激励相容机制保护数据安全
数据安全政策与相关标准分享