APP下载

大数据挖掘技术在海洋档案管理中的应用

2017-11-28吴晓文孙杰杨帆

卷宗 2017年32期
关键词:东海数据挖掘海洋

吴晓文+孙杰+杨帆

摘 要:“大数据”时代,结合业务需求剖析海洋档案管理的背景和现状,分析应用大数据挖掘技术开展海洋档案管理工作的必要性,以海洋档案管理实践为基础,研究大数据挖掘技术在档案管理中的应用,为提升海洋档案馆建设能力和服务水平做出有益探索,更好的推动我国海洋档案事业的发展。

关键字:海洋档案管理;数据挖掘

本文为2016年国家海洋局东海分局青年科技基金“大数据技术与海洋档案数据挖掘应用研究”(项目编号:201615)和东海信息中心课题“国家海洋局东海分局海洋档案数据库建设项目”的研究成果。

海洋档案汇聚了海洋工作最根本、最丰富的信息资源,作为海洋事业发展真实、全面的历史记录,在维护国家海洋主权、海洋科学研究、海洋资源开发等方面越来越显示出其重要性。在建设海洋强国的时代背景下,海洋档案信息的利用需求不斷增加,但是现有的档案管理模式无法满足海洋事业快速发展的需求,丰富的档案资源未能有效的开发和利用。如何改变现有的开发利用模式,有效地开发利用海洋档案资源为海洋事业发展服务是海洋档案管理工作的重要任务。

1 研究背景

《全国档案事业发展“十三五”规划纲要》从大数据的视角,描绘出2016-2020年我国档案大数据发展和信息化建设的开放、创新的前景和路向,打破小数据管理定势、探索与大数据技术的融合已势在必行。海洋档案事业要发展,必然需要应用大数据技术改变传统的海洋档案管理模式。

国家海洋局东海分局是我国东海区综合性海洋档案管理部门,负责接收东海区机关和下属事业单位的海洋档案。以东海档案馆为例,目前馆藏档案1万余卷,涵盖机关文书、船舶与飞机、调查与观(监)测、防灾减灾、环境保护、海洋执法、基建等类型。自2011年开展档案数字化和数字档案管理工作,馆藏数字化程度仅为85%,档案信息查询系统的建设提高了档案管理水平和效率。但受到管理体制、信息保密以及系统功能的限制,现有的档案信息系统仅能用于档案初步查阅利用,档案管理模式仍然沿用人工管理的方式,海洋档案管理现状也处于资源丰富但利用率低,利用手段原始,信息挖掘和利用程度低,开放和共享程度受限的阶段[1]。当前,结合海洋业务需求的海洋档案数据挖掘研究刚刚起步,要实现档案数据的深度挖掘,需要完成大量档案的数据化和结构化处理,并依托大数据技术实现智能管理和利用。

2 大数据挖掘技术应用于海洋档案管理的必要性

我国海洋事业发展迈入了前所未有的战略机遇期,海洋档案管理工作的内涵不断扩展,技术手段不断创新,档案的类别与载体不断丰富,业务需求不断增加。新的发展需求引导新的发展理念,从海洋档案本身和档案管理工作两方面来看,将大数据挖掘技术引入海洋档案管理工作中,是非常必要的。

2.1 辅助海洋行政决策

海洋管理部门在海洋生态文明建设、海洋科技创新、维护国家海洋权益等重大决策中需要大量有效信息作为依据。智慧海洋建设离不开海量的档案数据和信息作为资源,而丰富的海洋档案恰恰可以提供这种需要。如何将海量数据变成“活资源”,更有效的辅助海洋行政重大决策是应用大数据挖掘技术的首要理由。

2.2 完善海洋档案存储结构

海洋档案从传统的纸质载体,逐渐发展为纸质为主、电子档案为辅的载体结构。到大数据时代,这些海量的信息资源仅仅采取目前传统的存储方式是不够的,海洋档案存储方式应更加多元,而要采取新的存储方式,比如云存储、虚拟存储、网格存储等,考虑到海洋档案总量、档案数据增加的速度、档案数据类型的多样化以及数据复杂程度等要素的影响,引入大数据挖掘技术实现存储结构的完善是当前的不二选择。

2.3 创新海洋档案服务方式

海洋事业的发展必然要求海洋档案服务工作不仅要“跟得上”,更要发挥预见性功能。大数据时代建设“智慧海洋”,意味着海洋档案工作要具有智慧属性,海洋档案服务将朝着社会化、多元化、开放性发展,突破现有格局,为海区乃至全国海洋事业全局化、个性化的需求为导向,提供网络化、智慧型的服务,这些都需要大数据挖掘技术作为支撑。

2.4 转变海洋档案的功能和作用

随着时代的发展,海洋档案的功能和作用也发生了深刻的变化,从最初的服务于国防安全和海洋科技转变为服务于国民经济和社会发展、国家安全和权益维护、海洋经济创新发展、海洋生态文明建设等,从长期以来的“重保管、轻利用”转变为通过运用先进的大数据技术手段,来发现和提取有效的信息,为国家、社会、企业创造价值[2]。

3 大数据挖掘技术在海洋档案管理中的应用

3.1 海洋档案信息收集中的应用

在较为成熟的大数据挖掘技术的应用实例中,“淘宝”的大数据应用最为典型。“淘宝”后台收集了海量用户信息及店铺访问深度、停留时间、宝贝转化率、跳失率等符合常规购物习惯的数据,对其进行深度挖掘,成功进行信息管理、定向推广、客户维护等工作,使用户获得很好的购物体验。

借鉴这样的思路,在海洋档案管理的数据挖掘中,首要任务就是对历史的档案管理行为数据及相关档案数据库中的信息予以分析,以全新的描述方式描述已知的数据集合,并建立起模型概念,按照模型对各种对象进行合理分类。因此,可认为档案信息的收集是档案管理其他个性化功能实现的前提。诸如在已建成的“东海数字档案管理系统”中已经可以实现个人用户自助借阅并进行流程审批,通过对个人信息及查询习惯的分析,可以确定向不同类别的用户提供符合其需求的服务,一旦有类似信息的用户输入,则能依据分类提供其可能的档案利用服务,可明显提高档案查全、查准率;通过对用户行为的进一步分析,可以对档案的收集起到促进作用,判断是否有应归未归的档案,是否需要通过修改归档范围进一步扩大档案的收集面等。

3.2 海洋档案分类中的应用

通常档案分类方法有年度分类法、组织机构分类法、问题分类法等。目前我国现行档案分类法是1997年正式发行的《中国档案分类法》第二版,其中对海洋行业的分类描述甚少,归纳在19个大类中的一个二级目录中,篇幅仅占其中薄薄一页且偏于理论,对海洋档案管理工作实践指导作用较弱。因海洋档案分类体系复杂、难度较大,海洋档案分类研究和实践工作至今仍然进展缓慢。endprint

海洋档案分类体系影响海洋档案管理效率,进而影响档案本身资源挖掘,而应用大数据挖掘技术,可有效跨越这一障碍,管理者只需根据海洋档案特点,在进行档案信息化工作时将现有档案分为数据类档案和描述类档案两大类别,即可通过不同的大数据挖掘技术(如语义检索技术、非结构化数据库存储技术等)进行档案深度服务,提高档案的检索有效率和检索速度。

3.3 海洋档案预测中的应用

目前海洋档案管理系统已经能够实现自动保留访问者的基本信息与访问日志。大数据挖掘技术通过基本信息、搜索间隔的时间、停留时间、访问下载的次数,发现使用者的兴趣点。再对档案内容进行分类与用户兴趣点关联,为用户提供有效、准确、个性的推荐信息。更能够进一步的对用户需求作出预测,以推算出用户未来的需求。

研究分析2008-2012年通过“在线+离线”方式采集的档案借阅登记信息,对分局45周年局庆时期档案的借阅情况等相关数据进行总结分析,发现在局庆前有关分局历史、沿革的机关文书档案及重大时间或照(胶)片、录像(声音)带等各种载体形式档案都会被大量地查阅。由此可以预测出下一次局庆活动开展时,这种形式的档案必然要被大量查阅,在之后的档案工作中要注重收集和管理,同时应提前整理好以备查阅,甚至提前做好编研以备使用。此外,在东海实物档案展馆的建设过程中,通过对一般访问者的需求行为数据进行数据挖掘,提前编研或整理分局发展历程、东海分局船舶飞机发展史等文字、图片材料,以供布展使用,得到较好反响。

3.4 海洋档案信息整合开发中的应用

《海洋档案管理》规定是海洋档案工作的总规定,其中第二章第九条明确提出要“积极做好档案信息的开发利用和服务工作”。挖掘海洋档案信息本质上就是为了更有效地利用,不开发不整合,档案信息就成不了“活资源”[3]。海洋档案工作要主动靠近海洋事业核心工作,不能“边缘化”。档案人员要有强烈的参与意识和效益意识,发扬“挤”和“钻”的精神,及时根据海洋工作需要开发档案信息资源,盘活馆藏,主动为海洋管理和业务提供有用的档案信息服务。

例如,将科研档案和东海分局科技管理平台关联起来,利用数据挖掘的信息整合功能,通过关联检索将成果报送与实际归档内容对比和算法分析,可以反映科研工作者在实际科研工作中的真实权重,进一步提高海洋科技管理水平,在一定程度上纯净科研学术氛围。再如,东海分局正在开展的东海档案数据库建设项目,即是海洋行业内应用大数据技术开展海洋档案管理的“先行者”。一方面,海洋档案中很大一部分是非结构化的数据,建设海洋基础数据库要进行档案的电子化、数字化处理;另一方面,以大事记和机关文书、荣誉档案等例,对非结构化档案进行了数据挖掘探索。大事记以记载大事见长, 多以编年体为主,以纪事本末体为辅,以时间为主线,以大事为主体。东海分局大事记目前编撰至2004年,在东海档案数据库建设项目中,首先,将已编撰完成的大事记文本与机关文书档案中的出处、荣誉档案目录信息条目三者进行关联,将时间、地点、人物、事件等要素进行关联,实现任意相关检索词均可查找到档案的功能,使利用者能快速地获取较为全面的、有效性高的信息集合;其次,采用分类、关联分析、聚类分析、语义检索等技术,选用常用的数据挖掘工具(如K-Miner),提高大事记的编撰效率和志书编撰能力,有助于逐步开展重大事件(专题)大事记、海洋船舶大事记、海洋名人传记等编撰工作。

4 结束语

大数据挖掘技术的发展是信息技术高度发展的必然,其在社会各行业中的探索应用也表明了大数据挖掘技术有着重要的现实意义。大数据挖掘技术在海洋檔案管理工作中的运用,能够创新海洋档案管理模式,显著提升海洋档案馆建设能力和服务水平。因此,在海洋档案管理的未来发展趋势中,应用大数据挖掘技术要朝着实用技术方向拓展,加大数据挖掘技术在海洋档案领域中的研究力度,更好的推动我国海洋档案事业的发展,推进海洋智慧档案馆建设,促进海洋档案“模块化”、“数字化”、“信息化”、“智能化”发展。

参考文献

[1]沈东芳.多种类型海洋档案的信息集成研究[J].浙江档案,2017(7):23.

[2]蔡利剑.大数据背景下的档案管理问题研究[J].西北工业大学学报(社会科学版,2016(3):105.

[3]孙杰,吴晓文.信息化手段下海洋档案信息资源的整合与共享[J].档案与建设.2016(7):22-24.

作者简介

吴晓文,女,汉族,山东,国家海洋局东海信息中心,工程师,研究生,主要从事海洋档案管理、数据挖掘方向。endprint

猜你喜欢

东海数据挖掘海洋
基于并行计算的大数据挖掘在电网中的应用
一种基于Hadoop的大数据挖掘云服务及应用
精卫鸣,歌东海
基于GPGPU的离散数据挖掘研究
东海第二次起义与解放昆嵛山