APP下载

高校人物专题档案大数据源的潜在价值与挖掘利用

2017-03-12张倩

兰台世界 2017年3期
关键词:数据源检索信息

张倩

(南京艺术学院综合档案室 南京 210013)

科学管理〈〈〈KEXUEGUANLI

高校人物专题档案大数据源的潜在价值与挖掘利用

张倩

(南京艺术学院综合档案室 南京 210013)

本文通过分析高校人物专题档案大数据的来源构成,深入考察了高校人物专题档案大数据处理的难点,揭示了高校人物专题档案大数据追踪的线索依据与处理内容,提出了便于高校人物专题档案大数据开发利用的处理流程,并对高校人物专题档案大数据智能集成模块的技术创新进行了初步探究。

人物专题档案 大数据源 潜在价值 挖掘利用

高校既是教学与科研的服务中心,更是人类知识和科学创新的主要阵地。通过在档案大数据智能处理平台上创建高校人物专题档案数据库模块,并将其作为高校档案大数据智能检索与挖掘利用的实用技术,不仅有利于发掘高校人文精神和历史内涵的珍贵价值,而且有利于为造福社会发挥重要的作用。笔者在考察中发现,承载着高校杰出人物辉煌业绩的人物专题档案,在被真实地挖掘并再现出其中精华的同时,对与人物处于同一抽象层次的其他对象,如机构、事件、地点等附载在档案上的诸多史实信息,以及如何形成这一档案的纯技术层面的许多认知,都具有非常丰富珍贵的挖掘价值。

一、高校人物专题档案大数据的来源分析

如果只有大数据技术,没有数据源,即使是“巧妇”也“难为无米之炊”[1]18。通过考察可以发现,高校人物专题档案可被采集利用的数据来源非常多,如Internet上专业的检索网站,专业机构建立的网页,甚至一些个人主页上的人物档案信息等,都是高校档案管理机构捕获人物专题档案信息资源的重要渠道。与这些数据源相比,高校馆藏主数据源具有格式规范、质量较高等特点,是人物专题档案大数据追踪研究的理想数据源。此外,随着新型数据源(RFID、互联网和社交媒体等)的不断加入,高校馆藏档案数据量将会持续快速增加[2]5。

据调研资料分析显示,目前,高校构建人物专题档案大数据库可供采集的主数据源主要有四类。一是每年接收进馆(室)的学籍档案,这些档案里面包含了全校各个学历层次的应届毕业生在校期间的个人信息记录,是富含学生这一群体信息最多的数据来源。二是每年接收进馆(室)的学生工作方面的档案,这些档案里面包含了学生的奖惩信息等,是大学生在校期间参加各类重要活动的真实记录。三是人事档案,这些档案里面包含了全校教职工的个人信息,是丰富而翔实的教职工个人信息记录。四是科研档案,这些档案里面包含了师生参与科研活动过程中产生的各类学术方面的信息记录,对探究高校人物科研情况,具有举足轻重的凭证作用。

二、高校人物专题档案大数据处理的难点分析

通过调研分析发现,高校人物专题档案大数据处理的难点,主要体现在两个方面。

一是高校馆藏中的人物专题档案格式多种多样,数据的结构也可能不断发生变化,人物信息往往隐含在复杂的数据之中,特别是随着人物专题档案数据体量的迅速扩张,从中提取的信息比例会逐渐缩减。为什么会出现数据增加却不能提升信息收益的现象?通过深入分析发现,其原因在于:“冗余数据”越来越多[3]23。如何对异构多变的人物档案信息进行数据清洗(Data Cleansing),把杂乱、充满噪声的“脏的”数据(Dirty Data)去除掉,并转变为适合人物追踪研究的规范化的数据格式,这是目前高校人物专题档案大数据库建设需要解决的一个难点[4]70。

二是在高校馆藏档案数据的文本空间,人物作为处于抽象层次的实体,比文字对象高一个层次,且其与文字对象所描述的具体名称并不形成一一对应的关系,可能存在着大量的同名同姓却并非同一人物的现象,即使是同一个人物,也会出现不同的称谓,这是导致检索高校人物专题档案信息易出现歧义的一个难点[5]227。

此外,笔者发现上述歧义问题可大致分为两类:一类是不同人物和其他非人物实体可能具有相同的名字;另一类是同一个人物可能具有不同的称谓。歧义问题的客观存在,可能造成高校人物专题档案检索的结果难以精准。对此,我们虽然可在人名后添加一些特定的属性,并通过组合查询等检索表达式来细化检索结果,但这种做法违背了建立高校人物专题档案大数据搜索引擎所追求的简单快捷原则,且用户通常不是精通检索技巧的专家,他们甚至不会愿意或者不擅长提交额外的查询词。

三、高校人物专题档案大数据追踪的线索依据与处理内容

大数据技术的基本原理告诉我们,在档案大数据文本空间内,对人物专题档案信息数据源的跟踪研究,应该按照相关的线索依据来进行,而“人物的横向追踪”和“人物的纵向追踪”是最重要的线索依据。

所谓“人物的横向追踪”,是指从空间维度研究人与人或者人与社会的联系。所谓“人物的纵向追踪”,是指从时间维度研究人物的知名度变化、人物的职位变化、人物的生活状态变化等。简言之,人物追踪就是要通过运用大数据分析技术,将各种档案中纵横交错出现的人物信息枝节片段有效地连接组合起来,并使分析结果尽可能接近人物信息的全貌,进而客观地反映该研究人物的人生历程。

此外,在高校档案大数据文本处理过程中,人物追踪在处理内容上可分为两个方面:一是制作人物的生平履历表。这是指从馆藏档案中依靠大数据技术自动提取出所需制作人物的关联属性,并将分散的各种属性信息进行有效组合,形成较为完整的履历。二是对与人物相关的事件进行组织。主要指将该人物参与的相关事件的信息内容按照内在发展逻辑顺序有效地组织起来,并形成清晰的逻辑结构以供开发利用。

值得注意的是:在整理人物事件信息内容的基础上,还应注意整理其他关联信息与其进行深度匹配,如构建人物的社会关系网络、识别人物处所、人物态度立场的变化,等等。

四、高校人物专题档案大数据的处理流程

高校人物专题档案大数据处理流程,主要有下列关键性程序。

1.对人物追踪进行大数据预处理。这一阶段,需要识别出若干人物相关的零散信息,并形成人物基本模型的片段,同时应对这些片段性的信息进行同一性判别,即把描述不同人物的模型片段区分开。值得指出的是:在人名周边的文本语句中,与该人物经常共现的其他人名,即该人物的交往人群也应是一个重要的区分特征。简言之,预处理阶段,是指为人物模型的计算做好准备,但还没有形成完整的人物模型。

2.运用数据融合技术建立完整的人物模型。人物专题档案数据在预处理阶段形成的模型片段信息是分散的、孤立的,不能代表人物全貌,更无法凸显出人物的抽象实体,这就需要把代表不同人物的模型片段区分开,并对同一人物的模型片段信息进行有机整合,以期呈现较为完整的人物信息。值得指出的是:为取得完整的人物模型信息,不仅需要参照多个异构来源的大数据信息,而且需要把多个人物模型片段的信息有机融合在一起,最终才能形成基本完整的人物信息。

3.研发人物专题档案大数据处理的相关应用技术。在进行高校人物专题档案大数据处理的过程中,实施追踪研究需要依靠专业技术手段的支撑,因此,我们不仅要科学选择供应商提供的专业数据搜索引擎,而且要高度重视研发相关的应用技术与之匹配,如提供对特定人物的跟踪、流行人物的发现等各种应用技术,以期达到方便用户直接检索利用的目的。

五、高校人物专题档案大数据智能集成模块的技术优化

可以预见,在未来的高校馆藏照片档案中,数字照片将日益增多,且人物图像档案将占很大的比重。因此,如何改变传统照片档案管理模式,特别是怎样有效降低其所需的人力、物力成本,这是高校档案管理机构提升信息化水平的迫切需要。

通过考察发现,“人脸识别”技术可为高校档案管理机构提供有效的解决方案。应用这项技术,不仅可在人物照片档案大数据管理中达到较好的可视化效果,而且能让用户一眼判断出核心问题和注意事项[6]103。

所谓“人脸识别”技术,是指基于“人脸检测”计算机识别算法的一项数字化技术。其主要功能:可用以准确获取人的脸部形状和位置信息,甚至可以精确识别人脸细节的微妙支撑特征。引入这一技术,将为高校人物专题档案大数据智能集成模块的技术优化,发挥非常重要的支撑作用。

目前,可用于人物照片档案海量馆藏非结构化数据的智能管理工具颇多,高校档案管理机构应当根据各自需要和成本投入能力进行遴选。笔者推介:借助Google的免费图片管理工具——Picasa,可快速检索到所需的人物照片。Picasa具有“人脸识别”功能,不仅可对人物照片进行研判,还能将所有包含人脸的图片自动归集并统一命名。应用这一技术的最大好处是:既能让用户随时利用其搜索栏,快速查找出所需的人物照片,又能将新入库的人物照片档案数据也遵循既定规则,自动归类到相应位置。

应用Picasa的技术优化方法:一是要建立软件自动搜索照片的“人物照片档案数据库”,并对所有包含人脸的照片档案数据进行自动分类。需要指出的是,在此过程中,为了能够方便用户进行辨认,对每一张被检索出来的照片都需用“大头贴”的形式进行显示(相同的人物图像档案数据能被自动集成)。二是要建立人物标签加工平台,让暂未标识姓名的照片人像自动存入“未命名人物”文件夹,并对其分别添加名字标记。建立人物标签后,日常查找只需将待检索的人名输入到检索框中,片刻(当输入一个字后,准备输入第二个字时,软件已能显示检索到的人物图片)Picasa即可自动展示出所有包含该人物的照片。需要指出的是,Picasa也会出现误判,因此,对检索结果需设置可便于手工识别的功能,以便用户进行修正。如:通过点击照片上的“X”标记,可将识别错误的照片删除。三是要让Picasa不断增强学习技能。随着确认人物照片数据量的日益增多,Picasa的识别能力也将日益加强。因此,高校档案管理机构要高度关注“人脸识别”技术的更新换代,积极引入成熟的智能工具与服务模式,不断完善“混搭型”的处理机制,不断创新“一站式”服务的个性化功能,着力增强高校人物专题档案大数据智能集成模块的专业能力,以期提升档案信息资源与用户需求的精准对接水平。

[1]张礼立.大数据时代的云计算敏捷红利[M].北京:清华大学出版社,2013.

[2]鲍亮,李倩.实战大数据[M].北京:清华大学出版社,2014.

[3]郎为民.漫话大数据[M].北京:人民邮电出版社,2014.

[4]郭晓科.大数据[M].北京:清华大学出版社,2013.

[5]张华平,高凯,黄河燕,等.大数据搜索与挖掘[M].北京:科学出版社,2014.

[6]咸由根,蔡承秉.掘金大数据[M].北京:北京时代华文书局,2013.

G273.5

A

2016-10-19

10.16565/j.cnki.1006-7744.2017.03.18

国家社科项目(11CTQ 030)、江苏省档案局科技项目(2016-13)。

张倩,南京艺术学院副研究馆员,研究方向为档案信息化建设。

猜你喜欢

数据源检索信息
Web 大数据系统数据源选择*
订阅信息
基于不同网络数据源的期刊评价研究
专利检索中“语义”的表现
基于真值发现的冲突数据源质量评价算法
展会信息
分布式异构数据源标准化查询设计与实现
国际标准检索
国际标准检索
健康信息