APP下载

数据挖掘技术应用于档案管理的实证研究*

2013-09-18贾玲李真李俐巨珺周晓林陆江

档案与建设 2013年11期
关键词:立方体数据挖掘概念

贾玲李真李俐巨珺周晓林陆江

(1.中国矿业大学档案馆,江苏徐州,221116;2.徐州市中医院,江苏徐州,221009;3.徐州市档案局,江苏徐州,221008)

Jia ling,Li zhen,Li li,Ju jun,Zhou xiaolin,Lu jiang

(1.Archives of China University of Mining and Technology,Xuzhou,Jiangsu,221116;2.Xuzhou Traditional Chinese inedical Hospital,Xuzhou,Jiangsu,221009;3.Xuzhou Municipal Archives Burean,Xuzhou,Jiangsu,221008)

数据挖掘技术是知识管理的一项重要技术,它可以从大量的结构化数据中揭示隐含的模式,这些模式是人们事先不知道的但又潜在有用的模式,对决策行为具有指导价值[1]。目前数据挖掘技术迅速发展并广泛应用于各领域,使其也成为档案工作无法回避的一个问题:数据挖掘技术能否应用于档案管理工作?很多学者对这个问题进行了思考和研究,研究主要集中于宏观理论探讨,提出数据挖掘技术在档案工作中也可以得到运用,它能推进档案知识管理的进程,提升档案管理整体技术水平和管理效率。但也有部分学者认为数据挖掘技术在档案管理领域的应用价值不大,对其应用的可行性和必要性存在疑虑。

本文利用概念描述和数据立方体两种方法,对Y大学档案利用登记数据进行挖掘,采用实证方法对数据挖掘技术在档案管理中的应用进行了研究,以期抛砖引玉,期望更多档案专家学者投入到这项研究中,将数据挖掘技术在档案工作中的应用推向深入。

1.利用概念描述方法进行数据挖掘

利用登记是档案管理一个十分重要的环节,它不仅是馆藏管理必不可少的工具,同时对于分析档案利用特点和利用发展趋势具有十分重要的意义。但是,档案利用登记数据库中存放的数据是大量的细节数据,这些数据只是对利用事件的具体登记(如用户姓名、单位,利用档案的时间、内容、档号、目的等),无法直接揭示档案利用的现实特点,也无法直接反映档案利用将来发展的趋势。为此,必须对档案利用登记原始数据库进行有针对性、有意义的抽象、汇总和概括,才能达到研究和发现档案利用特点和发展趋势的目的。

概念描述是数据挖掘的一种专门方法,它就是对原始细节数据的有意义的抽象,以完成对某类对象的特征性描述或者几个类之间的区别性描述。概念描述一般要经过概念分层、数据泛化、泛化结果表示等步骤。

利用概念描述方法对Y大学档案利用登记数据进行挖掘,具体步骤如下:

第一步:数据清洗与准备

本文所采用数据来自Y大学档案馆档案利用登记数据库,截取其中2004-2010年的数据。根据数据预处理的方法,结合本文所需解决的问题,要进行的挖掘相关的主要属性值均不可以为空值。在进行系统数据库分析时,若这些相关属性出现空值,根据表的属性以及挖掘的内容将空值进行填充。另外,由于Y大学档案馆档案利用登记采用人工录入方式,在进行系统数据库分析的过程中发现部分数据由于工作人员在进行数据录入时,部分数据录入错误。因此,在进行数据清洗时,对这些噪声数据进行了相应的处理。

表1 Y大学2004-2010年各类档案利用频率情况(单位:人次)

表2 Y大学2004-2010年不同档案利用形式被选用情况(单位:人次)

第二步:概念分层

数据库中原始的细节数据通常属于较低层的概念,如果直接对这些细节数据进行挖掘,可能得到许多难以理解的规则。利用较高层概念替换低层次概念可以减少数据集的数据量,而且,在较高层次上的挖掘,将产生更为广泛的、具有指导意义的规则和知识。

笔者在对Y大学档案馆档案利用登记数据库进行挖掘时,通过仔细考察档案利用登记数据库的原始数据,将与档案利用相关的概念分为了三个层次:第一层为档案类别,可分为文书档案、会计档案、荣誉档案、照片档案、学籍档案、学位档案等;第二层为年度;第三层为利用方式,可分为查阅、抄写、出具证明、打印、复印、扫描或数码拍摄、外借、委托等。

第三步:概念泛化与结果表示

在运用概念描述的方法进行数据挖掘时,经过概念分层后,将相关数据集从较低的概念层抽象到较高的概念层,这个处理过程称为数据泛化。

笔者采用了SQL数据挖掘查询语言对Y大学档案馆档案登记利用数据库进行数据挖掘查询,得到了2004-2010年各类档案利用频率的数据,及不同档案利用形式被用户选用的数据(见表1、表2)。

分析表1,可以得出不同类型档案利用频率的变化情况:(1)学籍档案、会计档案利用人次逐年上升,特别是学籍档案利用人次增加较快。(2)荣誉档案、学位档案利用人次逐年下降。(3) 文书档案利用人次在2008、2009年显著增加,这与Y大学这两年开展的大型编史修志工作有关。除去这两年的数据,其他各年度文书档案利用人次基本持平,如果与文书档案归档量逐年上升相比,实际上,文书档案的利用频率有缓慢下降趋势。

分析表2,可以得出不同的档案利用形式被用户所选用的变化趋势:(1)通过抄写、打印、外借、委托等方式来利用档案的用户数量逐年下降,反映出传统档案利用方式逐渐被新的利用方式所取代。(2)通过出具证明、扫描或数码拍摄的方式来利用档案的用户数量逐年上升,特别是出具证明的,增幅较大。(3)通过查阅和复印方式利用档案的用户数量在2008、2009年有较大增长,其原因也在于Y大学于这两年中所做的编史修志工作。除去这两年的数据,历年查阅和复印档案的用户数量有小幅下降趋势。

2.利用数据立方体方法进行数据挖掘

利用概念描述方法进行数据挖掘的结果,只能大致看出不同类型档案的利用频率,或不同利用形式的总体变化情况,不能对每一类档案的每一种利用形式的变化情况作出具体分析,即无法得出针对某一类型档案,哪种利用形式逐年减少,哪种利用形式日益增多,也就无法据此做出有针对性的应对策略。

图1 3维数据立方体

为了更深入地分析高校档案利用的发展趋势,发现用户对不同类档案的使用规律,笔者对Y大学档案利用登记数据库进行了更深入地挖掘,构造了高校档案利用数据立方体,该立方体为3维数据立方体,3个维度分别为:时间维、档案类别维、利用形式维(见图1)。

进一步采用SQL数据挖掘查询语言对Y大学档案馆档案登记利用数据库进行数据挖掘查询,得出数据立方体的各项度量值,即2004-2010年不同类别档案、不同利用形式的利用人次数据。Y大学档案利用数据立方体可转化为2维表(见表3)。

仔细分析表3,结合Y大学及其档案馆的具体情况,可分析得出各类档案不同利用形式的变化走向及其深刻原因:(1)表3中所列6种档案,文书档案、学籍档案、学位档案的利用量较大,它们在利用形式的变化上几乎呈现了相同的趋势:查阅、抄写、复印、外借的用户日益减少,出具证明的大幅增加,尤其是利用学籍档案出具证明的,增幅较大。(2)文书档案利用形式的变化主要反映在两点:一是通过查阅、复印、外借等形式利用文书档案的利用量呈下降趋势,其原因主要在于国家、国家整个教育系统及Y大学自身办公自动化的普及和功能的日益完善,相当部分文件在发行或公布时就是电子文件,另有部分以纸质文件下发的都已进行了数字化,并以电子版在高校内部进行传递。由于文件电子资源的日益丰富,部分需要利用文书档案信息的用户,直接通过网上电子文件资源满足了利用需求,这就相对造成了文书档案利用量的下降。二是出具证明的利用量日益增加,这显示出文书档案的作用日益多元化,通过出具证明的方式,可为单位、个人解决工作、生活中多方面的问题提供有力支持。(3)学籍档案利用形式的变化,最显著的一点就是出具证明的大幅增加,其原因主要在于Y大学出国留学的学生越来越多,他们均需从档案馆出具中英文成绩证明及学历学位证明。这一变化趋势反映了目前中国越来越多的学生选择海外教育,也从一定程度上反映出Y大学外语教学、国际化教学工作日益达到较好的水平,学生的国际视野开阔了、综合能力提高了,他们可以选择海外教育继续深造。(4)会计档案的利用形式以查阅和复印为主,利用量整体较小,但呈逐年上升趋势。(5)荣誉档案的利用多集中在科研项目申报、个人报奖或评定职称等方面,以前多利用复印形式,现在主要利用扫描或数码相机拍摄手段,获得荣誉档案原件的电子版。(6)照片档案的利用量也较小,其利用形式主要是扫描或数码拍摄,有少量外借的。

根据这些不同类型档案利用趋势的分析和预测,Y大学档案管理部门可以针对性地制定应对策略,包括调整基础工作方向,明确工作重点,采用新的工作技术和手段等。

3.结论

3.1 数据挖掘技术可应用于档案管理工作

表3 Y大学2004-2010年各类档案不同利用形式的利用人次情况(单位:人次)

本文应用概念描述和数据立方体两种方法,对档案利用登记数据库进行了数据挖掘,并根据数据挖掘结果进行了档案利用趋势的分析和预测,可见,数据挖掘技术具备应用于档案管理工作的可行性。数据挖掘的方法很多,概念描述和数据立方体是两种较为基础的数据挖掘方法,此外还有分类、回归分析、聚类、关联规则、变化和偏差分析等多种方法。笔者在研究初期准备对档案用户信息和被利用档案信息以聚类和分类方法进行挖掘,但在选择具体挖掘方法时却受到了数据库资源的限制——笔者所掌握的Y大学档案利用登记数据库是由人工录入登记的,其中有许多不尽如人意的地方,如用户信息和被利用档案信息十分有限且缺项较多等,无法支持聚类和分类挖掘。

对于实行馆藏档案条形码管理,且通过自动扫描档案条形码、自动识读用户身份证或工作卡的方式完成档案利用登记的档案管理部门,则可获取档案用户和被利用档案的全面信息。基于信息全面的档案利用登记数据库,完全可以顺利进行聚类和分类的数据挖掘研究,其研究成果也将对实际工作具有更好的指导意义。如,通过聚类分析可以得出不同档案的利用频率,对于利用频率高的档案可以进行全文数字化,既可提高利用效率,也可起到保护档案原件的作用,同时还可指导归档工作加强对这种类型档案的收集;通过对不同时期档案利用关键词的分类,甚至可以分析出某些部门重点工作的走向和变化;通过用户信息挖掘,可发现哪些用户经常来档案部门利用档案,对于这些用户可根据其以往利用档案的记录,实行推送服务、定题服务等主动服务方式,拓展档案服务空间。

3.2 数据挖掘技术能推进档案工作决策科学化

数据挖掘是一种决策支持过程,它能高度自动化地分析数据,做出归纳性的推理,从中挖掘出潜在的模式,帮助决策者调整策略,减少风险,做出正确的决策。随着信息社会档案信息量呈“几何级”的急剧增长及档案事务的不断拓展,档案决策也日益复杂起来。在这种情况下,档案工作应探索借助数据挖掘技术推进决策科学化。如依据本文利用概念描述和数据立方体方法对Y大学档案利用数据库进行挖掘而得出的结果,即可帮助Y大学在制定档案工作发展策略时,采取更加有针对性的措施。如:①实施档案数字化工程。挖掘发现用户对电子文件的利用需求日益增加,根据这种情况,在进行各类档案归档时应强化电子版的收集,同时根据档案馆人力、物力及财力状况,适时对馆藏档案逐步开展数字化工作,即“新增档案电子化,存量档案数字化”。②加快档案资源共建共享,推进档案管理软件升级。挖掘发现档案利用形式呈现多元变化趋势,据此应对档案管理软件进行功能升级,或重新开发功能更为强大的软件以满足突出利用需求。如,利用学籍档案出具证明的需求量大幅增加,应重新开发功能强大的成绩翻译软件,这将是高效快捷地提供成绩证明服务的有效保证。③加强与其他单位的协作。挖掘发现在当前的社会人文环境和信息技术条件下,档案部门与社会各界联系日益紧密,档案事务日益复杂,因此高校档案部门不能再固步自封,仅局限于馆内的具体业务工作,必须加强与校内外有关单位的协作,以使高校档案工作获得更好更快的发展。如加强与学校综合办公部门的合作,使档案工作成为学校办公自动化的一部分,实现档案管理系统与学校办文系统的无缝连接;加强与有关职能部门协作,使档案管理系统与有关教学管理、科研管理等业务管理系统的连接,实现档案利用能合理调用有关业务系统中的数据。

3.3 未雨绸缪,努力创造条件应用数据挖掘技术

数据挖掘技术以其在各社会领域广泛而深入的应用,突出表现了该项技术的巨大优越性及其提升工作水平和工作效率的显著作用。虽然目前多数档案管理单位业务相对简单,暂时看来,采用数据挖掘技术的必要性不突出,但是我们应该主动把握时代发展的脉搏,主动创造条件应用先进技术。只要越来越多的专家学者投入这方面的研究,数据挖掘等信息技术必将为提高档案管理水平发挥重要作用,而大量应用信息技术的档案管理工作也将在现代社会发展中充当更重要的角色。

*本文系江苏省档案科技项目“现代档案管理创新模式——档案知识管理研究”(项目编号2010-L09)阶段性成果之一。

[1]苏新宁.数据仓库和数据挖掘[M].清华大学出版社,2006:140.

猜你喜欢

立方体数据挖掘概念
Birdie Cup Coffee丰盛里概念店
探讨人工智能与数据挖掘发展趋势
幾樣概念店
学习集合概念『四步走』
内克尔立方体里的瓢虫
聚焦集合的概念及应用
图形前线
基于并行计算的大数据挖掘在电网中的应用
立方体星交会对接和空间飞行演示
折纸