档案数据挖掘的应用实例分析★

2021-08-05鄢明芳郑川

山西档案 2021年3期

鄢明芳郑川

(1.湖南省语言文字培训测试中心长沙 410016；2.中南大学档案技术研究所长沙 410083)

1 引言

信息技术的进步推动社会进入大数据时代，数据的价值逐渐开始被各行各业重视。从海量的数据中发现以往未知的有价值信息，以实现丰富的技术应用，辅助科学的管理决策，成为数据挖掘的重要目的[1]。档案是各行各业直接形成的对国家和社会有保存价值的第一手资料，具有极其重要的信息价值，但囿于档案数字化、数据化和电子档案归档的发展进程，以及过去档案由不同地域、不同级别的档案馆分别保存，档案数据的孤岛效应明显。随着档案信息化建设的提速，档案数据挖掘技术有望发掘档案数据的隐藏信息价值，提升档案管理与服务水平，为国家和社会提供更多更好的档案信息服务。

我国档案学界与业界对档案数据挖掘进行了许多研究。理论研究方面，黄小忠和史江探[2]讨了数据挖掘技术在数字档案知识管理中的应用和应该重点关注的问题。蒋红健[3]研究了高校档案馆开展档案数据挖掘在管理层面和技术层面的流程和策略。陶水龙[4][5]分析了档案数据的富矿价值、档案数据区别于大数据的特点，以及大数据环境下档案信息化建设中存在的机遇与挑战，并深入分析了语义网技术在档案数据挖掘中的作用，在档案管理系统建设中引入语义网可能存在的问题。张伟[6]研究了档案数据挖掘在前期规划、资源收集、数据预处理和数据分析模型等问题。王兰成和刘晓亮[7][8]分析了网络档案数据挖掘的技术特点和发展趋势，针对档案数据挖掘过程涉及的档案敏感信息，提出了敏感元祖及其密度的相关保护方案。张燕超[9]论述了设计档案数据挖掘模型应遵守的原则与基本框架，并以江苏省昆山市民生档案智慧分析挖掘应用平台项目作为案例进行了分析。实证研究方面，郑向阳[10]结合两个具体案例分析了数据挖掘技术在城建档案中的应用方法和应用价值。陈玉亮和张代华[11]以江苏科技大学的国家级科研项目数据为例叙述了科研档案数据挖掘技术辅助学校科研分析和决策的经验。黄华坤[12]介绍了国土资源知识服务需求背景下用AutonomyIdol开发国土资源档案知识挖掘与应用平台的经验。覃艳[13]、刘焕[14]、荣晨[15]、李宇斐[16]、杜宝琛[17]、牛玉婷[18]等人介绍了医疗档案、电子病历在数据挖掘技术加持下用于开展知识发现与智能医疗服务的过程。杨茜雅[19]介绍了中国联通建设“两库两平台”企业档案利用系统，通过档案知识图谱实现电子档案智能化管理、辅助企业决策的案例。张泰齐[20]以沈阳某企业为例介绍了基于数据挖掘的企业档案管理信息系统的设计与实现。

从文献梳理可知，与商业、金融、电信等其他容易产生大数据的行业相比，档案行业的数据挖掘技术研究和应用相对还很少，其中医疗档案数据挖掘的相关研究占比稍高，数据挖掘技术在其他类别的档案与其他行业的应用场景下还有很大的发展空间。“精准扶贫”是我党的战略思想，高等学校是实施教育精准扶贫的重要阵地，做好高校贫困生资助工作，对破除贫困代际传递、落实我国扶贫战略具有重要意义[21]。国家助学金作为高校覆盖范围最广的资助手段，目前还难以做到完全精准地分配给相应的家庭经济困难学生，将档案数据挖掘技术应用于高校助学金评定的辅助分析与决策，将有助于我国教育精准扶贫工作的开展。

2 档案数据挖掘相关知识

2.1 数据挖掘与档案数据挖掘

数据挖掘是从大量的、随机的、不完全的、有噪声的、模糊的实际应用数据中，提取隐含在其中的人们过往不知道但又潜在有用的信息和知识的过程[22]。数据挖掘过程涉及数据库技术、统计学、人工智能、可视化技术等多种技术的综合运用，其任务分为预测和描述两大类。预测性任务是从历史数据中发现隐藏的知识和关系来预测未知数据的特性，描述性任务是不人为指定研究对象，通过模型算法寻找事物间的本质联系[23]。

档案数据挖掘是以档案数据为特定对象，是数据挖掘技术在档案领域的应用。档案数据的构成一般包括档案目录数据、档案元数据和档案原文数据，其中目录数据与元数据以结构化数据为主，档案原文主要是文本数据。而档案原文是数字档案信息的主要组成部分，故文本挖掘技术在档案数据挖掘中占有极重要的地位。根据数据对象、挖掘算法和应用目的的不同，档案数据挖掘主要有聚类分析、分类预测、关联分析、回归分析、序列标注、信息检索、文本处理等类型[24]。聚类任务的目标是将给定的档案数据集合划分成许多子集或簇，使得同一个簇内的样本在属性特征上尽可能相似，不同簇的样本尽可能不同，其核心作用是对档案数据进行降维处理。分类预测是基于已知属性对档案数据所属的类别进行判断，预测的类别通常是主观指向性的，其目的是简化用户对档案数据对象的认知与理解判断。序列标注主要是档案原文文档数据在时间或空间维度上有前后依赖关系的特殊分类问题。信息检索是从大规模非结构化档案数据的集合中找出满足用户信息需求资料的过程，其重点是提供基于档案内容和档案知识的检索服务。关联分析是发掘存在于大量档案数据集中的相关性或关联性，从而描述档案信息中某些属性之间的隐藏规律和模式。回归分析是研究档案数据中某些因变量和自变量之间的因果关系。

2.2 档案数据挖掘的基本流程

不同类别的档案数据挖掘问题采用的算法不尽相同，在数据预处理、训练测试方法、参数设置、模型评价等具体实施步骤上都有自身的特点和区别，但在主要问题处理流程上都有相通之处。档案数据挖掘的基本流程可分为问题定义、档案数据准备、档案数据挖掘和解释评估四个阶段。

问题定义阶段的主要任务是梳理档案数据的基础数据状况，这是档案数据挖掘的活水之源，基于已有的数据基础条件分析在档案业务上可以实现的具体需求；或是从档案业务需求出发定义问题目标，分析实现该目标需要准备怎样的档案数据条件。问题定义是后续档案数据挖掘的基础。

档案数据准备阶段通常会在档案数据挖掘工作中占据很大的工作量，是非常重要的阶段，它将决定档案数据挖掘项目是否成功。数据准备阶段需要研究者建立档案领域的基础知识和业务知识，特别是项目预期目标、所期待的结果以及拟解决的业务问题，它将对之后的数据处理起到方向指引作用。对于档案文本数据，需通过文本建模将其转化为数值型数据、空间向量等结构化数据。数据准备阶段包括档案数据集成、档案数据选择、档案数据预处理和档案数据转换等步骤，最终得到能表征原有档案特性、具有规范统一格式、适合进行后续处理的有效数据。

档案数据挖掘阶段是选择和运用合适的数据挖掘算法形成模型的过程。首先确定要发现的档案知识含义和类型，其次根据具体要求选用不同的知识发现算法、参数和配置，构建数据挖掘模型，经算法计算以一定的方式进行知识表示后再对挖掘过程中发现的知识或模式进行解释和评估，剔除其中冗余和无关的内容，若结果不能满足目标要求，则需返回前面的某些步骤反复计算提取。

解释评估阶段对档案数据挖掘模型及结果进行评价，确认模型和结果的功能性和可信度，并将所发现的知识和模式以可视化等用户易理解的方式呈现出来。对档案数据挖掘结果的检验可以使用原始未知样本数据检验，也可以用另一批能反映客观实际规律的数据进行检验，如不能达到预期要求，应分析问题理解是否偏差、档案数据样本是否缺乏代表性、建模算法是否有效、模型是否有效等。

3 基于档案数据挖掘的高校助学金评定分析

3.1 档案数据挖掘辅助助学金评定的问题定义

3.1.1 助学金评定的工作背景

目前高校助学金还难以做到完全精准地分配给相应的家庭经济困难学生，助学金的评定主要存在三类偏差：（1）隐性贫困生，学生家庭经济困难，但未被纳入助学金发放范围；（2）伪贫困生，学生并非家庭经济困难，但被纳入了助学金发放范围；（3）评定等级错配，学生家庭经济困难，但未被纳入与之等级对应的助学金发放范围。助学金评定偏差让本就稀缺的资助资源更为紧张，国内外学者和从业人员对如何准确评定助学金展开了很多研究，其中家庭经济收入情况评估是关键标准。

美国、德国、英国、日本等经济发达国家税收体系相对健全发达，主要通过经认可的应税收入按有关推断算法计算学生的家庭收入[25]；菲律宾、尼日利亚、秘鲁等欠发达国家主要依靠包含收入证明、财产证明、家庭人口、父母职业等系列指标来评估学生的家庭收入情况[26][27]。我国高校助学金评定常与贫困生认定结合，主要依据有家庭经济因素、特殊群体因素、地区经济社会发展水平因素、突发状况因素、学生消费因素和其他影响家庭经济状况的有关因素[28]。相关信息的准确齐全是正确评定的关键，也是实际工作中的难点，由此发展出了三级政府证明法、相关困难证件法、居民最低生活保障线比照法、班委会评选法、消费水平界定法等十余种评定方法[29]。

本文以湖南某高校的助学金发放工作为样本，运用档案数据挖掘技术综合解析学校教学档案、财会档案和行政档案，分析学生的在校消费水平与助学金评定等级的联系，辅助定位助学金发放中的隐性贫困生、伪贫困生和评定等级错配，并从定量分析的角度剖析助学金评定偏差的来源，为今后高校助学金的发放和精准扶贫工作提供辅助和指导。

3.1.2 档案数据挖掘辅助助学金评定的需求分析

高校国家助学金分为一等（家庭经济特殊困难）、二等（家庭经济困难）和三等（家庭经济一般困难），一等助学金资助金额最高，后两级金额递减。高校助学金发放采取“个人申请—学校认定—资助发放”的模式。学校统筹将国家助学金名额分配至各二级学院，由各学院学生资助工作分管领导、班主任、辅导员等相关人员组成国家助学金评定小组具体落实本院助学金评定推荐工作。学院在不突破本院总额度和各资助等级比例约束的前提下为本院学生分配助学金名额。

校园一卡通是在校大学生食堂就餐、超市购物、校车乘车、浴室、洗衣、机房、小额自助缴费等消费的载体，还具备图书借阅、校医院就诊、门禁识别、身份认证等功能。系统包含了学生大量真实的生活及消费数据，尽管只是学生的校内消费情况，但这部分消费流水基本囊括了大学生在校的生活和学习消费，也是他们消费的主要方面，可以在很大程度上客观地反映学生的日常消费水平，进而反映其家庭经济水平。通过唯一的学号将三大类档案数据串联起来，揭示学生消费水平与助学金发放结果之间的联系。就助学金评定的出发点而言，学生消费水平与其获得助学金额度为负相关，在大样本统计分析的情况下，离群点可作为隐性贫困生、伪贫困生和评定等级错配的嫌疑点，进行重点调查。

3.2 档案数据挖掘辅助助学金评定的数据准备

档案数据来自该校的教学档案、财会档案和行政档案。教学档案中的招生、学籍管理等分类包含了学生的姓名、学号、学院、专业、学籍状态等个人基础信息。财会档案中的账簿、其他会计资料等分类包含了学生校园卡的消费明细账、消费网点刷卡对账单、分户账等财务数据。行政档案中有国家助学金评定、发放的有关文件、评定记录和发放名册等信息。不同类别档案数据的归档要求、字段组成、数据格式、数据类型等属性均有差别，进行数据挖掘前需对其进行预处理，主要包括数据采集、数据清洗、数据集成等流程。

为了不影响原档案数据并实现快速运算处理，通过Web Service接口从该校数字档案管理系统采集2016-2017学年相关档案数据，在SQL SERVER 2012中建立对应的数据表存储，再用MATLAB 2015a 通过ODBC连接SQL SERVER进行数据处理。在全体校园卡刷卡消费数据中剔除与国家助学金无关的教职工、研究生、留学生、预科生、校友卡和临时卡的刷卡记录。剩余的本科生中，大四学生就业面试和实习会导致消费行为变化，大一新生适应高校生活期间消费行为可能不稳定，也予以排除，另外去除休学、退学、开除等特殊学生的数据，得到有效学生样本8277人。以样本学生的学号为索引从教学档案中获取其个人基本信息数据，再从行政档案中获取国家助学金发放名册，统计时段内所有样本学生中获一等助学金者225人，二等助学金443人，三等助学金1513人，共计2181人。将学生学号作为主键，集成教学、财会和行政三类档案数据。舍弃消费记录中的节假日和寒暑假期间数据，保证所用学生样本的校内消费行为具备一致性。删除学生姓名、身份证号、设备号、流水号等隐私字段和无关字段，对存在字段缺省的记录进行补齐处理，并清除噪点、统一数据格式、检查数据一致性，方便后续统计分析。

3.3 档案数据挖掘辅助助学金评定的运算

大学生校园卡消费主要由经常且必须的食堂就餐消费和超市购物、校车乘车、自助洗衣、机房等其他差异性消费组成。考虑到存在校外就餐等情况会导致不同学生的食堂就餐次数不尽相同，使用食堂餐均消费值相对食堂餐饮消费总值更能准确地表征学生在餐饮方面的消费水平。其他消费的发生时间和次数存在较强随机性和个体差异，用统计期内的日均消费值计算，可滤除偶然性事件的大幅波动，反映学生长期稳定的消费水平。设样本中任意一位学生的校园卡日均消费

其中AveBre(i)、AveLun(i)、AveDin(i)分别为该生早餐、中餐、晚餐的餐均消费值，AveElse(i)为其他日均消费值，AveCon(i)计算过程如下：

（1）将该生的所有校园卡消费记录按食堂消费和其他消费聚类，再对聚类后的食堂消费按三个时间段进行离散化处理，06:00-10:00为早餐，11:00-13:00为中餐，16:00-19:00和21:00-22:00为晚餐。

（2）遍历所有统计日，当日早餐时间段内有消费记录的记为一次就餐，AveBre(i)=总早餐消费金额/总早餐就餐次数。同理计算AveLun(i)和AveDin(i)。

（3）统计聚类后的其他消费，AveElse(i)=（总超市消费+总校内公交消费+总浴室消费+总洗衣房消费+总其他小额消费）/统计期间总日数。

计算得到所有样本学生的校园卡日均消费{AveCon(1),AveCon(2),……,AveCon(i)}后，通过线性函数转换进行无量纲化处理

得到所有样本学生的校内消费水平指数{Con(1)，Con(2)，……，Con(i)}，Con取值范围为[0,1]，数值越大代表该学生校内消费水平越高。对Con以0.01为间隔离统计频率得出所有样本学生的消费水平分布，经K-S检验符合=0.4499，=0.1601的正态分布，显著性水平为0.050。

以样本学生的校内消费水平为依据推测理论上各级国家助学金的发放集合，再与行政档案数据中的实际助学金发放集合进行对比，筛选异常偏离点作为隐性贫困生、伪贫困生和评定等级错配三类评定偏差的嫌疑点。筛选所得的偏差越少，代表助学金的实际发放越精准。从流程上看，学校助学金发放精准度一方面取决于学校给各学院分配的助学金名额是否合理，另一方面取决于各学院对所获助学金名额的评定是否准确。分别以全校为对象和以各学院为对象筛选三类助学金评定偏差，并对比两种筛选对象下偏差的大小，推断评定偏差来源于在哪个环节，当学院评定偏差不为零时：各学院偏差直接代表学院助学金评定环节的偏差情况；若全校偏差等于各学院偏差，则学校的助学金名额分配基本合理，总偏差来自学院的助学金评定环节；若全校偏差大于各学院偏差，则学校的助学金名额分配也存在偏差。

3.4 档案数据挖掘辅助助学金评定的结果分析

3.4.1 助学金评定的三类偏差

根据该校助学金发放名册，统计期内国家一、二、三等助学金实际发放比例分别为2.72%、5.35%和18.28%，对所有样本学生按Con升序排列，以学生校内消费水平高低作为各级国家助学金的理论评定依据，Con值处于前2.72%的学生理论上获得一等助学金，其发放集合为Con∈[0,0.1478)。同理得到二等助学金发放集合为Con∈[0.1478,0.2228)，三等助学金发放集合为Con∈[0.2228,0.3451)，无助学金发放集合为Con∈[0.3451,1]。在所有样本学生Con列表中标记其实际获得的助学金等级，得到一、二、三等助学金实际发放集合，这些集合为非连续区间。以0.01为间隔统计频率，绘制所有样本学生校内消费水平分布图，并分别叠加国家一、二、三等助学金理论发放集合和实际发放集合中学生的校内消费水平分布，如图1所示。

图1 助学金理论发放与实际发放的学生消费水平分布图

图中绿、蓝、粉三色柱状体分别为一、二、三等助学金理论发放集合及其消费水平分布，灰色柱状体为理论未获助学金集合及其消费分布；黑、红、紫三色曲线分别为一、二、三等助学金实际发放集合及其消费分布，黄色曲线为实际未获助学金集合及其消费分布。分别统计图1中理论发放和实际发放情况下一、二、三等助学金和无助学金学生的消费水平均值和分布区间宽度，结果如表1所示。

表1 理论发放和实际发放消费数据统计表

数据表明，该校助学金的实际发放总体上与学生消费水平呈负相关，一、二、三等助学金和无助学金学生的消费水平均值逐级增大，与理论发放情况的趋势一致，但各级助学金的消费水平分布有交叉，有的甚至与均值偏离很大，这些异常偏离点中可能存在隐性贫困生、伪贫困生和评定等级错配。对比每个学生分别在理论发放与实际发放情况下获助学金的等级，建立评定偏差筛选规则如表2所示。

表2 助学金评定偏差筛选规则表

对任一样本学生而言，理论等级与实际等级相同视为吻合；理论等级与实际等级相差一级，可能存在评定偏差，也可能是使用学生消费水平指数Con本身存在的系统性误差；理论等级与实际等级相差两级，存在评定偏差的可能性较强；理论等级与实际等级相差三级，则存在评定偏差的可能性极大。其中理论上应获助学金但实际上无助学金的，考察隐性贫困生的可能；理论上无助学金但实际上获得助学金的，考察伪贫困生的可能；理论上和实际上都获助学金，只是二者等级不同，考察评定等级错配的可能。按此规则在全校样本学生中筛选出助学金评定偏差共743人，其中隐性贫困生167人，伪贫困生161人，评定等级错配415人。

3.4.2 助学金评定偏差来源分析

（1）二级学院助学金评定偏差

以二级学院为对象，分别考察各学院助学金评定的三类偏差情况。

将全校样本学生的消费水平指数Con按学院聚类后得到各二级学院的学生消费水平分布。对任一学院，将该院学生以Con升序排列，按该院各级助学金实际发放比例划定该院的各级助学金理论发放集合，再在学生Con列表中标记其实际获得的助学金等级，得到各级助学金实际发放集合。绘制该院学生校内消费水平分布图，并分别叠加上述一、二、三等助学金理论发放集合和实际发放集合中学生的校内消费水平分布。通过表2的助学金评定偏差筛选规则筛选各学院的助学金评定偏差并统计。其中助学金实际等级与理论等级相差大于两级的学生，作为评定偏差进行标记：理论上应获一、二等助学金实际上未获助学金的学生，标记为隐性贫困生；理论上可获三等助学金和不能获得助学金，实际上却获得一等助学金的学生，标记为伪贫困生；理论上应获助学金等级与实际获得的助学金等级相差两级的学生，标记为评定等级错配。

整理以各学院为对象和以全校为对象，分别筛选出来的隐性贫困生、伪贫困生和评定等级错配的学生名单，综合统计数量如表3所示。

表3 分学院筛选和全校筛选的助学金评定偏差统计

统计结果显示，相同筛选算法下，相比在全校范围共同筛选，各学院分别单独筛选得到的三类助学金评定偏差数量减少了近一半，除“强伪贫”和“强隐贫”两者筛选结果一致以外，其余偏差类型的比例都明显降低。这表明各学院的助学金评定本身存在一定的偏差，同时学校的助学金评定偏差大于各学院的助学金评定偏差，二者的差值来源于学校给各学院分配助学金名额的过程。用筛选出的偏差人数估算，三类助学金评定偏差中，47.78%来源于学校的助学金名额分配环节，52.22%来源于学院内部的评定环节。

（2）学校助学金名额分配偏差

评价学校给各学院分配的助学金名额合理与否，实质上是判断学院学生的家庭经济水平情况与该院所获各级助学金名额之间的匹配关系。在全校助学金理论发放和实际发放两种情况下，分别计算各学院各级助学金获得者的人数比例及其消费水平均值，考察它们的相关性，若实际值与理论值接近，则助学金额度分配合理。将各学院学生消费水平指数Con按全校各级助学金理论发放和实际发放聚类，分别在理论情况和实际情况下计算各学院获一、二、三等助学金人数占该院总人数的比例和该院一、二、三等助学金获得者的消费水平均值，绘制各学院助学金比例与学生消费水平关系散点图，如图2所示。

图2 各学院助学金比例与学生消费水平关系图

图中横坐标为学院某级助学金名额占该院总人数的比例，纵坐标为该院该级助学金获得者的消费水平均值。每个学院的数据在图中用六个点标记，红、黄、绿三色圆点分别为一、二、三等助学金理论发放数据，紫、蓝、橙三色方点分别为一、二、三等助学金实际发放数据，六条黑色直线为使用线性函数对六类散点拟合所得的趋势线。对图2中的数据进一步计算各学院获各级助学金人数比例与其消费均值的分布区间，以及两者的Pearson相关系数，结果如表4所示。

表4 各学院助学金发放数据分析结果

总体上看，各学院助学金发放比例与助学金获得者的消费均值在理论情况下具有较强的负相关性：获得助学金比例越高的学院，其学生消费水平均值越低，反之亦然。但在实际助学金发放时这种负相关较弱。具体来看，各学院各级助学金的实际发放比例比较接近全校平均值，学校在向各学院分配助学金名额时倾向于按学院的学生人口基数等比例分配；而理论发放情况下，各学院各级助学金的发放比例差别较大，特别是一、二等助学金比例的极大值、极小值与全校均值偏离50%左右。

全校所有样本学生消费水平均值为0.4499，将样本学生的消费水平指数Con按学院聚类后计算各院学生消费水平均值，所得结果在区间[0.3972,0.5012]内散布，说明学院之间的整体贫富程度存在差异。助学金理论发放与实际发放的比例差别，导致了各学院助学金获得者的消费水平均值差异：理论上各学院各级助学金获得者的消费水平均值更接近对应的全校均值；而实际上各学院各级助学金获得者的消费水平均值与对应的全校均值差异较大，相对富裕学院助学金获得者消费水平均值高于相对贫困学院。这种比例差别导致整体相对富裕学院的助学金评定门槛比整体相对贫困学院更低：如图2中，消费水平均值0.15附近的学生群体在相对富裕的学院可获一等助学金，而在相对贫困的学院只能获得二等助学金（紫色方点与蓝色方点在纵轴上的重合范围）；消费水平均值0.23附近的学生群体在相对富裕的学院可获二等助学金，而在相对贫困的学院只能获得三等助学金（蓝色方点与橙色方点在纵轴上的重合范围）。

由此可知，学院之间的助学金实际名额比例失衡，形成了助学金评定的规则性错配，这种错配偏差与各学院内部的助学金评定环节无关。

3.5 档案数据挖掘辅助助学金评定的验证评价

导出表3中以各学院为对象和以全校为对象，分别筛选出来的助学金等级实际值与理论值相差大于两级的隐性贫困生、伪贫困生和评定等级错配的学生清单，作为助学金评定偏差嫌疑点返回给学校学生资助管理中心进一步跟踪排查。工作人员采取评定资料审查、与学生谈话、生源地电话问询、班级问卷调查等方式重新评估被排查对象的国家助学金等级。剔除1人因休学无法重新评估，人工排查结果如表5所示。

表5 助学金评定三类偏差人工排查结果

由表5知，从全校层面看存在三类助学金评定偏差嫌疑共76例，其中各学院助学金评定环节占42例，学校向各学院分配助学金名额环节占34例。即总评定偏差中，来源于学校名额分配环节和学院组织评定环节的偏差分别占44.7%和55.3%。通过改进学校助学金名额分配方案，有望消除此环节带来的评定偏差。档案数据挖掘算法筛选出的隐性贫困生、伪贫困生和评定等级错配的准确率分别为60.9%，61.1%和53.1%，对学校助学金的评定和偏差嫌疑排查具有积极意义。

4 高校档案数据建设的建议

档案数据挖掘辅助高校助学金评定的案例将学校以往孤立的教学档案数据、财会档案数据和行政档案数据关联起来，通过数据挖掘技术中的异常检测方法，发现了档案数据中有价值的隐藏信息，为学校教育精准扶贫的判断和决策提供助力和依据。档案数据挖掘的实践也为高校档案数据收集、档案数据建设和档案数据应用积累了一定的经验。

4.1 做好档案数据化建设规划

社会的数字化给档案行业带来了很大的挑战，也带来了许多新的机遇。2016年发布的《全国档案事业发展“十三五”规划纲要》提出要运用大数据、人工智能等技术，提高档案馆信息化程度，提高档案信息资源深度开发与服务水平[30]。《国家中长期教育改革和发展规划纲要（2010-2020年）》指出“信息技术对教育发展具有革命性影响，必须予以高度重视”[31]。高校档案馆作为高等教育档案的主要管理机构，应该提前做好档案数据化建设规划，结合学校信息化建设目标与社会信息化发展趋势制定既具有前瞻性又切合实际的档案数据建设规划。

4.2 扩大档案数据的收集范围

数据的价值会随数据的数量增长在某个临界点产生质的飞跃，大数据便是典型代表。传统档案工作由于实体档案收集成本、管理成本等因素的限制，归档范围通常只包含一些比较重要的文件范围。而数字时代保管数据的空间成本和财务成本大大降低，电子档案归档的边际成本极低，归档系统建设完成后增加收集的数据范围增加的系统开销微乎其微。扩大档案数据的收集范围，在进行真实性、完整性、可用性和安全性检测的基础上对电子文件和数据应收尽收、应归尽归，对提升档案数据资源库的价值具有重要作用。未达到档案规格的有关业务数据，以资料的形式收集保管也未尝不可。

4.3 提高档案数据的采集质量

规范的档案数据是进行数据挖掘的基础，从数据采集阶段严格把控档案数据质量，既有利于日常档案管理利用，在进行档案数据挖掘时也能大大减轻数据预处理的工作量。提高档案数据采集质量，一方面要建立健全各类档案数据归档的标准、制度和流程，让数据质量评价有据可依，另一方面要从档案数字化向档案数据化跨越。如，实践中发现数字化加工OCR识别的档案原文与原生电子文档相比，在数据挖掘时效果差距巨大。

4.4 积极探索档案数据的应用

档案的最终价值在于利用，数字档案和档案数据最大的优势在于网络传输效率高和可机器识别，其在网络共享、大数据挖掘、知识化服务、数字人文等方面的潜在应用价值远超传统纸质档案。在保障档案数据的数据安全、个人隐私保护、商业秘密保护、档案开放法律法规等问题的前提下，积极探索档案数据的新型应用，也必将给高校档案数据建设带来积极的经验和反馈。