APP下载

基于知识发现的高校档案知识图谱应用研究

2023-09-28张雯君

兰台内外 2023年25期
关键词:高校档案管理知识图谱数据挖掘

张雯君

摘 要:本研究旨在探讨基于知识发现的高校档案知识图谱,在知识管理与应用领域的重要性。通过构建高校档案知识图谱,实现高校档案数据的智能化管理和应用,解决档案资源深度开发程度低等问题。在理论建构方面,将高校档案数字化转型与创新高校档案管理方式相结合,为高校档案信息化建设提供新路径和实践指导。

关键词:知识发现;数据挖掘;高校档案管理;知识图谱

引言

知识发现这一概念起源于20世纪90年代美国底特律召开的第一届数据挖掘研讨会,通过多次迭代和交互,在数据中搜索新的、实用的、潜在有用的、最终可以理解的模式。包括数据预处理、数据挖掘、模型生成和模式验证等步骤。将知识发现与高校档案相融合,构建高校档案知识图谱,实现高校档案数据深度聚合,为高校档案发展注入新动能。

一、 高校档案信息知识发现的研究基础

1.高校档案信息知识发现的必要性

高校档案是高校历史与文化传承的珍贵载體,记录了高校发展历程、重大事件、人才培养、学术成果等方面的信息,对高校的历史、文化和发展有着极为重要的意义。然而,随着高校档案资料不断增长和多元化,传统档案管理面临着许多挑战,知识发现作为智能化管理的重要技术,在档案信息挖掘方面具有显著优势,可协助高校档案管理部门提高管理效率和质量,促进高校档案领域的数字化转型和创新发展。

首先,知识发现可提高档案信息挖掘的深度和广度,通过自动化、智能化的分析,深入发现档案信息之间的关联性和规律性,为相关领域的研究和应用提供支持和帮助。例如,通过分析学生选课和成绩信息,预测学生学业和职业方向,为学生提供更好的指导和服务。其次,加强档案信息的安全性,利用加密和权限控制技术发现和预防安全风险。最后,提高档案管理的效率和精度,实现档案信息的精确检索和语义关联,通过自动化的方式减少人工操作的时间和误差。

2.高校档案信息知识发现的可行性

知识发现具备从海量结构化、非结构化数据中获取知识的能力,并通过可视化、推理、预测等手段,使知识更容易被吸收和理解。在高校档案管理方面,知识发现技术具有以下优势:

(1)学术研究方面。利用档案知识发现技术,研究高校历史和文化的演变,探究历史事件和思想流派对高校发展的深远影响,分析高校人才培养和学术成果的规律,为高校学术建设和发展提供有力支持。

(2)教学工作方面。基于高校档案挖掘出有效的教学资源,以较早的课程、教材、课件或教学方法为依据,为教学工作提供指导和借鉴,创新教学模式。

(3)学校管理方面。深入挖掘高校档案中蕴含的管理思想、创新活动以及组织机构等重要信息,为高校的精细化管理提供前沿资料。

(4)文化传承方面。高校档案是高校文化传承的重要载体,运用知识发现技术发掘和整理高校传统文化、校史、风俗等方面的信息,有助于弘扬校园文化,促进校园文化的传承与创新。

二、高校档案知识发现构建技术

1.数据挖掘技术

数据挖掘是指从大量数据中寻找有价值、可理解的信息。在数字档案领域,数据挖掘能够帮助档案管理员在非结构化数据中寻找到隐藏在文献中的关系、模式和规律,从而改善档案管理状态,提供更好的档案服务。数据挖掘常用的算法包括分类算法、集合算法、关联规则算法、回归算法和检测异常算法等。

2.机器学习技术

机器学习关注于如何提升算法在体验式学习中的性能。机器学习肇始于1943年Warren McCulloch和Walter Pitts提出的神经网络层次结构模型,该模型为机器学习的研发奠定了基础。机器学习的形式依赖于人类参与程度的差异,在这方面,机器学习可以被分类为有监督、无监督和半监督学习。有监督学习在人类制定训练集目标的前提下,创建数据集函数并预测相应的新数据结果;而无监督学习则是在不使用手动选择数据的情况下,由计算机独立执行整个过程的学习;部分监督学习则处于有监督学习和无监督学习之间,利用大量未标记数据来识别模式以完成任务。机器学习还依赖于归纳、推理和分类等技术,以让计算机自主学习和适应不同的场景。支持向量机(SVM)、神经网络、决策树等机器学习算法都得到了广泛应用,计算机利用大量数据来推断规律和模式,并据此做出正确的预测和决策。

3.三元组抽取技术

三元组抽取技术从句子中提取实体和其对应关系的信息,关键步骤包括从句子中提取实体对并进一步确定实体对间的语义关系。若实体对之间存在语义关系,则需明确该关系所属的关系类别,通常用关系三元组来描述。在先验规则的引导下,对句子进行语法和语义分析,将主语、谓语和宾语等元素分别匹配,抽取出符合“主语-谓语-宾语”这一三元组关系的信息,为知识图谱构建提供基础。

三、知识发现构建流程及功能实现

1.知识发现构建流程

知识发现涉及多学科科学原理,如人工智能、数据挖掘、自然语言处理等技术领域。知识发现是将源自多个数据源的未知或不完整的知识信息进行处理、分析和挖掘,为实际应用提供指导,实现知识管理与知识共享的过程。知识发现构建过程分为三个阶段,即数据采集和预处理、模型构建和验证、知识整合和应用知识。

(1)数据采集和预处理

数据采集是指从数据库、传感器、API、文本文件和网页等各类数据源中提取,收集、整理和记录有关特定事物数据信息的过程。采集的数据应保证质量和完整性,便于后续数据处理和分析的准确性和可靠性。数据预处理包括数据清洗、数据匹配和数据整合等步骤。数据清洗可以去除数据中的异常值和重复值,数据匹配则可以将来自不同数据源的数据整合和合并,数据整合则可以将多个数据集合并成一个大的数据集。

(2)模型构建和验证

利用机器学习和人工智能技术,在原始数据中选择目标数据,确定目标数据之后构建知识发现模型。创建模型是整体实施的一部分,选择适当的参数和输入变量来确保最佳值,所选择的变量在数量和关联性上不宜太多、太强,应具有良好的数据质量。通过聚类的方法界定发现知识的有效性,识别原始数据的有效知识和无效知识,形成最终可以被利用的知识。

(3)知识整合和可视化

根据数据验证的结果,将分析得到的信息和知识转化为模型、图表等形式。并运用可视化方式以直观和易懂的方式呈现出来。例如,绘制散点图表示各个数据点之间的关系、使用柱状图来展示不同组别之间的差异等。

2.知识发现功能实现

知识发现功能体现在三个方面,一是自动对文本数据标记、分类、过滤及整合并建立索引,将文本数据结构化处理,帮助用户更好地做出决策,实现资源共享和重复利用;二是通过文本挖掘、信息抽取等技术实现对文档中的实体、属性和关系等信息的自动化提取,辅助档案管理人员快速获取文档中的重要信息。同时,实现文档之间的关联分析,深入挖掘文档内隐含的知识;三是辅助档案管理人员对文档审查和合规性检验,实现对文档内容的自动化检验和验证,简化工作程序,并提高准确性。

四、基于知识发现的高校档案知识图谱构建应用研究

知识图谱是从文本中抽取数据和本体,采用图谱的形式表示知识,通过关系和语义连接不同的实体,构建具有语义表达和推理能力的知识体系。基于知识发现的高校档案知识图谱构建,是利用计算机语言处理技术和大数据存储技术,对高校档案资源开展分析和处理,利用图谱中的关系和属性信息,实现对高校档案知识和信息的发现。研究内容包括高校档案资源的数据结构和组织方式、知识图谱的构建和维护、知识图谱检索算法的设计和优化等方面。通过应用知识发现技术,对知识图谱构建产生积极影响,提高其质量、完备性和应用效果。

1.知识发现对高校知识图谱构建中的优化作用

知识图谱是以实体为节点,以关系为边构建的一个语义网络结构,构建过程中,存在知识不完备性和信息缺失性。运用知识发现技术可挖掘隐藏的关系,发现未知实体属性,并将信息补全。例如,在科研档案关系图谱中,如果缺失两个节点之间的关系,可以根据已有的关系,推断两个节点之间是否存在其他未被发现的关系,从而完成信息补全。对初步建立的高校档案知识图谱,采取建立模型、优化算法等措施对图谱开展检验和验证,优化图谱结构和相关参数,使高校知识图谱更专业、准确。

2.高校档案知识图谱的功能应用

通过高校档案知识图谱的研究和应用,可有效解决高校档案在分类、管理和利用等方面的问题,从而构建一个智能化、服务型的档案馆管理平台。智能化的档案馆管理平台将有助于推进高校的智慧化校园建设,为高校的教学科研和管理服务提供支持,为高校的可持续发展提供有力支撑。

(1)智能检索和挖掘

利用人工智能和自然语言处理技术,抽取主题、内容、时间、地点及人物等高校档案资源关键细节信息和知识点,转化为结构化的图谱。用户通过关键字、语义等自然语言检索方式,获取到与之相关的高校档案信息,如学校历史沿革、校园文化、学术成果等,实现精准信息检索和筛选。利用数據挖掘技术,对历年高校各学科的学生人数、科研成果、教师队伍等各类数据开展分析,发现数据内在联系和规律性,提高档案资源的利用价值。在科研方面,可以通过挖掘高校档案中的历史科研成果和文献数据,为当前高校的科学研究提供借鉴、启示和指导。

(2)智能分析和管理

高校档案管理借助知识图谱的智能分析实现高效、准确的管理。智能分析具有全方位梳理档案信息体系的功能,运用智能化的内容聚类和归纳,以及语义分析等技术实现集中式管理;智能管理通过科学整合和自动化认定档案价值、分析档案密级,实现精准归档;利用大数据和机器学习技术实现档案分类整理和保管;建立智能化管理系统,提升档案管理效率和准确性,为高校决策提供精准和有力支持。

(3)智能推荐和融合

智能推荐通过知识建设和挖掘过程中数据推荐技术,为用户推荐与需求相关的档案资源,并通过不同的呈现方式和展示平台,打造出不同领域、层次、类型等高校跨领域的档案资源推荐平台。知识图谱融合将不同领域的知识有机整合起来,通过联合索引和档案关联相互结合,实现知识的互通和共享。智能推荐和融合是高校档案馆整合、应用档案和文献信息的重要手段,在学术研究和教学中发挥重要作用。

3.高校档案知识图谱的构建框架

基于知识图谱构建方式,总体架构自下而上划分为数据采集及分析层、知识挖掘层、可视化展示层。数据采集及分析层作为最基础的层次,为知识图谱构建提供基础保障。知识挖掘层利用算法和技术从数据中挖掘出有用知识,将知识通过关系或者结构的方式,建立起丰富的知识库。可视化展示层将挖掘出来的知识以直观的形式展现出来,让人们更好地理解和应用这些知识。

(1)数据采集及分析层

收集高校档案资源的相关信息,包括档案资料、文献、图片和音视频等。运用自然语言处理、图像识别等技术,对文本、图片等数据开展特征分析和提取,将所得信息存储到知识图谱中。通过数据预处理和清洗,将数据中的冗余信息和错误信息去除,保留有效信息。

(2)知识挖掘层

根据高校档案资源的特征,将其构建成一个层次结构的知识图谱,其中各个节点之间相互关联,形成一个完整的档案知识体系。通过搜索、关联、推理等算法,对知识图谱中的数据进行挖掘和分析,以发现其中隐含的知识和价值,整合并提升高校档案资源的利用价值。

(3)可视化展示层

知识图谱是一种以图形化方式展示知识体系的工具,它可以将高校档案资源之间的关联性以图形化呈现,让用户直观地了解这些资源的结构和内容。通过将知识图谱以图表、列表等形式进行可视化展示,用户更好地利用和管理这些资源,快速定位所需信息,实现高效地查找和利用。

4.档案知识图谱构建和应用的不足之处

首先,档案知识图谱构建所涉及的数据质量问题是制约其应用的关键因素。由于档案信息质量的不统一性,在进行知识图谱构建时,数据质量难以得到保障,影响知识图谱的应用效果;其次,知识图谱构建难度问题。档案知识图谱的构建涉及多种技术手段,包括自然语言处理、本体构建和数据挖掘等领域的知识,以及领域知识与技术手段的融合。因此,建立一个高质量的知识图谱,需要一支专业技术团队的支持;最后,知识图谱应用的效益问题。档案知识图谱的建立需要有明确的应用目标和需求,否则只是一种形式化处理,无法实现对档案资源的有效利用和共享。

五、结语

针对高校档案领域的知识发现和知识图谱应用是一项新兴研究,要持续地探索知识发现和知识图谱的优势、共建,以及提高知识体系的利用价值,推动该领域的研究和发展,彰显高校档案资源价值,为社会作出卓越的贡献。相信随着人工智能技术和数据科学研究的不断深入,高校档案领域的知识发现和知识图谱应用必将迎来更大的突破和成就,为未来的发展打下坚实的基础。

参考文献:

[1]邓 君,王 阮.数字人文视域下口述历史档案资源知识发现模型构建[J].档案学研究,2022(01):110-116.

[2]谭 晓,李 辉,许海云.基于多维数据知识内容和关联深层融合的知识发现研究综述[J].科技情报研究,2021(04):58-68.

[3]王晓燕.数据挖掘技术在档案信息管理中的应用[J].兰台世界,2012(23):25-26.

[4]梁逸寒.基于实体链接的关联知识发现技术研究与应用[D].电子科技大学,2022.

[5]田 玲,张谨川,张晋豪,周望涛,周 雪.知识图谱综述——表示、构建、推理与知识超图理论[J].计算机应用,2021(08):2161-2186.

[6]洪 亮,宋 睿,朱丽雅,侯雯君.知识关联视角下的文化遗产知识大图研究:理论、方法和趋势[J].图书情报知识,2022(02):133-143.

[7]邓 君,王 阮.口述历史档案资源知识图谱与多维知识发现研究[J].图书情报工作,2022(07):4-16.

(作者单位:山东建筑大学)

猜你喜欢

高校档案管理知识图谱数据挖掘
探讨人工智能与数据挖掘发展趋势
基于并行计算的大数据挖掘在电网中的应用
基于知识图谱的产业集群创新绩效可视化分析
基于知识图谱的产业集群创新绩效可视化分析
基于知识图谱的智慧教育研究热点与趋势分析
关于新时期高校档案管理信息化建设的几点思考
从《ET&S》与《电化教育研究》对比分析中管窥教育技术发展
高校档案管理工作服务创新举措
高校口述档案工作存在的问题及对策
一种基于Hadoop的大数据挖掘云服务及应用