APP下载

基于知识工程的文档服务创新探索

2022-03-31詹超铭李锘雯

中国核电 2022年6期

詹超铭,李锘雯

(中核国电漳州能源有限公司,福建 漳州 363300)

2021年7月6日, 习近平总书记对档案工作作出了“四好”“两服务”的重要批示。笔者作为核电从业者, 10余年深耕核电档案工作, 深以为“四好”是基础,“两服务”是目的,新时代的文档服务不仅要能发挥档案的凭证作用,更要发挥档案的参考作用,给组织和个人呈现文档中的内容、 提供文档中的知识,更好的服务于公司发展和人才培养,使档案工作真正的“存史资政育人”。

1 文档服务现状调查和创新分析

1.1 文档服务现状调查

通常来说,各行各业文档部门的主要职责都是做好业务形成文档的收、管、存、用,但实际上,大多数行业的文档部门只做好了文档的收、管、存,没做好文档的用,主要是因为传统的文档服务是一个从文档管理端到文档服务端的过程,文档部门在进行文档管理系统开发时关注重点在于如何做好文档管理,没有充分考虑用户的需求,没有从顶层的规划、场景的需求、应用的方式和服务的成效进行系统性思考,从而导致文档服务的能力不足、水平不高,如图1所示。

究其根本原因,主要有以下两方面因素:

(1)文档管理和业务活动相互隔离

在各行各业的业务活动中,文档业务环节基本上都处于业务流程的末端,业务部门和文档部门职责边界比较清晰,文档部门很少提前介入业务过程。

图1 传统文档服务的困境Fig.1 The dilemma of traditional document service

(2)文档管理和服务主客观不统一

文档管理的主体是文档人员,而文档服务的对象是业务人员,在这种情况下,文档人员很容易陷入主客观不统一的陷阱,仅从文档管理的角度思考后续的文档服务。

1.2 文档服务创新分析

近些年,中核集团持续推进系统工程理论学习与研讨,核电文档管理不应在局限于竣工资料管理、设备档案管理以及相关的验收活动中,而应运用系统思维,以核电大数据为主,深入挖掘信息资源,灵活运用信息技术来弥补以往文档工作中数据缺失的不足和弊端,从而提升文档管理工作效率和质量[1]。因此,文档部门在开发文档管理系统时应进行系统性思考,摒弃主观思维,通过分析用户产生需求的客观场景,见表1,应用信息技术设计满足用户需求的目标场景,从而构建客观场景到目标场景的价值实现以及目标场景到客观场景的价值反馈的良性循环,持续改进和提升文档服务能力和水平。

表1 案例客观场景分析

通过这两个案例的客观场景分析,可以总结出一个业务逻辑:用户想要通过文档管理系统查询所需内容,通常需要通过四个步骤:确定关键词和文件类型、进行检索、寻找目标文件、查找所需内容。

对这两个案例的目标场景进行分析见表2。

表2 案例目标场景分析Table 2 Case target scenario analysis

通过这两个案例的目标场景分析,可以推理出一个文档服务概念(如图2所示):用户想要通过文档管理系统查询文档中某一个知识点,文档管理系统应直接告知用户该知识点的内容。

图2 客观场景与目标场景的价值循环Fig.2 Value cycle between objective and target scenarios

通过以上两个案例分析客观场景和目标场景的差异,不难得到一个结论:知识型文档服务可以有效减少用户查询步骤、提高文档服务效率。因此,知识型文档服务是新时代文档服务的一个创新方向,文档部门可以将知识工程理论体系与文档管理进行融合,通过文档知识工程指导文档服务的创新和实践,从而实现客观场景到目标场景的场景转变。

2 知识工程理论体系的应用

核电厂的文档部门存有海量的文档资源,这些文档资源中隐含着大量零碎的知识,可以应用知识工程的理论将这些零碎的知识进行整合并用专业的语言表述出来,让用户能够更容易地进行查询利用。

知识工程是以知识为处理对象,借用工程化的思想,利用人工智能的原理、方法和技术,设计、构造和维护知识型系统的一门学科,人们一般认为知识工程是人工智能的一个应用分支。知识工程包括知识获取、知识表示与知识利用三大过程[2]。文档作为最典型的显性知识,应结合文档本身的特性在知识工程三大过程的基础上进行“一增”“一强”,“一增”是在知识表示后增加一个知识组织过程,“一强”是强化知识利用的过程,因此,文档知识工程应包括文档知识获取、文档知识表示、文档知识组织和文档知识利用四大过程。

(1)文档知识获取

目前,大多数核电企业文档管理系统所能够支持的管理对象是文件,同时在系统中填写元数据对文件进行补充描述,但是补充元数据并不能改变系统的管理对象,文件中的内容及其隐含的知识并没有进行处理。因此,文档知识工程的第一步就是要获取文档中的内容,将非结构化的文本进行内容解析识别为一条条结构化的数据。

(2)文档知识表示

文档知识获取只能支撑文档管理系统实现全文检索,因为计算机并不知道这些文档内容所表达的意思,所以文档知识工程的第二步就是要告诉计算机这些文档内容是什么意思。即将一条条结构化的数据赋予语义的过程,如定义“反应堆控制系统”是“系统名称”,定义“控制反应堆系统压力变化”是“系统的作用”,通过文档知识表示让无意义的数据代表语义。

(3)文档知识组织

计算机知道文档内容中的每条数据及其代表的语义后仍不能实现知识型文档服务,因为计算机仍不理解数据与数据之间有什么内在的关联关系,以及语义与语义之间到底是如何互相作用和影响的,所以,文档知识工程的第三步就是要对语义进行重新排列组合,告诉计算机这是什么系统、系统的功能是什么、系统中有哪些设备以及每个设备的作用是什么等,将文档内容中隐含的“系统-功能”和“系统-设备-作用”逻辑关系给梳理出来。这个数据之间的逻辑关系就是文档中隐含的知识。实际上,文档知识组织就是表达文档中隐含的业务及其逻辑的过程。

(4)文档知识利用

经过文档内容获取、文档知识表示和文档知识组织后,系统就基本具备了提供知识型文档服务的条件,但要达成“提出问题-得到答案”两个步骤的目标场景,系统的检索引擎必须应用语义分析、分词等信息技术进行功能开发,此外,为了更好的展示知识以及知识之间的关联关系,还需要通过知识图谱的技术实现知识的可视化。

在文档知识工程的四个过程中,其中最为关键的是文档知识获取。文档知识获取的方式主要有三种:非自动知识获取、机器学习和知识抽取。

1)非自动知识获取是通过培训、阅读或与专家交流等方式获取原始知识并进一步归纳总结形成文档输入到系统中;

2)机器学习是机器凭借人工智能通过其视觉、听觉等途径直接阅读理解文档中的知识,或在系统运行过程中,结合已有的知识和实例推演、归纳总结出新知识补充到系统中;

3)知识抽取是通过构建机器学习规则和知识库,对隐含在文档中的知识进行识别、理解、筛选、格式化,在解析文档过程中不断改进规则和算法,边分析边抽取,边抽取边校正,边校正边学习,把文档中的知识点都抽取出来,以一定形式存入系统中。

非自动知识获取效率较低,很难满足自动化需要;机器学习难度太大,需要结合分词、语义分析和人工智能等技术进一步研究和探索,也很难进行自动化实施;知识抽取是最符合现状的文档知识获取方式。

3 知识型文档服务的实践分析

结合知识工程的理论应用研究,知识型文档服务可以在遵循和参考文档知识工程理论和方法的基础上,从业务、数据和技术三个实践方向进行研究分析。

(1)以业务为导向

对于文档管理而言,传统的载体比如纸张、照片、胶片等如今已基本形成了数字化副本,同时也产生了原生的电子文件,文档管理的对象已从物理实体变为了数字化实体,虽然提高了工作效率,但从业务逻辑来说并没有改变。未来的文档服务应该是通过数据和业务进行双向互动和驱动,将文档服务延伸到前端,延伸到核心业务线,在核心工作开展的初期,文档部门就要紧跟业务部门,为业务流程做好服务配套,支撑并优化核心业务流程。通过审视业务过程找到业务痛点,也就是分析业务需求,制定解决方案,再应用信息技术去实现和促进业务流程,将业务整体进行升级。数据要成为知识从而优化业务流程,业务流程要更好地为数据保存和知识利用创造条件,他们之间双向互动的这种工作模式不仅仅是提升效率,也能让业务人员真真切切感受到知识型文档服务的价值。

(2)以数据为导向

核电企业的信息化起点和平均水平比较高,基本上都实现了业务流程电子化,因此,业务形成的文档也从纸质介质转变为数字载体。实际上就是文档管理对象发生了转变,目前核电工程项目档案执行的是双轨单套制,这个单套制指的就是要归档一套纸质档案,但是在实际工作中基本上很少会去档案库房找纸质档案,只有财会档案采用这种利用方式,其余大多数文档都是在业务系统中直接形成数字载体文件。也就是说,原来在库房中管理的档案经过数字化存储在了服务器和磁盘上,但整个管理流程,业务逻辑没有发生本质改变,为了适应或满足其他业务的需要,文档工作就不能仅仅局限于保管,要向开发利用进行转变,要对文档进行更深层次的分析和数据采集,得到的数据越精细,获取的知识越准确,才有助于开展分析和归纳总结,形成更多的知识成果。

(3)以技术为导向

文档的载体已经从纸质转向了数字,这是不可逆的趋势,文档技术的研究和应用上也应从实体保管技术、保护技术和数字化技术向以数据和内容为主的数据载体可信技术、数据内容开发技术和文档知识服务技术转型。但是,基于数据的通性或者说是数据的特性,仅凭单个技术或单个算法是无法真正实现知识服务的,一定是一种体系化的技术,集成化的技术,技术之间有交互、有关联,实现新技术应用1+1>2的效果,这就需要把技术的应用点和应用逻辑讲清楚。首先是单文档的智能分析技术,知识工程第一步就是知识获取,要通过智能分析的技术对单份文件中的内容和数据抽取出来。抽取第二份、第三份文件里面的内容时,就需要对内容中相同的数据进行关联,所以第二个技术就是多资源的数据连接。当关联的数据越来越多,数据就变得很乱,为了更好地去利用这些数据,就需要第三个技术,对数据进行知识化的组织。形成知识以后要进行利用,所以最后一个应用的技术就是全概念的结构化展示技术。因此,知识型的文档服务就需要把这些技术点连成技术线,如果技术点应用得不好,就很可能会得到一个1+1<2的结果,产生很多的内耗造成资源的浪费。

4 结束语

信息技术的高速发展引领了各行各业的业务变革,同时也给各行各业带来了很多理论和生产要素的变革文档工作已从传统制度化的1.0模式向文档一体化的2.0模式转变,现在正在向文档智能化的3.0模式发展。文档部门存有海量的文档资源,坐拥最大的数据资产。文档人员如何保管好、利用好这些数据资产,需要进一步研究和探索。作为“华龙一号”建设者,作为核电文档工作者,要以“四好”“两服务”为指引,留存好、记录好这段奋斗历史,讲好这段红色故事,实现传统文档服务向智慧知识服务转型。