机器学习的公文辅助定密方法研究

2021-02-28池少宁张均成

电子世界 2021年23期

刘星谢磊刘迅池少宁张均成

（1.国网湖南省电力有限公司信息通信分公司；2.国家电网有限公司信息通信分公司；3.福建亿榕信息技术有限公司）

众所周知，传统公文存档方法大多以纸质原件居多，经整理与装订之后，通常会保存于档案局等特殊机关中，以提高公文的稳定性与可查性。不过，在归还的公文量逐步增多时，公文搜索的效果会大幅度降低，特别是在对于所要求检索的公文的具体年份、标题等内容并不清晰时，查找起来困难重重，不仅浪费了大量的时间，也浪费了大量的人力资源，所以，纸质归档公文并不能实现基于内容的模糊查询。因此，越来越多的政府相关部门开始选用公文管理系统。所谓公文管理系统是指公文的创建、处理和管理。

1 公文应用现状

据相关调查，现阶段，对于公文的应用一般会有两方面问题。一方面规范化程度较低。系统处理公文信息内容和范围，与公文管理的有关规定和准则有着相当距离，且系统共享性和通用性还不够。由于管理的电子文档格式可以有纯文字（txt）、超文本（HTML）、word、Excel、PDF、WPS等，已成为政府办公自动化管理系统中的主要内容，但怎样管理和共享电子数据档案尚有待进一步研究与完善。这也是办公自动化向知识管理方向发展的最大阻碍所在。另一方面则主要局限于公文的传递、受理、记录和简单的检索功能，不支持公文运行的全过程。另外，系统稳定性也不好。如不能提供一种较为完善的安全管理机制，将无法从保护文件流转签名、文件信息存取权限、对抗网络黑客和计算机病毒攻击等方面，给文件管理信息系统提供更高效的安全保证。

2 机器学习的公文辅助定密需求

（1）拟稿和核稿环节。系统需要依据预设的公文词库与规则库，实现公文内容关键字、敏感内容智能校核，提示进行公文密级标识。

（2）文字处理环节。实现与WPS文字处理软件集成，以方便用户日常工作中的使用。因此，对于公文辅助定密的方法需要涉及到控件及WPS相关API修改。

（3）公文内容识别。公文内容的校对是不可或缺的功能，在校对的过程中，需要发现公文内的问题，因此，需要利用先进的校对计算技术，对公文正文内容进行文本转换及分词处理。使公文的表达变得更加通顺流畅。

（4）词库管理。在公文的写作中，辅助定密的核心在于建立强大的基础词库，包括设置通用词库（地名、公司领导排序、领导职务、单位名称及排序）、电力行业专业词库等维护管理功能。并且这个词库需要在应用过程中需不断丰富并积累成为新的词汇库，以适应工作人员不断更新的写作需求。

3 训练工具Word2Vec及训练模式

3.1 Word2Vec含义

Word2vec，是一种用于数字向量运算的开源工具。Word2vec不但能够在成百上千万字典和数亿个数据集上开展有效的练习，还能够获得重要训练成果——词向量，并能够很好地度量大量词间的相似性。

3.2 Word2Vec的优缺点分析

（1）Word2Vec的优势

Word2Vec是一种比较常用的训练工具，常被用于语义分析引擎当中，其具备的优势是相当明显的，其中，最受欢迎的是以下两个优势：首先，word2vec解决了分类器难以处理离散数据的问题。其次，word2vec也在一定程度上起到了扩展功能的作用，使语义分析能够更加准确，无论是开发者还是使用者，都大大提高了效率。

（2）Word2Vec的缺点

虽然Word2Vec在语义分析当中发挥着重要的作用，然而，文本特征表示存在着明显的问题。首先，这是一种不考虑词汇之间次序信息的词袋模式（文本中单词的顺序信息也是非常重要的）；第二，它假设了词汇的相互独立（在大多数情况下，词语相互影响）；第三，它得到的特征是离散稀疏的。

3.3 Word2Vec的训练模式

目前，在Word2Vec中包括了多种训练模式，但是常用的一般分为两种，CBOW和Skip-gram。所谓Skip-gram训练模式，简单来说就是通过当前的词组来进行上下文的预测，从而进行语义的分析，而CBOW训练模式则恰恰相反，会通过分析上下文来预测当前的词组，而两种模型的选择和运用需要结合不同的环境来进行。而本次使用的公文辅助定密的模型，则选用CBOW模型，运行过程如下：首先，需要收集原始语料库，即已定密的公文历史数据，通过文本抽取技术抽取出正文中的文本数据。其次，通过自然语言处理技术，对每一条正文文本进行分析处理，经过去停用词、滤重、中文分词、词性标注等处理后，抽取出关键词，形成一个个分词文本，并按密级行分类。最后，通过Word2Vec工具并采用CBOW模型对所有的分词文本进行训练，得到用于定密的模型文件，如图1所示。

图1 Word2Vec的训练模式

4 自动定密处理过程

4.1 文本分类的定义和方式

文本分类技术主要涉及词匹配、认知工程，以及机器学习。目前，最常见的文本分类主要为机器学习。

（1）词汇匹配文章分类，仅通过文章中是否出现了带有同类名的单词，或者同义词来确定文章是不是归属于某个类型。显然，这些过于简化的方式没有产生很好的分类效果。

（2）知识工程文本分类方法虽然增加了人工确定因素，也明显增加了划分的准确度，但同时也面临着许多缺点，例如：主观因素较多、建立规范的人力物力多和成本高等。

（3）机器学习的文本分类方法也属于自监督学习，它是目前最常用的文本分类方法。其中训练阶段，主要取决于一些标记的文本，或确定类别的文本。运用了文本结构和类型之间的关联模型，提出了文本类型规则集，即分类器。在分类阶段，通过分类器对待测试文本并进行分类。事实上，通过机器学习的文本分析就相当于数学中的映射原理。

4.2 自动定密处理过程

在本系统中，对于公文进行自动定密处理是非常重要的，其过程如图2所示，简单来说，会分为以下几步骤：首先，通过文本抽取服务抽取出当前文件的正文内容，生成普通文本，并提交至HANLP自然语言处理服务。其次，通过自然语言服务对正文文本进行处理，经过去停用词、滤重、中文分词、词性标注等处理后，抽取出关键词形成分词文本。最后，分词文本与定密规则库进行匹配，如果符合具体的规则，则直接返回对应的密级。此外，如果不符合规则库的规则，则将分词文本中提交至定密模型文件中进行处理，并返回对应的密级。