电力文本数据挖掘现状及挑战（二）

2019-09-18王慧芳曹靖

中国信息化周报 2019年29期

王慧芳曹靖

电力文本还可以采用正则表达式法，用于提取句中的数字、字母、特殊符号等隐含重要信息的字段。不同的文本挖掘需求可以采用一种或多种方法融合表示。

电力数据挖掘方法

电力文本在经过预处理与表示环节后，转化为计算机可以处理的结构化数据，从而可以利用结构化数据挖掘方法进行数据挖掘。数据挖掘方法有很多，常见的有各种机器学习方法。基于机器学习方法，可以根据学习模式将机器学习分为有监督学习、无监督学习、半监督学习，是否有监督取决于训练数据是否有标注。根据学习方法，又可以将机器学习分为传统机器学习和深度学习等。传统机器学习算法有逻辑回归、隐马尔科夫方法、支持向量机方法、K近邻方法、贝叶斯方法以及决策樹方法等;深度学习算法有深度置信网络、卷积神经网络、受限玻尔兹曼机和循环神经网络等。其中，由循环神经网络变种而来的长短时记忆网络，由于加入了长期记忆机制，在处理长序列时具有优势，因而适用于长文本的挖掘。

文本挖掘技术在

电力缺陷文本中的应用

电力缺陷文本的特点及挖掘需求

在电力文本挖掘领域，已有一些针对电力缺陷文本的应用。电力缺陷文本来自于电网企业日常运维记录，一般包括计算机可直接处理的格式规范、语义清晰的内容，如缺陷设备编号、名称、缺陷发现时间、缺陷等级等;也包括计算机难以理解的文本，主要为缺陷详细描述，如“2号主变冷却器风扇有异响”“有载分接开关呼吸器硅胶变色2/3以上”。缺陷描述由现场工作人员记录，可能存在一些不规范或错误需要进行更正。此外，缺陷描述包含的内容通常较为丰富，一条文本可能包含多条缺陷信息，每一条缺陷信息包含着缺陷发生部件、现象及程度等缺陷特征，因此需要进行缺陷分离、特征抽取、关系挖掘等研究。

缺陷文本错误识别与质量提升

缺陷文本常常存在各种原因造成的质量问题，如描述不完整、有歧义等，若将这些存在质量问题的记录作为有效文本进行挖掘，会造成挖掘结果偏差。因此需采用适当的方法对缺陷文本进行质量评价，对质量较差的历史文本进行质量提升，对新录入文本给出改进建议，从源头上保证文本质量，对确保后续文本挖掘效果具有重要意义。

缺陷严重等级自动分类

电力设备缺陷的严重程度常分为紧急、严重、一般三类，不同等级缺陷有不同的消缺时间要求，因此缺陷文本的准确分类非常重要。人工对缺陷文本进行严重等级分类，不仅效率低，而且由于主观因素和经验差异，准确性难以保障。文献基于one-hot词袋模型，实现了文本的向量化，然后基于KNN（自主区间搜索K最近邻）算法，将待归类的缺陷文本与缺陷文本库中已归类的缺陷文本进行对比，找到最相近的文本，然后将待归类文本归入最接近文本的一类。算例验证了基于KNN算法对文本进行分类的可行性。文献则提出了基于卷积神经网络的电力设备缺陷文本分类模型。首先以大量经过文本预处理的电力设备缺陷文本为语料库，训练出每个词的词向量表示，词向量的各个维度代表通过神经网络语言模型学习到的词的语义特征。然后参考电力设备用语规范，对同义词的词向量进行合并。接下来构建卷积神经网络分类器，以准确标注缺陷等级的文本为训练数据，构建以缺陷文本为输入、以分类等级结果为输出的电力缺陷文本分类模型。算例展示了该模型在分类效果上的显著优势，为电力文本分类提供了有效手段。

缺陷文本智能检索

目前，缺陷处理工作依赖于工作人员的知识与经验。如果可以通过检索找到相同缺陷情况的历史记录，就可以借鉴前人的经验，参考以往的处理方法对该缺陷进行相应处理，这在实际缺陷管理中，尤其是对于知识和经验不足的人员有重要的指导意义。

缺陷文本的健康状态自动评价

电力设备缺陷文本蕴藏着设备健康既往史，对客观评价设备健康状态发展过程大有用处。既然可以把缺陷严重程度分类结果融入健康状态评价模型，那么也可更进一步从句子结构和语义的角度对缺陷文本进行深入挖掘，通过对比缺陷描述与标准导则，给出缺陷文本当时场景下的设备健康得分，这样设备既往史融入健康状态评价的科学性会大大提高。但是，实际缺陷文本与标准导则之间的自动准确匹配仍是一个难题，对比文本相似度的准确度不够高，采用知识图谱技术，或者利用依存句法分析，将缺陷描述转化为树形结构，基于树匹配算法与导则进行比较，从而得到健康指数分值，是正在研究的解决办法。

缺陷文本挖掘的启发

上述电力缺陷文本的挖掘研究提供了以下启发：1. 电力文本种类多，文本挖掘技术手段也多，需根据文本特点及挖掘需求研究适合的挖掘方法。2. 文本挖掘效果与文本本身质量、本体字典质量有重大关系，因此应通过管理和技术手段保证电力文本质量，并建立完善的电力本体字典。3.文本数据是电力大数据中的一种模态，需结合其他模态数据的挖掘成果，融合起来才能发挥更大的作用。

电力文本挖掘面临的挑战

电力本体字典的构建

电力本体字典的构建是电力领域文本挖掘的基础工作。本体字典蕴含了电力领域最基本的知识，其质量与数量不仅决定着文本预处理中分词、词性标注等的准确性，也影响着消除歧义、构建知识图谱等工作，是电力文本挖掘中最根本的知识库。

电力本体字典的构建是个难题。一方面，电力领域相关术语的数量非常庞大，仅名词类词汇就有近万个。另一方面，电力领域分支众多，在不同分支领域有不同的专业词汇、俗称及表达习惯等，比如GIS在设备层面是指气体绝缘组合电器，而在电网层面则是指地理信息系统。然而，电力领域毕竟是一个确定的封闭域，虽然困难，但只要电力领域科研工作者共同努力，不断丰富完善，高质量的电力本体字典建设是可以实现的。

电力知识图谱的构建与应用

在已实践的电力知识图谱构建过程中，基于本体字典进行实体识别，准确率较高;但在关系抽取中，如何定义电力实体间的关系类型，做到不冗余、不缺漏，又满足挖掘需求，是需要不断实践与总结的。此外，还有尚未实践的知识图谱领域更深层次问题，比如，如何根据已有实体属性与实体间的关系，推理得到新的属性或者关系，这对于电力知识图谱的智能化运用非常关键;如何将各种电力知识表示成“实体-关系-实体”三元组，是一个富有挑战性的问题;是不是可以打破这种知识表示的限制，创造更多的知识表示的方法，更是一个关系电力知识图谱架构本身值得研究的问题。目前大规模知识图谱的应用还比较有限，领域内的知识图谱更是如此。

如何有效实现电力知识图谱的应用，提高大规模知识图谱计算效率，不仅需要研究人员探索相关技术，还需要发掘合适的应用场景进行示范。例如，在电力设备运维管理的智能查询、策略推送方面，知识图谱技术可望有所作为。

多模态数据融合挖掘提升应用价值

数据融合是数据挖掘的研究分支之一。除常见的结构化数据外，还有文本、图像、视频、波形等多种模态的非结构化数据。目前开展较多的是结构化数据之间的融合研究，如多传感器监测数据融合的故障诊断研究，但还缺乏多模态数据融合研究。以电力设备健康状态评估为例，若通过对历史缺陷文本的缺陷细节挖掘，获得电力设备缺陷发生的深层次规律，指导设备进行测试性设计，获得更有效的各种模态监测数据，再加上挖掘的设备既往史，则能更全面准确地评估设备的健康状态。因此电力文本数据挖掘与其他模态数据融合挖掘能提升工程应用价值。