APP下载

基于OCR的变电站操作票识别算法研究

2021-09-11国网江苏省电力有限公司南通供电分公司邵建新

电力设备管理 2021年8期
关键词:关键字图像识别列表

国网江苏省电力有限公司南通供电分公司 仲 伟 邵建新

随着自动化技术和智能化技术的快速发展和广泛应用,变电站的数量以及规模日益增多,同时变电站机器人巡检的任务测点量更是数以万计。传统的变电站在导入机器人操作票任务时,需工作人员在上千个测点任务中逐个选择,这样不仅要求工作人员拥有很高的操作熟练度且耗时严重,很易出现错导入和误导入情况,因此研究操作票复核系统很有必要。

在电网系统操作票自动生成方面,大多研究集中在利用电网调控中心提供的电网公共信息模型(CIM),分析CIM 中的设备模型和拓扑连接关系,按照一定的布局、布线算法自动生成一次设备接线图。文献[1]研究了基于CIM 数据和可伸缩矢量图形格式的配电单线图自动构图;文献[2]介绍了节点布局问题的数学模型并应用罚函数法进行求解;文献[3]采用蚁群算法,实现了电网自动布局。目前大多数研究的重点偏向于电网操作票的自动生成,此类研究的前提是调控中心提供的CIM 包含了应用所需的元件模型和连接关系,针对操作票的多样性和易变性略显不足。

目前在变电站操作票识别和任务导入领域的研究少之又少,另外变电站机器人巡检对操作票的正确性要求尤为严格,本文设计了一种新型的变电站操作票复核系统,服务器平台采用图像识别技术对高拍仪采集的操作票实时视频进行文字识别、内容分析和关键字提取,并将提取后的文字进行生成巡检任务列表,并导入机器人巡检任务中。整个过程工作人员只需将操作票放置高拍仪下,在服务器平台侧点击图像识别、生成列表、任务执行即可,避免了操作票误导入和错导入的情况,为变电站机器人测点巡检节约了大量时间。

1 变电站操作票复核系统工作原理

近年来人工智能识别技术已取得较大进展,尤其是在图像识别和分析技术上更是明显。巡检变电站操作票复核系统由应用层、服务器、物理层组成,其中所有算法流程都是在服务器平台操作。物理层采集模块由高拍仪和网线组成,负责实时拍摄操作票视频,并通过网线将实时视频上传到服务器。服务器模块包括图像识别与分析、关键字提取、生成任务列表、执行任务,主要负责对上传视频进行分析和处理,处理后的数据会导入到机器人巡检任务中,工作人员只需在服务器平台侧点击执行任务即可控制机器人进行巡检任务。物理层主要是采集模块。

2 服务器算法的设计与实现

2.1 图像识别与分析

图1 巡检变电站操作票复核系统框图

图像特征包括颜色特征、纹理特征、形状特征以及局部特征点等。图像特征提取是图像分析与图像识别的前提,是将高维的图像数据进行简化表达最有效的方式。2004年Lowe 提出高效的尺度不变特征变换算法(SIFT),利用原始图像与高斯核的卷积来建立尺度空间,并在高斯差分空间金字塔上提取出尺度不变性的特征点[4]。该算法具有一定的仿射不变性、视角不变性、旋转不变性和光照不变性,所以在图像特征提高方面得到了最广泛的应用。服务器可根据SIFT 和操作票颜色特征,将操作票实时视频中的文字全部提取出来,并生成操作票文本。

图像识别与分析算法为关键字提取提供操作票文本,其步骤依次为:初始化网络,为网线传输操作票实时视频提供可用接口;打开实时视频录像;判断视频缩放尺寸是否等于原始操作票缩放尺寸,若相等则输出操作票固有特征尺寸;判断操作票字体颜色特征是否为黑色,若为黑色则输出操作票模板;操作票模板识别并输出操作票上的文字;生成操作票文本;判断文本的字体并更新文本。

2.2 关键字提取

无论是对于长文本还是短文本,往往可通过几个关键词窥探整个文本的主题思想。关键词提取的准确程度直接关系到推荐系统或者搜索系统的最终效果。基于统计特征的关键词抽取算法[5]的思想是利用文档中词语的统计信息抽取文档的关键词。通常将文本经过预处理得到候选词语的集合,然后采用特征值量化算法的方式从候选集合中得到关键词。词权重的特征量化主要包括词性、词频、逆向文档频率、相对词频、词长等。关键字提取流程为:操作票文本(预处理)-候选词(算法)-候选词权重计算(抽取)-关键字。

特征值量化算法为生成列表提供关键字,其提取关键字的具体实现为:识别文本;根据词性、位置、频率、词长对文本预处理,并生成候选词;根据词权重的特征量化的特点从候选词集合抽取所需关键字;生成关键字列表。

2.3 生成列表

LDA 主题模型采用了词袋模型的方法简化了问题的复杂性。在LDA 主题模型中,每一篇文档是一些主题的构成的概率分布,而每一个主题又是很多单词构成的一个概率分布。同时,无论是主题构成的概率分布还是单词构成的概率分布也不是一定的,这些分布也服从狄利克雷先验分布(Dirichlet)。操作票复核系统的关键在于巡检任务列表的生成,任务列表中的关键字也服从狄利克雷先验分布。巡检任务列表为机器人执行任务提供指令依据,其生成的具体实现为:初始化任务列表;设定狄利克雷分布规则,对关键字进行分类和排序等操作;生成新的巡检任务列表;导入列表指令到机器人巡检任务中。

2.4 执行任务

根据上述算法生成的巡检任务指令会导入到机器人巡检任务中,工作人员只需将要操作票放置于高拍仪下,在服务器平台侧点击图像识别与分析、提取关键字、生成列表和执行任务即可,巡检机器人便会按照任务列表上的内容进行巡检作业。

3 实验分析

基于尺度不变特征变换算法、统计特征的关键词抽取算法和LDA 主题模型思想,采用Eclipse、Oracle9i 和Python 数据开发和处理实现了变电站操作票复核系统。下面通过实验来验证此系统。

3.1 服务器算法性能评估

为评估操作票复核系统的性能,采用8台服务器,安装QUnit 软件模拟真实运行环境,同时使用了均方根误差(RMSE)作为评估指标,其定义如下:

其中fi为算法实际运行次数,为实际成功次数,根据公式可知,计算的RMSE 值越小性能越优。1~8服务器性能评估测试的实测次数、成功次数、均方根误差为:1000/996/0.065%、2000/1996/0.063%、3000/2994/0.061%、5000/4992/0.059%、8000/7988/0.057%、10000/9988/0.053%、15000/14956/0.052%、20000/19920/0.051%。随着实测次数的递增成功次数递增,同时成功次数所占比也递增,其均方根误差也趋向于稳定,性能越优。

3.2 与人工导入操作票对比

一个大型的变电站具有上千个任务测点,在人工导入操作票时经常会遇到难以寻找对应测点、错导入和误导入的问题,而操作票复核系统可通过服务器的多种算法对应巡检测点,在时间和准确性上具有明显优势。该系统在某变电站实际运用中的操作票任务数量(个)、人工耗时(秒)、系统耗时(秒)分别为:5/100/32、10/300/36、15/600/39、20/900/41、25/1100/42、30/1500/42、35/1900/45、40/2400/45。随着操作票任务数量的增加,人工耗时的明显增加,系统耗时较为稳定。人工耗时与系统耗时的差距更是明显。

综上,随着人工智能与现代生活的关联愈加密切,人工智能在生活中的应用将会愈加广泛。导入操作票损耗的时间对变电站来说十分宝贵,损耗的时间越多,变电站巡检的时间便越少,许多电厂出现意外都是缺乏足够的巡检时间而导致的,本文提出了一种变电站操作票复核系统,服务器平台采用图像识别技术对高拍仪采集的操作票实时视频进行文字识别、内容分析和关键字提取,服务器将提取后的文字进行生成巡检任务列表,并导入机器人巡检任务中。整个过程工作人员只需将操作票放置于高拍仪下,在服务器平台侧点击图像识别与任务执行即可,为变电站巡检机器人测点任务导入节约了大量时间。

猜你喜欢

关键字图像识别列表
履职尽责求实效 真抓实干勇作为——十个关键字,盘点江苏统战的2021
学习运用列表法
扩列吧
成功避开“关键字”
基于Resnet-50的猫狗图像识别
高速公路图像识别技术应用探讨
图像识别在物联网上的应用
图像识别在水质检测中的应用
列表画树状图各有所长
2011年《小说月刊》转载列表