APP下载

OCR识别技术在钢结构制造企业精细化管理的应用

2023-12-15高天

中国信息化 2023年11期
关键词:工程图纸文档钢结构

文|高天

随着钢结构制造企业的发展和数字化转型的不断深入,大量的图纸和工程文档成为企业管理中不可或缺的一部分。然而,传统的工程图纸管理和识别过程通常需要耗费大量的人力和时间,且容易出现错误。因此本文基于OCR识别技术将工程图纸等工程文档转化为可编辑文本,提供了一种处理大量图纸的自动化技术方式,从而实现企业精细化管理,提高管理和工作效率。

一、引言

(一)钢结构制造企业设计阶段中的信息处理现状

钢结构制造企业在设计阶段涉及大量的信息处理,这些信息涵盖了从项目规划到产品制造的各个方面,其中国内钢结构制造企业对于信息处理仍大量采用人工处理方式,尤其在钢结构定额信息化管理方面的研究仍处于起步阶段。通过调研发现现有钢结构定额过程中,材料表的提取是定额计算的基础,目前主要采用人工统计完成,存在效率慢、易出错的特点。

虽然诸多学者都对表单的快速提取做了大量研究,但仍有许多关键问题亟须解决,如多张材料单的汇总、材料单的正确率提高、材料单解析并发量的满足、文档解析可视化等问题。南开大学的尚子峰提出利用OCR技术实现基于模板的通用表单处理系统,该系统模板以XML文档形式存放。首先该模型不满足Excel文档格式的存储;其次该模型提取表单的正确率较低,约为88%,且不能实现解析结果的可视化。国防科技大学任通、程江华等人提出基于OCR技术的电子扫描表格图像的自动识别算法,提高了识别的准确率,但是该方法仅停留在试验环境,没有并发量的考虑。

目前钢结构市场面临极大的竞争,精益化管理成了行业共同关注的主题,如何快速精准提取大量工程图纸中的材料表,提高板材的利用率,提高计算效率和降低生产成本,是迫切需要解决的问题。

(二)OCR识别技术概况及应用前景

OCR技术是一种将图像中的文字转换为可编辑、可搜索的电子文本形式的技术。该技术在银行、保险业和人工智能领域中得到了广泛应用。银行和保险公司利用OCR技术对用户的身份证、银行卡等证件进行识别并完成相关操作,提高了业务办理效率和准确率。在人工智能领域中,OCR技术能够提高数据的准确性和处理效率,为机器学习和人工智能提供有力支持。因此利用OCR机器识别技术在钢结构制造企业也完全可行,利用OCR机器学习技术、计算机视觉技术搭建数据解析模型,实现非结构化数据到结构化功能关系的建立,完成从数据的识别、解析、抽取、校验、管理等基础功能组建的材料表智能提取系统。

二、智能提取材料表系统设计

(一)提取材料表的研究方法

通过采用智能解析算法,运用OCR机器学习技术、机器视觉技术实现PDF文件、图片、扫描件等非结构化数据的批量解析和提取,实现表单解析可视化,实现解析结果的可追溯性。主要研究方法如下:

图像处理和分割:对于图纸中的材料表,首先需要对图纸进行图像处理和分割,将材料表从图纸中提取出来。

区域检测和定位:一旦材料表被提取出来,需要确定表格在图像中的位置和边界。

文字识别:可以使用OCR技术,将表格中的文字内容转化为可编辑的电子文本。表格中可能有不同的字体、符号、大小和颜色,需要考虑多样性。

模型训练与优化:基于机器学习的方法,可以构建模型来识别和提取材料表信息。使用标注好的数据来训练模型,不断优化模型的性能。

规则引擎:在一些情况下,可以基于规则引擎来设计规则,例如识别特定格式的单元格,以支持特定类型的材料信息提取。

验证与评估:在开发好的方法和模型中,使用一些真实的图纸数据,评估方法的准确性和效率。

(二)构建智能提取材料清单系统

该系统主要由非结构化数据(PDF文件、图片)、提取信息系统编程接口、智能解析算法、可视化界面,应用功能服务几个部分构成,如图1所示。

图1 智能提取材料清单系统构成

针对存在的多种非结构化数据例如自PDF文件、图片、扫描件等,运用OCR机器学习技术、智能解析算法实现非结构化数据的批量解析和提取,提取形式见表1。

表1 非结构化数据的抽取形式

三、OCR识别技术在制造企业图纸识别中的应用

(一)钢桥梁制造企业OCR技术训练模型集

本文旨在提高使用OCR技术识别钢板材料表计算效率和准确率,实现钢结构的成本精细化管理。基于深度学习的OCR算法,实现材料表自动提取的同时,要根据材料表文件的不同清晰度,实现不同范围的识别准确度,确保准确率,但是考虑到不同设计图的命名规范问题,不能将主要特征作为判定的唯一条件。

钢结构制造企业数据主要来自PDF/JPG等不同格式材料文件,这些设计文档还包括大量其他信息,其中所需要定额的材料表,一般都存在设计图纸中,提供的形式通常为两种形式:PDF或者纸质蓝图。其中PDF根据清晰度可以分为三类:AutoCAD直接打印的PDF文件、根据纸质蓝图扫描成的PDF文件和图片。

(二)提取材料表的特征

为了满足生产需求,根据所提供的设计文档,需要提取的图表主要为材料表,材料表的主要特征为:一是材料表的表格名称(以下简称表名)主要特征:“XXX材料表”“XXX数量表”等关键字;二是表格的列字段(以下称为表头)包含编号、规格、单重、数量等字段。

因此,材料表需要提取的内容有表格名称、表格内容、规格列中特殊符号对应的钢材类型、页码、梁段名称等。还要根据材料表中的小计、合计、总重等字段,结合合并行单元格的特性来判定汇总数据所在的行数,便于进行快速核对。

(三)实际应用场景

目前钢结构制造企业提取制造数据从工程图纸定位所需要的材料,整理多种转化后的工程图纸数字样式和不同规格列表格式,因此每次核对文件通常要上传成百上千张图纸。该系统以项目为基础,不同工程图纸按照项目整合,进行OCR集中识别。系统呈现界面显示从源文档中切割的图片和识别后结果的界面,通过鼠标悬浮在指定区域,进行高亮处理,帮助工作人员进行线上差错处理,节约核对时间。识别结果均为可编辑文档,包括在线编辑和下载后编辑,经测试该系统识别准确率高达95%以上。图纸识别后界面如图2所示。

图2 图纸识别后界面

不同的材料表按照识别出页码在平台内进行展示,便于工作人员的核对、计算、统计等后续工作。不同工程图纸分别保存在各个项目菜单中,材料信息保存到数据库,按照索引方式进行收集,方便员工查阅和追溯。随着系统数据的大量积累,为后续数据分析提供有力支撑,为公司精细化管理提供路径。

(四)提升企业管理水平

基于OCR的工程图纸识别定额系统主要通过工作人员进行线上数据统计,包括材料表提取、核对和导出,显著提升了管理水平,主要体现在以下方面:①在自动化图纸处理方面,系统可以自动完成很多繁琐的识别和录入工作,提高图纸处理的自动化水平,节约时间和人力资源;②在图纸版本控制方面,对图纸上的版本号、日期等信息进行自动识别,确保使用最新的图纸版本,避免错误和混淆;③在快速搜索与检索方面,将识别后的图纸信息存储到数据库中,可以实现快速的文本搜索和检索功能,使管理团队能够迅速找到需要的图纸和信息。

四、对企业精细化管理的思考与展望

(一)对制造企业精细化管理的思考

通过进一步对OCR技术进行剖析,发现企业精细化管理可更进一步。在数字化档案管理方面,通过OCR技术,图纸可以从纸质文档转换为电子文本,并且可编辑、可搜索。在减少错误和质量控制方面,可减少手工输入错误,提高图纸处理的准确性和质量控制水平,有助于预防错误和避免潜在风险。通过将图纸信息数字化,可以更好地进行知识管理和传承,新加入项目员工可以更容易地访问和理解过去的项目信息,快速融入项目团队。

(二)对制造企业应用的展望

随着人工智能和计算机视觉技术的不断发展,未来的OCR技术可以拓展到更多应用场景,制造企业可以积极探索和应用OCR技术在不同领域的潜力。OCR技术可以提供更高的集成性,能够无缝连接到企业的信息系统和生产系统中,这将有助于实现信息的实时共享和协作,推动企业数字化转型和智能化发展。OCR技术作用于数据分析与决策支持层面,通过线上收集这些数据可以用于进行数据分析和挖掘,为决策提供科学依据。制造企业通常有自己独特的业务需求,可考虑开发定制化OCR应用,以满足特定场景的生产和管理需求。

猜你喜欢

工程图纸文档钢结构
顶推滑移法在钢结构桥梁施工中的应用
钢结构防火设计规范及要点探讨
浅谈Matlab与Word文档的应用接口
首件钢结构构件确认机制在钢结构施工中的应用
有人一声不吭向你扔了个文档
一种计算机联锁机柜工程图纸的自动化生成方法
基于RI码计算的Word复制文档鉴别
Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
建筑工程节约型施工现场管理体系的应用探微
电气安装工程图纸审核要点探析