矿井视觉计算体系架构与关键技术

2023-10-21孙大智马永壮王广福李和平

煤炭科学技术 2023年9期

程健，李昊，马昆，刘斌，孙大智，马永壮，殷罡，王广福，李和平

（1.煤炭科学研究总院有限公司矿山大数据研究院, 北京 100013；2.天地科技股份有限公司, 北京 100013；3.煤炭智能开采与岩层控制全国重点实验室, 北京 100013；4.国家能源集团宁夏煤业有限责任公司金家渠煤矿, 宁夏银川 750410；5.国家能源集团宁夏煤业有限责任公司羊场湾煤矿, 宁夏银川 750411）

0 引言

以煤为主的能源结构是我国的基本国情，当前我国煤炭工业正转向高质量发展阶段[1]。煤矿智能化则是煤炭工业高质量发展的核心技术支撑[2]，旨在利用人工智能、大数据、机器人等技术手段，实现煤矿开拓、采掘（剥）、运输、通风、分选、安全保障、经营管理等过程的智能化运行，提升煤矿安全生产水平，促进煤炭安全稳定供应，保障国家能源安全。

煤矿井下地质条件及现场工作状况复杂，不确定性高，危险系数大，因此，远离这种复杂环境、实现智能化无人操作，一直是国内外煤炭行业普遍的需求[3-4]。虽然目前我国煤矿对智能化开采的需求非常旺盛，相关研究者前期在智能化开采技术手段、解决方案方面做了大量探索[5-6]，一些煤矿在煤炭智能化开采方面也进行了试验与生产，在综采工作面的安全保证、工程质量与作业效率方面得到了一定的提高，但是这离煤矿真正实现智能化、无人化的常态化应用还存在较大差距，主要原因是智能矿山建设相关的支撑理论和方法有待进一步突破和完善，而煤矿井下环境感知与计算理论和实践就是关键之一。

机器视觉作为煤矿井下环境感知与计算的重要手段[7]，已经在国内一些企业进行了部分产品的应用与推广，比如研发了煤矿掘进工作面危险区域标准化作业识别分析系统、提升机首尾绳视频智能检测系统、矿山区域限员视频智能监控系统、煤矿生产三违智能视频识别管理系统以及煤矿“电子封条”等；推出了基于端侧接入、边侧推理、云端管理一体化架构的煤矿人工智能（Artificial Intelligence，AI）视频识别系统，解决煤矿安全生产问题和提高煤矿生产效率。上述感知与计算系统主要是基于二维图像感知技术，在煤矿井下可控场景下得到了有效应用，但还需要深入探索适合光场分布多变、高湿高热、水雾粉尘多、狭窄长通道结构明显等煤矿复杂环境下的视觉计算理论与技术。

首先围绕煤矿井下视觉计算的基本概念，比较分析计算机视觉与煤矿井下视觉计算的异同，总结提出煤矿井下视觉计算的组成架构体系。在此基础上，详细介绍煤矿井下视觉计算所涉及的视觉感知与增强、特征提取与特征描述、语义学习与视觉理解、三维视觉与空间重建、感算一体与边缘智能等关键技术，并简要介绍视觉计算在煤矿井下的典型应用案例，最后给出煤矿井下视觉计算的发展趋势和展望。

1 矿井视觉计算基本概念

1.1 计算机视觉与矿井视觉计算

人工智能专家David Marr 首先提出了视觉计算理论[8]，即视觉信息处理理论，设计了一个多级的、自下而上的视觉计算框架。2010 年在David Marr 遗作[8]再版时，David Marr 当年的合作者Tomaso Poggio 在上述视觉计算框架下补充了一个学习层，并认为学习是视觉计算高层表示中非常重要的成分。马颂德等[9]通过引进视觉系统与视觉环境和模型知识的交互作用、局部信息与整体信息的交互作用，构建了新的视觉计算理论框架。谢剑斌[10]将图像增强与分割、特征检测与描述、聚类处理、运动检测等归为视觉计算。

Marr 视觉计算理论的提出，标志着计算机视觉成为了一门独立的学科。从广义上说，计算机视觉就是“赋予机器自然视觉能力”的学科，而其本质上就是研究视觉感知问题[11]。根据Wikipedia 的定义，视觉感知是指对“环境表达和理解中，对视觉信息的组织、识别和解释的过程”。因此，计算机视觉是以图像或视频为输入，以对环境的表达和理解为目标，研究图像或视频信息组织、物体和场景识别、进而对事件给予解释的学科。可见，计算机视觉是用计算机来模拟人的视觉机理和视觉信息处理的能力。

矿井视觉计算的主要目标是针对矿井这一特定的应用领域，研究煤矿井下环境的感知、描述、识别和理解模型与框架，以使智能装备具有通过图像或视频感知煤矿井下三维环境信息的能力。矿井视觉计算对推动煤矿智能化高质量发展具有十分重要的理论意义，能够增强煤矿井下环境感知能力，促进煤矿安全生产与监管从二维感知时代进入三维感知时代，也将与传统采矿技术相结合开辟新的应用领域。

1.2 矿井视觉计算的基本组成

当视觉计算应用到不同领域的时候，由于应用环境的差异，可能会涉及到多个不同的专业理论与技术。图1 给出了矿井视觉计算的体系架构。这里，针对煤矿智能化应用，矿井视觉计算主要基于不同视觉传感器数据，构建煤矿井下感知、描述、识别和理解等计算模型，获取煤矿井下三维环境信息，主要涉及到煤矿井下视觉感知与增强、特征提取与特征描述、语义学习与视觉理解、三维视觉与空间重建等关键基础技术领域，以及相关模型在边缘端的应用技术，重点包括模型轻量化智能计算技术和数据协同边缘计算技术，在此基础上，进行智能识别与预警、定位与导航、远程临场感操控、增强/混合现实、平行智能采矿[12]等煤矿智能化应用。

图1 矿井视觉计算的体系架构Fig.1 Architecture of vision computing for underground coalmine

2 矿井视觉计算关键技术

2.1 视觉感知与增强

视觉感知技术作为计算机获取外部世界信息的重要方式，已经广泛应用到煤矿井下各种场景中。视觉传感器作为视觉感知的主要手段，已经逐渐成为煤矿生产生活的重要组成部分。但煤矿井下环境复杂，如图2 所示，巷道空间狭长、光照不均衡、多粉尘水雾等干扰因素使得煤矿井下场景复杂多变，致使视觉传感器获得的视频图像质量较低，视觉效果差，不利于煤矿井下场景的视觉应用。

图2 煤矿井下部分场景Fig.2 Underground coalmine environment

针对煤矿井下复杂环境对视觉应用的影响，通常从2 个方面来解决：①对采集的视频图像进行去噪、增强等预处理，提高视频图像的质量；②通过其它异构传感器来辅助视觉传感器，增强视频图像的表征信息。

1）矿井图像增强。图像增强的定义非常广泛，简单来说，可以提高图像整体或局部区域质量，将不清晰的图像变得清晰或突出感兴趣的特征，从而有利于后续图像处理和提高视觉效果的方法都可称为图像增强方法。由于光照不均衡、多粉尘水雾、空间狭长等干扰因素，煤矿井下图像增强是煤矿领域的热点研究方向，很多学者在这些方面作了大量研究。

针对煤矿井下光照低、光照不均衡等问题，智宁等[13]通过融合多尺度引导滤波和Retinex 算法，引入受限对比度自适应直方图，提升图像整体亮度和对比度；范伟强等[14]采用自适应小波变换和双边滤波算法，对图像低频子图和个尺度高频子图进行小波重构，实现图像增强目的；吴佳齐等[15]提出一种基于CycleGAN 网络的图像增强方法，将CSDNet 网络引入CycleGAN 生成器中，实现井下低照度图像增强；张立亚等[16]在图像HSV 颜色空间基础上，利用改进双边滤波算法和多尺度Retinex 算法，抑制了图像光晕和边缘模糊现象，提高了图像的亮度和对比度；WEI 等[17]构造了一种基于Retinex 模型的深度学习图像分解算法，建立了一个融合图像分解和连续增强操作的深度网络，引入了反射率去噪，不仅在弱光增强中获得了良好的视觉效果，而且能很好地表征图像的分解；LIU 等[18]引入了一个基于蒸馏池的先验模块搜索空间，提出了一种合作的双层搜索策略，通过注入弱光图像的知识和搜索轻量级的优先架构，为现实场景中的微光图像构建轻量级但有效的增强网络。同时，也有针对煤矿井下部分场景多粉尘水雾和空间狭小的特点，引入图像去雾算法[19]和图像拼接算法[20]，降低干扰因素影响，提高图像细节，实现图像增强的目的。

2）矿井多传感器融合感知计算。鉴于视觉传感器在煤矿井下的应用缺陷，可以引入其它异构传感器来提高传感器对煤矿井下场景的视觉表征能力。在多传感器感知系统中，视觉传感器通常包括单目相机、双目相机和RGB-D 相机，其它异构传感器常用的有激光雷达、毫米波雷达、超声波雷达、惯性测量单元（Inertial Measurement Unit，IMU）等。

多传感器融合在煤矿有着广泛的应用，很多研究人员作了大量研究。XU 等[21]提出了一种融合视觉传感器和超声波传感器的煤矿巷道车辆定位方法，其在巷道墙壁上布设条形码，利用视觉传感器和超声波传感器，求出车辆和巷道间的位置关系，实现巷道局部区域车辆的自主定位。杨文娟等[22]提出了一种融合三激光束标靶的视觉定位方法，利用三激光束标靶解决低照度、高粉尘等因素干扰，辅助视觉特征提取和定位，求解悬臂式掘进机机身位姿信息。陈先中等[23]详细介绍了毫米波雷达在煤矿地下通讯、点云成像、SLAM 导航和地图构建等方面的应用优势和研究进展，充分体现了毫米波雷达在煤矿地下应用的发展潜力。周李兵等[24]深入研究了无人驾驶在煤矿井下的应用情况，设计了IMU、激光雷达、毫米波雷达、超声波雷达和摄像头等多传感器融合策略，感知周围环境信息，实现无轨胶轮车无人驾驶感知系统。

上述文献都针对煤矿井下不同需求开展多传感器融合研究，但研究主要集中在装备或需求本身，不能普遍应用于煤矿井下不同场景。因此，面对煤矿海量需求应用，研究多传感器融合感知计算技术，增强对煤矿井下场景的表征能力，形成一个可服务于未来煤矿井下各项应用的环境感知信息平台有着重要的研究价值和应用前景。

2.2 特征提取与特征描述

在图像增强的基础上进行视觉特征提取可有效地用于环境感知、语义理解，从而正确解析图像、理解图像和识别目标。视觉特征包含点特征、线面特征、对象级特征（Object Level）等多个类型。

在视觉点特征提取与描述中，由于成像环境和设备复杂多变，正确匹配同名特征点具有较大的难度。因此较好的匹配需要特征描述具有良好的性质，包括光照不变性、旋转不变性、尺度不变性和仿射不变性等。Harris 算法[25]、FAST 算法[26]具有较好的抗噪性和旋转不变性；BRIEF 特征描述[27]具有较好的抗噪性和光照不变性；ORB 算法[28]和SIFT 算法[29]具有较好的抗噪性、光照不变性、旋转不变性和尺度不变性；SURF 算法[30]、ASIFT 算法[31]、Harris-Affine 算法[32]和MSER 算法[33]具有较好的仿射不变性。

视觉线面特征提取和描述与点特征具有密切关联，可使用局部坐标的起点、终点及置信度等参数进行描述并使用普吕克坐标（Plücker Coordinates）或旋量（Screw）表示。线、面特征提取算法包括基于全局霍夫的方法、基于局部的方法、基于深度学习的方法及混合方法等。在基于全局霍夫（Hough）的方法中，DUDA 等[34]特征描述解决了笛卡尔坐标系下无法检测到垂直于坐标轴直线的问题。MATAS 等[35]将图像空间中的线段检测问题转化为Hough 空间中的峰值统计问题。在基于局部的方法中，LSD 算法[36]对噪声具有鲁棒性，可以检测不同方向和长度的线段。EDLines 算法[37]仅使用提取的边缘实现了比LSD算法快10 倍以上。MLSD[38]、FCLIP[39]、L-CNN[40]等使用深度学习技术进行线面结构特征提取与描述。HTLCNN[41]结合霍夫变换与神经网络，使构建的网络能够提取全局和局部特征用于检测线特征。

在对象级特征提取与描述中，由于视觉场景捕获的场景对象多样且具有层次性，目前常采用基于深度学习方法进行场景对象特征提取与描述。BLOESCH[42]使用卷积神经网络（Convolutional Neural Networks，CNN）学习视觉数据中的对象特征的二进制编码并进行优化感知定位。LIU 等[43]通过目标检测或语义分割算法，从图像中提取语义对象的信息并将语义对象与先前的观测进行关联。基于对象级特征提取与表示中，对象特征实质上已经具有了明确的语义信息，当前的语义信息包含语义类别信息、语义实例信息等，这些语义信息能够提供更准确和一致的观测特征匹配。

视觉不同类型的特征提取与表示如图3 所示。煤矿井下视觉数据受到拍摄角度、距离、光照、遮挡和噪声影响，这要求视觉特征提取与描述具有较好性质且易构成鲁棒的匹配，因此在多视角图像三维重建、图像拼接、视频拼接和视觉导航等技术中应用视觉点特征、线面特征、对象级特征的提取与描述具有重要作用，涉及煤矿智能化较多工程技术领域，其中目前应用较多的视觉特征为点特征，尤其是ORB特征、SIFT 特征等。

图3 典型特征算法与类型Fig.3 Typical feature algorithm and classification

2.3 语义学习与视觉理解

针对煤矿井下海量二维图像、视频的理解以及三维场景的解析对加速煤矿智能化建设具有重要意义，该细分领域主要包括物体检测、语义分割、动作定位与识别及场景解析共4 个方面的研究。

物体检测是确定图像中目标物体位置及类别的重要技术手段[44]，也是矿井视觉计算的一个核心研究领域。以煤矿井下场景为例，针对传输输送带上夹杂的大煤块、锚杆或者煤矸石等异物的检测对煤矿安全生产有着重要意义。近十年，物体检测领域取得了长足的发展，2017 年，Mask R-CNN 方法[45]被提出，通过在参数训练中设置遮掩，提升计算速度的同时实现了关键点的物体检测及实例分割。2019 年，Cascade R-CNN[46]和SCNN[47]方法被相继提出，其中Cascade R-CNN 通过在Faster R-CNN 的基础上进一步细化边界实现更准确的物体检测，SCNN 则是通过在CNN 中引入正态分布的统计学特征，提升了物体检测的鲁棒性。2020 年，考虑到部分图像呈现小样本分布，FSOD 算法[48]提供了更具通用性的小样本检测框架。2021 年起，该领域对注意力机制的实际应用给予了更多关注，DETR 模型[49]作为一种高效且快速收敛的端到端目标检测器，取得了优异的表现。2022 年，针对背景与目标对象混淆的场景，COD 算法[50]被提出并实现了对隐藏对象的成功识别。如今，本领域逐渐聚焦于复杂场景下的高效物体检测，以提升在实际场景中应用的可能。

通过对图像的语义进行分析和分割，将不同的对象进行分离与标注是语义分割研究的目标。在井下复杂场景中，如何在复杂低照度场景中完成不同大小对象的分割一直是难点。类似地，ScribbleSup[51]被提出应用于涂鸦级语义分割，可以在主要目标上进行简易标注；BoxSup[52]成为了边框极语义分割的经典算法，可以实现对候选区域完成提取；2016 年，Bearman 提出针对特征点的识别与标注[53]。2022 年，针对局部面片级和全局区域级的图像分割任务，一种基于ViTs 的框架被提出并有着优异的表现[54]。

人体动作的定位与识别旨在从图像或视频帧中完成对人体动作的解析，是应用中非常经典的任务之一，如图4 所示，煤矿井下完成对人及其动作的准确识别对煤矿安全生产有着重要意义。2020 年，ResNet50[55]被成功应用于矿工异常行为的识别任务中，其中将矿工的异常行为划分为3 个维度进行辨识；文献[56]应用数千条真实行为序列训练LSTM模型成功预测了短时间内异常行为的发生概率。

图4 煤矿井下人体动作识别效果Fig.4 Action recognition in underground coalmine

然而，上述较为成熟的模型仅仅只能应用于常规的识别任务，无法在空间和时间复杂性较高的复杂光学场景中开展视觉理解工作。为此，2020 年，注意力相关的非稳态动态定位算法[57]被提出，通过从其他提案中获取有用的信息来增强表示能力。2021 年，在跟踪学习检测（Tracking Learning Detection，TLD）框架的基础上，多特征融合的Mean Shift算法[58]被成功应用于煤矿井下巷道视频的动态目标跟踪任务，能够有效应对目标形变、复杂光照等挑战。2022 年，一项基于Transformer 的端到端动作特征提取模型[59]被提出，可以灵活地从视频中提取时态上下文信息，促进了该领域相关方法的应用。但是这些前沿算法在井下复杂环境中的应用尚不具备鲁棒性，主要受限于遮挡、光照、目标形变等复杂客观条件。因此，如何从算法模型层面有效突破此类场景的挑战也成为了近些年井下视觉理解相关研究的关键。

除了针对图像和视频数据进行分析，如何结合音频等多模态数据进行场景理解可以应用于井下机器人视觉系统等复杂业务场景，有着重要的作用，同时也面临着巨大的挑战。现如今，通过对全局图像特征进行搜索并建立与语句或实体的关系是一种典型的视觉场景理解方法[60]。除此之外，基于模板匹配[61]和基于注意力机制[62]的场景理解模型也对准确理解图像等数据有着促进作用。

2.4 三维视觉与空间重建

视觉三维感知技术可以有效应用于自动驾驶、AR（Augmented Reality）/VR（Virtual Reality）、自主飞行无人机等实际应用中[63]，在煤矿智能化中也将发挥重要作用[64]。

视觉数据的三维感知技术可利用多视图几何原理或神经网络进行空间的感知。在应用多视图几何原理进行基于视觉数据的三维感知中可应用SfM（Structure from Motion）技术或SLAM（Simultaneous Localization and Mapping）技术。SfM 与SLAM方法采用多模块设计架构，包括前端特征提取技术、后端整体或部分优化技术、回环与重定位技术[65]，SLAM 基本结构如图5 所示，其中包含多源数据采集、前端特征提取与位姿预估计、后端位姿优化估计、地图管理与维护、空间重建生成等模块，这些模块的计算可采用本地的三维感知计算，也可采用端云融合的方式，该技术可以用于矿井在线或离线的视觉计算与空间重建。各模块中也可应用神经网络进行实现，LF-Net、SuperPoint 等方案[66]应用神经网络实现视觉特征提取与表达，SuperGlue[67]实现了应用深度学习的特征匹配与验证。

图5 SLAM 基本结构Fig.5 Basic structure of SLAM

目前已有较多针对SfM 的研究成果，例如：VisualSfM[68]、COLMAP[69]等，VisualSfM 将SfM 算法的时间改进到O(n2)的同时又保留了较高的精度，COLMAP 进一步提升精度的同时实现了稠密三维空间重建。PTAM[70]首先将SLAM 划分为前后端的结构，实现了前端实时跟踪、后端滑动优化算法。这一结构深度影响了当前较多SLAM 算法的实现，如：ORBSLAM 系列[71]、LSD-SLAM[72]等。

在矿井环境应用SfM 或SLAM 技术面临着诸多挑战，包括环境照度低、照度不稳定、纹理缺失、纹理重复、多粉尘、多水雾、GPS 信号缺乏等不利因素，不仅影响视觉数据质量，也对激光雷达、IMU 数据的采集精度造成严重影响。为在矿井环境进行基于视觉的三维感知，当前研究主要从多传感器融合的角度进行实现，应用惯性测量单元、激光雷达、毫米波雷达、non-GPS/GPS 等多源传感器进行融合计算，包括MSCKF[73]、R3LIVE 系列[74]等。为在矿井环境中应用多传感器融合方案，李猛钢等[75]研究应用融合激光雷达与惯性测量单元的定位系统，实现了紧耦合的井下移动机器人定位功能，由于移动机器人算力与内存约束、激光雷达数据规模随运行时间线性增长，该类融合方法难以长时间运行。为解决矿井环境中实现准确、鲁棒、实时的三维感知定位技术，可行的解决路径有：①为使得系统具备未知环境语义级信息感知及应对动态环境挑战，应用深度学习替代或增强传统SLAM 部分模块成为可行方案，如DS-SLAM[76]方案；②考虑到三维感知技术计算密集、资源消耗较大、矿井终端的算力资源约束，应用端云协同技术或设计合理的优化方案以控制计算规模成为必然选择，如DM-VIO[77]等方案；③应用于大尺度场景时，为克服大场景伴随的计算困难，常采用包含设计合理的算法、应用分布式方案等进行计算的方案，如Davison 等[78]提出应用高斯信念传播算法进行分布式三维感知定位。

三维感知中一项重要的应用是利用视觉信息进行空间计算。在三维空间的表示方面，主要包含4类形式的地图，包括：①点云形式[79]，这类地图可以用作语义分析、辅助定位的高精地图等场景；②栅格地图[80]，可以用于位置环境的导航、避障等功能；③应用TSDF 隐式表示并进行Mesh 提取的地图表示[81]；④基于神经网络进行的可微地图表示，以Neural Radiance Field 技术[82]为代表。XUE 等[83]利用激光雷达数据进行ICP 点云配准并基于激光雷达SLAM 技术进行煤矿井下车场的高精地图构建，但该系统面临的实时计算困难的问题。考虑矿井主运等场景环境较为稳定，因此基于神经辐射场或栅格地图的可微表征形式可作为有效的矿井立体感知三维可视化形态；而用于辅助定位实现时，基于点云的表征三维形式结构简单、方便采集，因此可构造为高精地图的形式进行利用。

针对矿井环境的挑战，矿井环境应用视觉计算与空间重建技术有以下可行路径：①采用多源数据融合进行位姿估计，提升位姿估计精度与鲁棒性；②应用数据增强方法对视觉数据、IMU 数据、激光雷达数据进行预处理，提升数据质量；③探索在矿井壁面附加人工纹理，提升纹理丰富程度；④应用端云融合的SfM 方法，提升数据处理的质量与三维空间计算的精度。

2.5 感算一体与边缘智能

随着我国煤矿智能化的加速推进，以视觉感知为代表的矿井下端侧各类设备传感器数量会爆发式增长，产生的海量数据需要实时计算，同时，需要降低数据传输路径长度以有效减少带宽消耗。尽管引入5G 技术可以在一定程度减少延迟和降低带宽消耗、在矿井下应用也有成功案例，但考虑建设成本较高，同时未实质打破基于传统“云边”架构导致计算与数据距离远而产生延迟性问题的壁垒，因此传统架构方案已无法满足实际需求。将计算能力下沉到边端成为新的解决思路，由于矿井下环境特殊，算力设备或模组的安全性是重中之重，实际应用中，需要平衡算力与功耗，这也是目前边缘计算在矿井下应用不成熟的原因。针对以上分析，感算一体与边缘智能成为新的解决方案，引入智能感知、边缘计算、群体智能和模型轻量化等核心技术，能够在端侧就近提供高效的算力和智能应用。感算一体与边缘智能主要由感存算一体架构、模型轻量化智能计算及数据协同边缘计算技术三部分组成。图6 给出了感算一体与边缘智能架构图。

图6 感算一体与边缘智能架构Fig.6 Architecture of sense computing integration and edge intelligence

感算一体架构是集传感、储存和运算为一体的多元计算架构[84]，解决冯诺依曼架构的数据搬运的功耗瓶颈，同时与传感结合提高整体效率。在传感器自身包含的AI 存算一体芯片上运算，来实现零延时和超低功耗的智能视觉处理能力。

在矿井智能化应用场景中，由于受限安装环境及不稳定网络问题的影响，使边缘智能落地需要边缘智能传感器、边缘智能控制器、边缘智能服务器等大量智能算力设备。这些设备都是基于感算存或算存一体架构设计，内部采用边缘算力模组扩展方案，使在核心模组基础上灵活扩展接入专业的激光、摄像头、红外、WIFI 和5G 等设备，进而满足矿井智能产品的多样化。

在矿井边缘智能计算场景下，一方面，资源的限制难以满足大规模的算力需求；另一方面，场景的不同也对准确率有不同的要求，这给模型轻量化智能计算技术带来了极大的挑战。模型的参数在一定程度上能够代表其复杂性，并不是所有的参数都在模型中发挥作用。因此，高效的模型压缩技术是模型轻量化的关键所在。目前模型压缩加速方法主要分为两类：前端压缩和后端压缩。紧凑模型设计和蒸馏技术就是前端压缩的代表性算法。后端压缩主要包括量化、剪枝和矩阵低秩分解等。

知识蒸馏技术[85-86]，通过构建一个轻量化的小模型，利用性能更好的大模型的监督信息，来训练该小模型，以期达到更好的性能和精度。大模型称为教师模型，小模型称为学生模型，利用来自教师模型输出的监督信息，让学生模型学习迁移来自教师模型的监督信息，达到压缩目的；模型整点化方法[87]，通过参数修剪量化方法试图去除模型冗余和不重要的项，并且把权重从浮点变成整点，有利于AI 边缘服务器的快速计算，从而在矿井资源受限场景下设计出轻量级网络模型。

数据协同边缘计算技术的本质目的是协同使用靠近边缘侧的多个边缘设备的计算资源和网络资源[88]，发挥不同计算设备和网络设备的优点，增强系统整体效率和性能，共同完成计算任务，从而降低时延，平衡边缘节点配置低带来的功能限制和时延增加之间的关系。边缘的数据来源具有较强的局部性，需要与其他边缘协同以完成更大范围的任务[89]。为了充分利用煤矿井下多模态异构的算力设备，利用边缘计算调配子系统，对于接入系统的不同应用的设备和软件，提供统一算法接口和运行模式，对矿井视觉计算相关算法开发提供规范管理和技术支撑。

3 典型应用

3.1 矿井视频智能识别系统

随着煤矿信息化程度的不断提高，现有的煤矿井下视频监控系统大部分仅用于井下场景的显示和监控作用，在掘进、采煤、运输等环节及重点场景中还面临着许多的应用难题[90-91]。部分煤矿基础设施如运输系统、巷道等，由于分布地域广、设备管理维护工作量大，需远程化、智能化的管理模式支持，以提升煤矿的生产质量和管理效率，实现降本增效。

在实际的井下生产过程中，仅依靠人力的肉眼观察难以保障煤矿安全生产万无一失。近年来，虽然有大量的视频AI 分析与识别方法被提出并应用在日常生产管理中[92-94]，但是煤矿井下环境昏暗、采掘工作面粉尘大、图像/视频采集终端成像分辨率模糊、色彩辨识度低、前后景对比度差、电磁环境复杂等因素，导致经常出现少检、漏检等现象。目前煤矿最大的痛点和需求就是解决煤矿视频监控系统中由“看得见”变成“看得清”，并且通过矿井视觉计算变成“看得懂”。设计清晰明确的视频智能识别系统架构保证煤矿生产建设沿着安全、高效、绿色、低碳方向发展是煤炭领域最渴望的需求。全域智能视频识别系统应能实现对人员、装备、环境等监控视频进行智能分析，高效存储和交互数据信息及模型，并实现与煤矿其他相关子系统的联动与协同，从而提高煤矿生产质量和效率。

因此，构建煤矿智能视频识别分析系统，支撑煤矿的高效发展迫在眉睫。通过对煤矿井下目标快速检测、三维测量、深度学习等模型在煤矿应用场景的优化等共性技术研究，研制系列矿用视频采集分析装备，构建煤矿智能视频智能识别系统，实现不同场景的自动识别，并与生产设备进行联动控制。表1给出了矿井视频智能识别系统所涉及煤矿的综采系统、掘进系统、运输系统、提升系统和洗选系统5 个应用场景，每个系统都包含了4 个矿井视频智能识别系统的典型应用。这些应用主要使用了基于深度学习的检测、识别、分割、回归算法。考虑到煤矿井下的边缘算力的计算能力和开销，主要采用改进的轻量级YOLO 算法，并使用拉普拉斯算子和高斯滤波器来减少粉尘和水雾的影响，通过增加特征金字塔的层数获得更加丰富的信息，具有良好的抗干扰能力，同时加入注意力机制以增强跨维度交互信息。已有试验表明改进的YOLO 系统算法具有更好的检测精度和更快的检测速度和鲁棒性。图7 给出了上述算法的部分检测结果示例。

表1 煤矿视频智能识别系统典型应用Table 1 Typical applications of video intelligent identification system in coal mine

图7 矿井视频识别示例Fig.7 Mine video recognition examples

3.2 矿井视频智能预警系统

由于煤矿井下生产环境的特殊性，煤矿井下存在着“水、火、瓦斯、煤尘、顶板”五大自然灾害，威胁职工的生命安全。利用AI 和机器学习（Machine Learning，ML）技术，不断积累优化算法库、模型库和知识库，对煤矿风险进行迭代与推理，构建了符合煤矿安全风险指标体系和风险预警模型[95-98]。应用矿井视觉计算先进技术，充分发挥井下煤矿的硬件设施的价值，克服传统“人管人”方式面临效率低下的问题。通过加强矿井视觉技术研究，开发低延时、高精度、广覆盖的重大危险源智能预警防控平台，实现“人-机-环”的全面感知、实时互联、精准识别与智能协同。充分发挥矿井视觉计算技术在重大灾害风险识别中的优势，实时感知和判识重点部位及全局安全态势，形成风险告警与异常事件处理流程，对于提升煤矿的安全生产水平有着重要的意义。

围绕构建煤矿视频智能预警系统，重点针对煤矿场景训练数据样本少、正负样本不均衡，模型容易出现过拟合现象，导致模型泛化能力弱的问题，研究样本增广、难负样本挖掘等算法，增加模型训练正负样本数量，提高目标检测准确率；针对煤矿井下弱光照与强干扰引起目标灰度变化、高动态引起姿态变化与尺度变化等问题，研究光照、姿态与尺度自适应的跟踪滤波器技术，提高目标跟踪算法的鲁棒性；研究融合多特征的多目标匹配跟踪算法，提高多姿态、多尺度的跟踪运算效率。

通过上述各种算法的研究与开发，实现对视频图像中的人员和装备的行为与状态进行智能分析，根据不同场景，实现对煤矿井下常见的“三违”隐患及装备运行状态的识别分析，实时发现违章行为及其它安全隐患。同时，在拥有严格安全管理规范的煤矿生产区域中，平台还可对工作面、场区、车辆等装备进行实时智能安全管理，通过自动化危险预警降低安全事故的发生率。全面实现对实体煤矿井下的数字化管理，极大提升管理运维效率，赋能煤矿安全与运营管理的智能化。

表2 给出了矿井视频智能预警系统所涉及的五大应用，主要针对煤矿人、车、物的综合管理，提供关键岗位、人员管理、特定场所、入口出口、车辆管理等功能。这些应用主要采用基于深度学习的目标检测和跟踪算法。面向煤矿复杂环境，普遍采用动态阈值的YOLO 算法，并结合动态自适应背景建模，大幅加速了人体检测效率；在多目标跟踪过程中，可以采用带权重的匈牙利匹配算法，通过动态阈值保留检测人员的低分检测框，利用低分检测框与轨迹的相似性，降低漏检并提高轨迹连贯性，进而有效缓解人像重叠带来的跟丢、轨迹碎片化等问题，同时使用高效的检测模型和匈牙利匹配数据关联策略，进一步提升跟踪性能。图8 给出了矿井出入口多目标人员跟踪的效果。

表2 煤矿视频智能预警系统典型应用Table 2 Typical application of video intelligent warning platform in coal mine

图8 多目标检测跟踪示例Fig.8 Multiple object detection and tracking

3.3 矿井机器人定位与导航系统

煤矿开采常在数百米、甚至超过千米的地下，空间昏暗模糊，人员进出常具有诸多不便，降低作业效率，也影响救援工作的实施。此外，在煤矿开采的过程中，井下也经常存在着瓦斯、煤尘、水、火等许多潜在的风险，威胁着作业人员的人身安全。具有自主定位与导航能力的煤矿机器人在开采、运输、巡检等环节可替代人工作业，具有高效率、高可靠性、低成本、低风险的优点，可降低煤矿开采中的风险，较少人员伤亡，因而得到越来越多的应用。

当前可用于矿井环境的机器人自主定位技术主要包括惯性定位技术、视觉定位技术、激光雷达定位技术等。激光雷达定位在巷道场景特征点少时，低线束雷达建图稀疏、高线束雷达成本昂贵[99]；惯性定位易受温度、零偏的影响，产生累积误差；而视觉定位则具有价格低廉，信息丰富等优点，可以作为主要定位手段，或作为其他定位技术的补充。图9 给出了矿井视觉定位导航系统流程，由传感器信息获取、图像预处理、视觉里程计、后端优化与建图等模块组成。

矿井环境通常存在着大量粉尘，而且存在着狭窄、潮湿、光线昏暗等特点。加之人员或设备上的移动光源，矿井环境的光线相比地面环境更为多变。这使得矿井图像存在着低照度、低对比度、颜色不均匀的特点。这些特点导致了矿井图像难以满足光度不变假设，也会影响特征点的提取与匹配，使得定位性能急剧下降。因而，在进行矿井环境的视觉定位之前，有必要对矿井特殊环境的图像进行针对性的预处理，提升输入图像质量。

前端用来估计帧间的位姿变换，视觉里程计（Visual Odometry，VO）是基于视觉的前端，融合了IMU 的VO 则称为视觉–惯性里程计（Visual-Inertial Odometry，VIO）。根据使用的相机数量与种类不同，视觉里程计一般可分为单目、双目、RGB-D 等方法。视觉里程计一般也可分为基于特征点的方法和不使用特征点的直接法。基于特征点的方法首先对图像进行特征提取与匹配，进而估计两帧图像之间的位姿变化。整体来看，基于特征点的方法对光照变化、遮挡与大视角的变化等情况具有更好的鲁棒性，但这种方法得到的地图往往是仅包含特征点的稀疏地图，还存在着对纹理缺失的环境鲁棒性不强等的问题，难以用于机器人导航等场景。直接法无需进行特征提取，而是基于光度不变假设，通过最小化重投影误差，得到帧间位姿变换的估计。相比基于特征点的方法，直接法对纹理缺失环境的鲁棒性更强，而且更易于构建稠密、半稠密地图。但由于依赖于光度不变假设，直接法易受光照条件变化的影响，而且对视角变化较大的场景鲁棒性较差。

后端的目的是通过滤波、优化的方法，优化位姿，提高位姿估计的一致性，并在融合了回环检测结果的基础上，提高位姿估计精度。后端大致可分为基于滤波的方法和基于优化的方法。基于滤波的方法通常利用扩展卡尔曼滤波（Extended Kalman Filter，EKF）等方法，对前端的估计结果进行后处理，提高估计结果的精度。基于滤波的方法计算效率高、实时性好，但估计精度较低。此外，由于该类方法基于一阶马尔可夫假设，难以实现回环检测，无法保证全局最优，使得估计精度难以进一步提高。基于优化的方法的优化过程一般称为捆集调整（Bundle Adjustment，BA）[100]，它将历史时刻的状态看作优化变量，利用运动方程、观测方程等作为约束，通过最小化误差，优化每时每刻的状态估计。相比基于滤波的方法，基于优化的方法可以融合回环检测的结果，在检测到的回环之上进行优化，可以得到更优的估计结果。

目前的煤矿机器人主要通过激光雷达、电子标签、惯性导航等技术实现自主定位导航，主要用于辅助运输、巡检记录、抢险救援等，代替人工进行物料的运输、环境声音和温度等数据的采集与监视，进行清堵、清淤、清道作业，进行被困人员的自主搜救工作等。矿井视觉定位除了为机器人的移动提供必要的位置信息，辅助实现运输、巡检、救援等功能以外，还提供比激光雷达等更丰富的纹理信息，可辅助进行环境分析与救援目标的搜寻，也可用于矿井环境的三维构建，实现对巷道形变等风险的监控。

3.4 矿井临场感操控系统

大型采掘装备的远程操控是实现煤矿无人化开采的关键技术。然而，井下恶劣环境，低照度、高粉尘使得远程操控过程中视频监控看不清、参照物少、无空间感等问题。这些问题造成了操作人员在进行远程操控装备过程中的临场感差，操作效率低，操作准确性差。通过矿井视觉技术重建井下工作环境、呈现全景现场和增强环境感知，给操作人员呈现逼真的工作现场，增强临场感，提升操作效率，提高操作准确性，如图10 所示。

图10 矿井视觉计算增强临场感技术路线Fig.10 Technical route of mine visual computing to enhance presence

三维重建煤矿井下工作环境[101-102]。应用视觉计算技术中的三维重建技术，通过激光、视觉、惯导等多源数据融合对井下工作环境进行三维重建，实时重建生成的虚拟工作环境与装备虚拟样机通过大地坐标系进行位置匹配。操作人员通过在虚拟工作环境中对虚拟装备的操控完成对井下真实装备的远程操控。这种通过视觉计算和虚实映射的远程操控的方式使得操作者在操作过程中如身临其境，实现了采掘装备视觉临场感操控。

视频拼接呈现全景现场[103]。应用视觉计算技术中的视觉感知与增强技术，通过对井下低照度视频进行噪声滤波、亮度增强、快速去雾等处理，实现对光照较低、亮度不均、纹理模糊、噪声较多的视频进行增强，将增强后的位于不同点位的多路视频信号进行全景视频拼接，形成对整个采掘工作面环境的监控视频。操作人员通过对增强拼接后的视频感知现场工况，操作采掘装备进行工作，可以大幅增强操作人员的临场感。

虚实融合增强环境感知[104]。应用视觉计算技术中的三维视频融合技术，通过三维虚实注册，将预先根据参数建好的矿井三维模型与视频图像进行融合，在融合后的视频中通过三维标注显示矿井的参数信息，为操作人员提供多角度多参数的视频信号和语义信息。三维视频融合技术使位置信息与视频紧密联动，增强了操作人员监控和操作的临场感，有效提高了环境监控效率和装备操作准确度。

矿井视觉计算中的三维重建技术、视觉感知和增强技术、视频融合技术，通过对矿井环境重构、视频图像的增强和虚实数据的融合，增强了操作人员对远程环境的感知能力，使其在环境监控和装备远程操过程中具有较强的临场感和较好的操作体验，实现环境和装备的远程精准操控，临场感远程操控使作业人员可以远离危险生产场景，将会成为无人化矿井的重要技术支撑。

4 发展趋势与展望

为促进煤炭行业高质量发展，煤矿智能化、无人化建设已经成为煤炭行业发展的必然趋势，矿井视觉计算技术及系统也将在其中发挥越来越重要的作用。但是，目前矿井视觉计算在煤矿井下很多应用场景中还存在诸多技术难题：

1）煤矿井下环境的复杂性给矿井视觉计算应用带来巨大挑战。由于煤矿井下环境照度低、光照不稳定、纹理缺失、纹理重复、多粉尘、多水雾等不利因素的影响，视觉计算相关算法目前在煤矿井下只能有效应用于局部条件好的场景。为适应煤矿智能化的进一步发展需求，还需要深入研究并突破煤矿井下复杂环境下的视觉计算理论和方法。

2）煤矿井下数据采集手段和计算方式已经严重阻碍了矿井视觉计算的应用。煤矿井下目前大多采用单一视觉传感器采集图像或视频上传至云端服务器进行处理。由于视觉传感器自身的限制，在煤矿井下光照不充分的场景，单一视觉传感器很难获取全面有效的数据，因此，需要进一步研制组合传感器。另外，数据远距离上传至云端，会造成数据传输拥塞，反映延时，不能满足实时应用场景的需求。虽然近年来，边缘计算已经逐步进入煤矿，但是煤矿井下轻量化算法的支撑还有限，还缺乏局部协同处理数据的能力，更不能应对融合数据处理的需求。

伴随着上述问题的不断突破和矿井视觉计算与采矿工艺的深度融合，新的矿井生产模式变革也将出现，其中，矿井增强现实/混合现实（Augmented Reality/Mixed Reality，AR/MR）交互应用和平行智能采矿是2 种非常重要的发展方向：

1）矿井增强/混合现实交互应用。矿井AR/MR交互将基于矿井视觉计算技术，特别是煤矿井下受限空间的环境感知与图像增强、语义识别与理解、空间重建与定位、语义模型恢复与矢量化技术，采用微服务架构，结合矿井大型模型端云协同实时渲染技术，建立统一高效的矿井视觉计算、渲染与交互应用工作流。综合微服务架构和AR/MR 相关技术，将可以实现煤矿井下综采/掘进工作面、巷道、水泵房、变电站等典型场景的AR/MR 交互应用。

2）平行智能采矿。平行智能采矿重点将针对新时代下我国矿区智能化发展诉求与矿山无人化进程中遇到的复现难、协同难的技术问题[12]，将结合平行智能理论与智能采矿技术，基于矿井视觉的环境感知与建模技术，设计平行矿井数字仿真技术、远程临场感操作技术、矿井通信与协作技术，构建矿井平行智能采矿系统，推动煤矿井下生产朝智能化、无人化发展，减少现场人员数量，提高工作效率。

5 结论

矿井视觉计算主要通过构建煤矿井下环境的感知、描述、识别和理解计算模型，以使计算机具有通过图像或视频感知煤矿井下三维环境信息的能力。本文首先围绕煤矿井下视觉计算的基本概念，重点比较分析了计算机视觉与矿井视觉计算的异同，总结提出煤矿井下视觉计算的组成架构体系；然后，详细介绍了煤矿井下视觉计算所涉及的视觉感知与增强、特征提取与特征描述、语义学习与视觉理解、三维视觉与空间重建、感算一体与边缘智能等关键技术，并给出视觉计算在煤矿井下的典型应用案例；最后给出煤矿井下视觉计算的发展趋势和展望。随着煤矿井下视觉计算理论的不断突破和完善，笔者相信矿井视觉计算在煤矿智能化发展中将发挥越来越重要的作用。