铁路机车智能音视频系统的应用研究

2019-11-08熊伟国

数字通信世界 2019年10期

熊伟国

（上海铁路机车车辆发展有限公司，上海 200000）

1 立项背景

目前，各机务段都配备了机车乘务员录音笔、机车视频监控，以监督乘务员落实日常作业标准。但由于视频监控、录音笔装置是不间断记录，每天产生海量的音视频数据，使转储后地面分析人员工作量巨大，分析的数量相对占比较小，且是事后管理，发现问题时已构成既成事实，造成事故时已无法挽回。经对五个铁路局集团25个机务段不完全统计，仅2018年全年因乘务员未标准值乘作业而引发事故多达32起。因此有必要通过技术手段在线实时智能识别并规范乘务员标准化操作，提升视频分析效率，并在发生问题时给予报警提示，防控风险于前期。

2 存在难题

车内环境照度变化大，还有司机姿势的变化，如何实时获得准确、清晰的脸部、眼部、手势图像是技术难点之一；无需事先进行图像注册的情况下，就准确定位面部、眼睛、手势，实时地提取各种动态参数并进行正确图像识别是技术难点之二；使用的实时性要求在快速算法下达到足够的识别率是技术难点之三。

3 主要研究目标

装置需实现功能包括：能够依据LKJ公里、信号机、车站坐标，在线识别乘务员标准化作业执行情况，当乘务员简化、违章作业时在线提醒乘务员，并生成数据记录问题。具体如下：

（1）预设关键项点，实时对比乘务员值乘过程中手势合规程度，在线提醒乘务员规范操作行为，并记录不规范行为报警视频。

（2）预设关键项点的乘务员“呼唤应答”标准语句，实时对比乘务员值乘过程中语音呼唤应答标准，在线提醒乘务员使用规范语音标准作业，并记录不规范语音报警音频。

（3）结合已开发成熟的“机车乘务员途中状态预警提醒装置”，实时监测乘务员行车工作状态，当出现间断瞭望行为时，立即语音提醒，并记录报警视频。

（4）通过体感手环，实现可穿戴式乘务员体征检测设备，记录机车乘务员在值乘前的睡眠时间，心率血压体征等精神状态指标。

（5）智能地面分析软件。通过智能地面分析软件，快速生成报警报表，具备检索回放以及统计分析功能，按月生成车队、车间报表，以及重点区域、时段分析，方便管理者分析使用。

4 研究方法和技术路线

本项目主要研究的内容是实现车载音视频装置采集机车乘务员值乘实时影音，并在线识别乘务员语音内容与呼唤应答标准用语进行比较，在线识别乘务员动作行为与手指眼看标准行为比较，在线识别乘务员瞭望状态间断瞭望实时提醒三大主要功能。系统框图如图1所示：

4.1 手势识别

4.1.1 摄像头信息的采集和预处理

摄像头信息的采集和预处理，要进行手势信息的获取，首先需要拥有一定的硬件，如数据手套、摄像头等。对于软件方面则要安装相应的驱动程序和了解它们的API。OpenCV提供了一系列通用而且简洁的外部接口以便于实现以上的工作，对摄像头操作代码流程如图2所示：

图1 系统框图

图2 摄像头操作代码流程

图3 计算面积的步骤

4.1.2 身体躯干的区域的提取

（1）肤色种子的获取。在单击鼠标时获取鼠标相对图像位置的颜色，处理这个图像所在控件的点击事件。CStatic控件还需要首先将其Notify属性设置成True，以指定这个控件在单击和双击时对父级控件发出通知。获取鼠标相对于图像的坐标可以通过先获取鼠标的屏幕坐标，再将该坐标转成相对于控件的坐标来实现。

（2）基于躯干与背景在一定颜色模型上的区别的初步提取。根据不同颜色模型，对转换以后的对躯干的范围采用不同的提取方法。用原始的rgb颜色模型的图片来提取，可以用r、g、b三种通道各自与肤色种子的色差的最大值来判定图像上的某点是否在躯干上；如果用颜色模型为一个亮度通道+两个颜色通道的图片，则可以通过先遍历整个图像，把每一点的像素归化到[0，255]的整数范围中，再将两个颜色通道移到统一的位置进行统一的色差最大值判定。

（3）外部孤立点的消去。一些被选中的比较小的孤立区域，它们的颜色与躯干的颜色相近，但是其共同点是都在躯干的后面，而且所占的面积比躯干要小。为此可以通过获取最大的连通区域的方法来去掉一些不合理的选取。当一个点首次到达一个连通区域（未计算）时，即开始计算这个区域的面积，算完该面积后再进去这个区域（已计算）将不会再重新算。计算面积的步骤如图3所示：

4.1.3 身体躯干的关键点的提取

躯干的重心通过选取图片（如memopic）中躯干的区域的内的x和y坐标的平均值来实现；躯干的面积可以反映躯干离摄像头的距离。躯干的边缘通过像素与其旁边相差的大小来确定，但为了保持边缘的宽度在1像素内，仅需判断这个像素点与其右方和下方的颜色是否相同即可。

4.1.4 基于AI深度学习识别身体躯干

自动编码器的核心关键是将原始图像（视频）输入信号进行编码，使用编码后的信号来重建原始信号，使得两者之间的重建误差最小。通过将原始信号编码成另一形式，能够有效地提取信号中的主要信息，能够简洁地表达原始图像（视频）的特征。

4.2 麦克风阵列

4.2.1 近场麦克风阵列信号模型

在近场情况下，必须采用精确的球面波前模型，来代替远场的平面波前模型。声波在传播过程中要发生幅度衰减，其幅度衰减因子与传播距离成正比。对于远场声源，麦克风阵元接收的信号之间幅度差别相对很小，可以忽略不计；但对于近场声源，麦克风阵元接收的信号之间幅度差别较大，必须予以考虑，其示意图如图4所示。

图4 近场麦克风阵列信号模型

图5 谱抵消的具体做法

4.2.2 谱抵消去噪及语音检测

为了简单起见，假设噪声为加性白高斯噪声（AWGN），且在各个麦克风之闻互不相关。但即便是这样，在通常情况下，嗓声的参数也是未知的。而且当环境改变时，噪声参数都会变化，因此必须根据噪声的变化实时地去噪，面谱抵消就是这样一种去噪方法。谱抵消的具体做法如如图5所示：

4.3 软件开发

软件开发工作分为六个阶段，可行性研究及开发计划、需求分析、软件设计、系统实现、测试与完善。

4.4 算法开发

算法由摄像头输入图像开始，依次需要经过图像预处理，需要识别对象进行特征提取，最后通过样本数据库进行对比，识别算法获得识别结果。

4.5 地面分析软件

研发地面分析软件，对值乘全过程的音视频录像进行“摘要”化剪辑分析，实现数据检索回放功能以及统计分析功能，方便各级管理者分析使用。

5 结束语

“乘务员值乘标准化智能分析装置”基于技术成熟的高速DSP嵌入式处理系统和智能音视频识别、智能视频分析、机器视觉检测技术，结合岗位作业标准化制度要求，及机车运行环境，对值乘司机作业中行为动作进行分析，发现行为异常或不符合机务值乘制度要求的行为时，系统及时发出语音报警提示，纠正司机作业行为，起到实时有效互控的目的，减少和防止因司机未落实岗位作业标准化，导致的行车事故的发生。不仅维护行车调度秩序，而且减少和避免对企业和个人造成经济损失，可产生良好的社会影响，为提高机务系统安全风险管理水平和企业科技创新发展提供有力的技术手段。