APP下载

基于注意力机制的手术器械多任务追踪方法

2022-07-01柯水洲

关键词:多任务手术器械器械

蔡 琼, 王 浩, 柯水洲

(1.合肥工业大学 信息化建设发展中心,安徽 合肥 230009; 2.合肥工业大学 管理学院,安徽 合肥 230009)

0 引言

微创手术是现代手术室实施手术的主要途径。精密的手术器械及内窥镜可以辅助医生在狭小的体腔空间中完成较为复杂的手术操作。同时由于微创手术创口小,手术实施时间及病人恢复时间大大缩短[1]。在微创手术实施的各个阶段中,由于术野空间有限,为了完成复杂的手术操作,需要多种类型手术器械的置换[2]。此外,由于手术过程中个体的差异性,器械还需不断调整位姿和角度,以避免伤害正常身体组织[3]。但手术过程受制于主刀医生经验和病患个体差异,手术过程中难以避免存在器械置换错误和位姿错误问题。准确地识别出当前的手术器械及位置,可以有效避免这一问题[4]。同时在微创手术实施过程中,由于操作的瞬时性,需要识别追踪算法快速地响应手术操作[5]。因此,手术器械的快速追踪是智能手术室的一项重要研究问题。

针对器械追踪问题,国内外学者对该问题开展了一定的研究工作,并在实际数据中取得了一定的应用效果。文献[6]提出了基于关键点的手术器械定位算法,将腔体视作一个球体的不规则内切三维体,通过吸引均匀性和异向相向性实现了3D的器械追踪;文献[7]将微创手术器械视作物联网环境中的个体,通过将RFID(radio frequenoy identification)融合到手术器械中实现了拥挤环境下的快速器械定位追踪。但这些方法对数据格式有严格要求,需要依赖较多的外部因素,普遍存在着应用普适性差和操作复杂度高的问题。

由于器械种类较多,为了寻求鲁棒性更强的器械追踪方法应用与临床,基于机器学习的算法取得了较好的效果[8]。文献[9]通过将器械信息进行在线级联,并融合基于二元随机Haar特征的特征描述符,利用随机森林的方法实现了可靠的器械追踪;文献[10]使用了基于编解码结构的神经网络方法,实现了实时的器械分割与位置标记。

已有方法普遍存在的问题是将手术器械的追踪问题转变为常规的图像识别问题,而忽略了手术过程中器械末端执行器的位置及边缘对手术效果的影响。同时,难以对器械定位和器械边缘分割同时达到较好的效果进一步限制了临床中的应用。为了解决该问题,本文基于RCNN(Region-based Convolutional Neural Network)网络,针对微创手术实施过程中普遍存在的手术器械设计了具有实时分割和定位能力的多任务追踪能力的器械追踪算法,通过设计具有注意力机制的注意力单元,赋予RCNN模型中的RPN(Region Proposal Network)模块提取器械边缘特征的能力,有效地提高了模型对细微器械末端执行器的识别能力,在不提升网络复杂度的情况下改善了RPN模块候选区域的性能,从而改善了整体网络的训练效果。同时,本文引入重新设计的FRL(focal region loss),解决因手术器械所占前景区域较小导致的追踪性能较低的问题。通过上述工作,本文在真实的临床数据中进行了测试,进一步验证了该方法的有效性。

1 相关工作

1.1 RCNN网络结构

RCNN网络是对基于区域候选(region proposal)的一类的网络的统称,一般包含区域候选和目标筛选两阶段的网络。与一阶段的YOLO[11]、SSD[12]等方法相比,RCNN网络结构层数更深,通过将模型分为2个阶段,使得各个阶段的多层的卷积层和池化层能够更加关注于当前阶段的任务,从而实现更高效的模型训练和泛化能力。

RCNN网络最早由文献[13]提出并用于实施传统图像分类,其核心思想是将复杂的图片视作多个分类目标组成的区域,通过对特定区域实施分类,降低因重叠和交叉导致的误分类。其中,RPN负责区域选定,而后端的网络负责进一步的分类任务。在RCNN的基础上,基于空间金字塔(space pyramid pool,SPP)的Fast RCNN[14]和基于RPN的Faster RCNN[15]被相继提出来,其核心思想都是通过改进区域候选的策略,降低后续对候选区域筛选的压力。

1.2 注意力机制

深度学习中的注意力机制最早受到人类注意力的启发。其核心思想是通过模拟人类在大量信息中获取关键信息的过程,使得神经网络能够快速定位到关键信息,减少神经网络模型在训练过程中对无关信息的关注程度,提高模型在大规模数据或者背景信息复杂数据上的抗干扰能力。

注意力机制最早应用于基于循环神经网络的自然语言处理领域,通过对语句信息转换的词向量应用不同的注意力,可以改进RNN子模块对单一词向量的关注程度,提高对关键词的响应能力。注意力机制在图像领域主要应用于基于卷积神经网络(conoldutional neural net work,CNN)的模型中。在CNN中,注意力可以视作一个独立单元,对特定的图像特征进行处理。类比寻址的策略可以改进最终输出向量的影响程度,提高对特定区域的感知能力。

随着注意力机制的发展,主流的CNN注意力机制可以分为基于时空的和基于通道的注意力。其中,基于时空的神经网络主要是将视觉信息视作一个大的区域,通过将注意力的寻址目标放在寻找区域中,降低无关背景信息的影响[16]。而基于通道的注意力网络则是将检测目标视作单一个体,将注意力的寻址目标放在对单一个体的部分特征的寻址上,并综合该个体不同位置的特征信息,给出合理的预测结果。因为基于时空的注意力机制有利于消除无关信息的影响,所以通过融合基于时空的注意力机制,可以降低RCNN模型的后续筛选压力。

2 网络结构

2.1 RCNN基本结构

本文的RCNN网络的骨干架构来源于Faster RCNN[15],其结构如图1所示,包含一个基于CNN的后端用以提取图片特征。后接一个区域候选网络将CNN后端(CNN backbone)特征图作进一步处理,从而将特征图划分为大小不一的候选区域。为了后续的器械识别任务,还需要进行RoI Align运算,以将不规则大小的特征图进行进一步规整。

图1 RCNN网络基本结构

双线性插值是RoI Align实现图像规整的主要途径,RoI Align中一个像素的计算过程如图2所示。RoI Align首先将图像分割为目标尺寸大小,接着对于目标大小的各个像素,由当前像素相邻的4个像素点进行双线性插值,从而完成目标特征图像素值的计算,然后交给后处理模块。

图2 RoI Align 元操作

后处理模块可以根据任务的不同替换为多种神经网络,一般可以由全连接神经网络进一步处理特征图,并依据前述的RPN提供的区域得到分类结果和边界预测结果。文献[16]所提出的Mask RCNN网络,设计了基于注意力机制的RCNN网络,并实现了手术器械多任务追踪。

2.2 具有注意力的RPN

为了降低微创手术中腔体背景图像对前景器械图像的影响,本文将注意力模块融合至RPN网络中,替换了原有RPN网络中的残差块。其注意力机制如图3所示。

图3 注意力模块

与传统使用单一注意力单元的方法不同,本文使用了2路信息实现注意力模块,分别为注意力分路和残差信息分路,以避免注意力模块直接堆叠导致的模型预测性能下降[17]。本文采用合并跳层的机制,将非注意力部分的信心进行增强保留,避免注意力信息向非关键区域信息的偏移,并设置了激活函数将注意力信号进行放大,避免边缘信息的丢失。

注意力由残差掩膜实现,残差掩膜如图4所示,它由编解码结构组成,由多个残差块叠加组成,其中上采样部分实现了感受野的扩充,从而提高模块对关键信息的识别能力。

图4 残差掩膜

2.3 多任务损失函数

在构建了上述网络结构后,最终需要实现的目标包括3个部分,分别为边界的预测、区域的掩膜预测以及区域所属的分类。为此,本文在原有损失函数的基础上改进了损失函数以增强RPN网络对细粒度特征的识别能力。(1)式中的损失函数Lcls、Lreg和Lmask分别表示分类预测、边界预测以及掩膜预测的损失。

Lloss=Lcls+Lreg+Lmask

(1)

其中

Lcls=Lrpn-class+Lrcnn-class

(2)

Lreg=Lrpn-bbox+Lrcnn-bbox

(3)

由于类别识别受到候选区域以及最终RCNN的分类两部分的影响,(2)式用于计算类别的损失。本文用Lrpn-class表示RPN网络中对前景和背景分类的损失,它是一个二元的损失,其计算公式为:

(4)

(5)

其中:ti={tx,ty,tw,th}为边框的中心点位置及长宽;Lreg为L1损失;Nreg为非物体的边框总数量;λ为当前类别所属框的数量。对于掩膜损失,本文仅使用Sigmoid函数即可计算诸像素的掩膜损失。

(6)

其中,γ为训练中可调优的参数。

3 实验结果与分析

3.1 数据集

为了验证改进RCNN的有效性,本文在最新的公开数据集中进行验证,该数据来源于2019年医学图像计算和计算机辅助干预年会的内窥镜视觉分割分会(MICCAI 2019 EndoVis),由德国海德堡大学手术外科专家提供,数据来源见https://robustmis2019.grand-challenge.org/,其中包含从3个不同手术中得到的10 000例注释后的1 920×1 080分辨率的图像,训练集5 983例,测试集4 017例。每个例子中均使用了1~3种不同的手术器械,并提供了2种掩膜。掩膜1:RGB分为背景(0,0,0)、轴(160,160,160)、机械手(70,70,70);掩膜2:RGB分为器械(0,0,0)、器械2(20,20,20)、器械3(40,40,40)。

本文参考掩膜1标注将手术器械分为机械轴、机械手2类进行分类、定位、分割。参考掩膜2进行追踪和分类。

3.2 数据预处理

为了实现多任务追踪,本文使用LabelMe工具对数据进行进一步标注得到json文件,如图5所示。

图5 标注数据

由于原始数据分辨率较高,在不影响实验结果的前提下,本文将数据分辨率降为640×480,并进一步转换了数据格式。本文依据图4所示的json文件记录标签及每个点的坐标,制作了掩膜文件和对应的类别标签,其中point为边缘关键点,label为对应的类别。原始内镜、提取掩膜的图像如图6所示。

图6 原始内镜、提取掩膜图像

3.3 参数设置及评估指标

本文使用ResNet-101网络作为CNN后端网络,并将RPN网络设置为由注意力模块替换残差块的ResNet-50网络,批处理值设置为1,即GPU上一次训练1张图片,每张图片提取100个Region,每轮迭代(共40个epoch)进行100次训练。实验采用了Keras实现,实验平台为Intel Xeon @ 2.16-GHz CPU和4块 NVIDIA GeForce Titan X GPU加速训练。在训练过程中,每轮迭代首先训练顶部层(掩膜分支)的网络参数,然后整体训练所有网络参数。

实验中,当识别出的掩膜与标记的掩膜重合率高于80%时,视为一次有效的识别。本次实验采用目标检测领域公认的准确度(precision)、召回率(recall)、平均精度均值(mAP)来判别任务完成的优劣。

(7)

(8)

(9)

(10)

其中:TP(true postive)为待检测目标被正确预测为目标类;FN(false negative)为待检测目标没有被检测出;FP(false postive)为预测出了与真实目标不一致的结果;AP值为以召回率为横坐标、精确率为纵坐标的曲线所围成的面积;MmAP为对应每一类AP值的平均值;N为所有目标类的数量。

3.4 结果分析

3.4.1 多任务表现

本文在公开数据集上进行了实验,部分实验结果如图6所示。本文分别选取了一个背景色彩单调和背景信息丰富的图像帧以验证模型在变换场景下的鲁棒性,如图7所示,本文所提出的模型可以在背景信息不同的场景中准确地识别出器械的关键关节和所对应的边界区域,同时可以给出准确的分类,有效支撑微创手术过程中的定位、分割和分类多任务工作。在综合数据集上,模型最终得到了87.65%的准确度和79.35%的平均召回率。

图7 多任务分割效果

3.4.2 模型总体性能分析

本文对模型的总体训练过程进行了进一步的分析。以模型最终的综合损失函数为例,如图8所示,本文改进后的模型损失函数相对于原始的Mask RCNN损失函数有更快且更稳定的收敛速度。

图8 损失函数表现

同时,原损失函数有着较高的最终收敛值,这主要是因为在未考虑背景前景重要性的前提下,基于RPN的目标选择网络在目标提取阶段优先选择特征相似的区域作为目标候选,进一步导致在遇到前述RPN网络、在同时选取了包含器械反光和黏膜内壁反光的场景时,分类模型难以分辨该区域是否属于器械,从而导致了损失函数在最终计算时的异常表现。为了进一步分析这个现象,本文绘制了训练过程中的掩膜损失和边界回归损失,分别如图9、图10所示。

图9 掩膜损失函数表现

图10 边界回归损失函数表现

从图9可以看出,在模型训练的初期阶段}12轮迭代),改进的模型并未取得更好的效果,这主要是由于原始的掩膜损失函数是直接进行掩膜的运算,在未进行大规模的参数优化前,不包含可训练参数的损失函数的损失值要优于使用随机数初始化的改进损失函数。但随着模型的进一步迭代,具有可训练参数的损失函数已经对大部分数据进行了遍历,损失函数的可训练参数有了更好的普适性,使得模型的掩膜损失能够快速下降,取得更好的训练效果。

从图10可以看出,因为边界损失与分类损失直接相关,所以边界回归的损失与整体损失函数的表现基本一致。但由于未考虑到了掩膜损失,其损失值要低于总损失。

3.4.3 对比实验

在验证了本文所提出模型改进策略的有效性之后,本文进一步将所提出的改进的RCNN方法与最新的基于RCNN的Mask RCNN方法进行对比,分别选取光线较强和较弱的2个场景进行对比。原图、基于改进RCNN的多任务检测效果和基于Mask RCNN的多任务检测效果如图11所示。

从图11可以看出,在相同的光照条件下,本文改进的RCNN模型可以得到更好的多任务识别效果。同时,Mask RCNN方法的效果在对光照效果更为敏感,在第2例光照条件较弱的环境中难以准确识别出器械边缘,也进一步验证了基于注意力机制的RPN对于候选区域优化的有效性。

图11 掩膜损失函数表现

本文接着在准确度、召回率和平均精度均值3个指标上在该数据集上进行验证,实验结果见表1所列。表1中,改进的RCNN方法在3项指标上与已有的文献[15]、文献[16]中的工作相比均有更好的性能,进一步表明了改进的RCNN方法的有效性。

表1 不同方法的效果对比

4 结论

本文提出基于改进RCNN的微创多任务手术器械追踪方法,通过设计基于注意力的RPN网络和改进的损失函数,实现了微创手术中器械的多任务跟踪,在真实的临床数据展开实验,取得了66.4%的准确度和59.5%的召回率,并在mAP上提升了2%,表明改进的方法更具有鲁棒性。未来将进一步拓展该方法应用于其他数据集,进一步提高模型的适用性。

猜你喜欢

多任务手术器械器械
数字时代的注意困境:媒体多任务的视角*
供应室手术器械消毒工作进行一体化管理的效果评价
手术器械预处理在手术室的应用
达芬奇机器人手术器械标准化手工清洗操作流程研究
结合自监督学习的多任务文本语义匹配方法
面向多任务的无人系统通信及控制系统设计与实现
精密器械集中处置风险防范
肌肉锻炼机
基于Reworks操作系统的信息交互软件设计
健身器械