目标关联学习的端到端多目标检测与跟踪联合方法

2022-05-18殷一皓吴浩铭石美凤

重庆理工大学学报(自然科学) 2022年4期

冯欣，殷一皓，吴浩铭，石美凤

(重庆理工大学计算机科学与工程学院，重庆 400054)

0 引言

随着人工智能的不断发展与计算机硬件性能的逐渐提高，以深度卷积神经网络为基础的深度学习方法在计算机视觉的各个应用上都取得了极大的成功，自动驾驶视觉感知是深度学习技术得以大力发展的应用领域，其包含目标检测、多目标跟踪等技术，能够实现目标位置、移动方向、速度的自动感知，为驾驶车辆自动避障、目标交互等重要应用提供有力的技术支撑［1］。

多目标跟踪从跟踪方式上主要分为在线跟踪与离线跟踪。其中，在线跟踪要求当前帧的跟踪结果只与当前帧及前帧中的信息相关。而离线跟踪的跟踪可利用所有帧的信息，从而能够获得全局最优解。因此，在线跟踪通常用于实时的应用情况，而离线跟踪通常用于对一段视频的离线分析，如目标行为分析等。由于可利用信息较少，在线跟踪方法要同时满足高跟踪精度和低时延是极具挑战的。本文主要面向自动驾驶场景下的实时多目标跟踪，提出了一种高效的在线跟踪方法。

目前主流的多目标跟踪方法是基于trackingby-detection 的跟踪框架，即通过检测结果进行跟踪。近些年，基于深度学习的tracking-by-detection跟踪方法取得了不错的跟踪效果。这类方法通常通过3 步实现跟踪结果:①对每帧图像进行目标检测，得到所有目标的位置和边框;②在得到目标区域的基础上，使用特征描述方法或进行表观特征的提取;③通过计算目标间表观特征的相似度进行帧间目标的匹配以得到每个目标的跟踪结果。因此，在这样的框架下，目标检测结果的准确性对于后续跟踪结果的好坏有很大的影响。

近年来，深度神经网络推动目标检测算法快速发展。其中，基于锚框(anchor)的多阶段检测算法，如Faster R-CNN［2］、Mask R-CNN［3］等在检测精度上有很大优势;基于锚框(anchor)的单阶段检测算法，如SSD［4］、YOLO［5-6］、RetinaNet［7］等目标检测算法是适合实时应用的目标检测算法;基于关键点的无锚框(anchor-free)目标检测算法，如CornerNet［8］、CenterNet［9］等综合了速度与精度，是目前目标检测领域的研究热点。考虑到目标检测对后续目标跟踪的重要性，提出了一种多尺度特征融合的目标中心点的目标检测方法。

基于每一帧得到的目标定位结果，多目标跟踪问题可归为数据关联问题，即跨帧关联相同目标。以往大多数tracking-by-detection 的跟踪算法通常利用传统特征提取算法获取目标特征描述来实现目标之间的匹配，如像素模板［10］、颜色直方图［11］、基于梯度表示的HOG［12］特征和基于混合颜色及纹理特征的协方差矩阵［13］等目标特征提取方法。然而，这些通过传统特征提取算法所获得的目标特征描述却很难处理被遮挡或光照变化情况下的目标以及非刚性目标，如姿态变化较大的行人目标等。因此往往会联合采用基于空间关系的目标匹配方法，通过交并比(intersection over union，IOU)［14］、光流法［15］获取帧间目标的空间关系进行目标空间上的匹配。

相对于传统的特征提取方法，基于深度卷积神经网络如ResNet、VGG 的特征提取方法虽然能够提取到目标的高级语义特征以进行更准确的目标匹配，但ResNet、VGG 等常用骨干网络有着较多的网络参数，会导致跟踪效率的低下。针对实时跟踪应用场景下有着较高的实时性要求，提出了一个基于目标关联学习的端到端目标检测与多目标跟踪联合方法，使用一个轻量级的骨干网络便能同时对图像中所有目标进行检测与特征提取，避免了重复使用特征提取网络依次对所有目标进行特征提取的方式，有效提高了目标特征提取的效率。不同于tracking-by-detection 框架，本文在对目标进行检测的同时，从最具有区分性目标特征的提取层进行了对目标表观特征的提取。基于目标检测下的特征提取过程不增加任何计算量，提高了整个跟踪过程的效率。在目标匹配跟踪过程中，通过目标关联网络分支学习目标间的相似度，直接得到匹配跟踪结果，并与基于目标中心点的检测网络形成端到端的高效目标检测与跟踪方法。同时，也考虑了目标间的空间关系，通过交并比在空间上对目标进行匹配，有效地防止了2 个不同目标因外观相似造成的错误匹配情况。

1 相关工作

DeepSORT［16］是最早的基于深度学习的tracking-by-detection 跟踪方法。DeepSORT 在检测过程中采用了Faster R-CNN 的检测思想，即通过RPN网络来减少负样本以提高检测精度。在检测到目标后，DeepSORT 采用了基于行人重识别数据预训练的卷积神经网络来提取目标的表观特征，通过计算目标特征的余弦相似度实现目标间的匹配。除了目标表观特征的匹配，DeepSORT 还根据目标当前位置来预测目标在下一帧的位置，并结合交并比进一步预测目标匹配的可能性。DeepSORT采用了精确度较高的二阶段目标检测网络，同时考虑了目标的表观特征和位置信息以获得更加准确的跟踪结果。然而，DeepSORT 的目标特征提取网络需要多次输入目标区域图像以提取目标的表观特征。这种情况下，当目标个数过多时，算法的跟踪效率就会大大降低。这对于在线跟踪来说，是一个必须要解决的难题。

为了提高基于深度学习的tracking-by-detection 算法的效率，Mitzel 等［17］采用了目标关联的思想对目标进行匹配。该方法在目标检测之后，通过目标检测网络提取目标的表观特征，再根据不同帧间目标特征得到目标特征组合矩阵，最后，通过关联匹配网络学习目标间的相似度，实现目标间的匹配及跟踪结果。Mitzel 等在特征提取时考虑了图片的背景信息，同时通过直接计算目标之间的匹配相似度加强了对目标可区分性表观特征的提取;其关联匹配网络可直接输出目标间的匹配结果，实现了较高效的跟踪效果。但和Deep-SORT 一样，Mitzel 等同样使用了多个卷积神经网络进行目标检测和跟踪，并且采用了参数量较大的VGG 网络作为特征提取骨干网络，这些因素仍然限制了该方法的跟踪效率。

2 基于目标关联学习的端到端目标检测与跟踪深度神经网络框架

为了进行高效的目标检测和帧间多目标关联匹配，提出了一种端到端的目标关联学习网络。该网络为一个端到端的多任务网络，通过一个高效的骨干网络同时实现目标检测和目标跟踪任务。该方法的整体框架如图1 所示。

图1 基于目标关联学习的端到端多目标检测与跟踪方法总体框架

1)首先，该网络通过2 个孪生的骨干网络DLA34［18］分别接受时间上连续的两帧It1、It2。为了增加更多不同的训练数据对及防止2 张图片中同一目标的变化过大，2 张图像间的帧间间隔不定但不得超过最大帧间间隔数30 帧。

2)轻量级骨干网络DLA34 通过共享参数方式(孪生)同时提取两帧中所有目标的高级语义特征，结合基于中心点的目标检测方法的训练去学习预测场景中所有目标的中心点位置Ct1、Ct2。

3)基于预测的中心点位置，回溯网络的特征层，找到目标对应特征区域的特征向量作为目标的表观特征，即Ft1、Ft2。

4)将从不同帧提取的目标表观特征向量进行两两组合得到目标表观特征矩阵Ft1，t2，并通过目标关联网络的训练来预测两两目标间的特征相似度，最终得到目标相似度匹配矩阵Mt1，t2，从而实现前后帧的多目标跟踪。

2.1 基于中心点的目标检测

在目标检测阶段，采用了基于中心点的目标检测方法。其动机主要来源于以下3 个方面:①目标的中心点往往是目标特征的聚集点。在网络的高层特征层上，中心特征点在原图上的感受野区域相对于其他特征点往往包含了更多的目标区域，因此中心点提取到的表观特征包含了更丰富的表观信息。②在目标检测基础上的多目标跟踪方法更关注于目标中心点位置及目标的特征区分能力，而通用目标检测方法主要学习目标的区域定位和类别识别，因此，有必要采用适合于多目标跟踪的目标检测框架。③目前，基于关键点的目标检测算法已取得了极大的发展，如CenterNet，CornerNet 等。这些方法已证明比基于anchor 的目标检测方法更高效且准确。通过对基于关键点的目标检测方法研究，针对多目标跟踪问题，设计并实现了一种轻量化的中心点目标检测方法。

基于中心点的目标检测方法采用了轻量化的DLA34 网络结构，其网络参数量远小于目前常用的特征提取骨干网络ResNet101。如图2 所示，DLA34 结构主要由迭代深度聚合(IDA)和层次深度聚合(HDA)构成，绿色箭头即表示IDA 结构。

图2 基于中心点的目标检测方法框架图

在图2 中，该结构融合了相邻模块内的最后一层特征层，通过对不同尺度的特征层进行融合，使更深层的特征层的目标语义信息更加丰富;图2中绿色模块中均包含HDA 结构，该结构将各个模组内不同通道的特征图融合，实现对各滤波器提取的不同角度的特征进行融合。图2 中红色箭头表示的特征层融合过程加入了可变形卷积［19］操作，以使网络能够对姿态变化较多的目标提取鲁棒特征，在文献［8］中已证明加入可变形卷积的DLA34 网络的检测结果要优于不加入可变形卷积的DLA34，因此，基于检测跟踪(tracking-by-detection)的多目标跟踪方法在骨干网络中加入可变形卷积后的检测预测结果对于后续的跟踪匹配阶段是更加有利的。最终，基于中心点的目标检测网络的输出特征分辨率大小为原图的1/4，特征图上的每个特征点将用于回归和分类预测。

基于中心点的目标检测网络的损失函数包括中心关键点的预测损失Lcenter、中心点位置预测的偏移损失Loffset以及目标区域范围的预测损失Lbbox3 个部分，它们的定义如式(1)—(3)所示。

式中:Yp表示预测的热图上每个特征点属于目标中心点的概率;Y 表示真实热图上的特征点是目标中心点的概率。Lcenter计算预测的热图上每个特征点与真实热图上每个特征点之间的交叉熵。真实热图通过高斯核得到，即以目标中心均值为0，峰值为1 的中心点，沿远离中心的方向上各点的标注值按照高斯分布依次递减。该损失函数采用了focal loss，能够有效解决正负样本不平衡的问题。中心点位置偏移损失:

式中:Cp表示预测的目标中心偏移值;C 表示原图上的目标中心坐标;S 表示最终特征层相对于原图的下采样次数。Loffset通过L1 loss 计算在下采样过程中目标中心坐标因无法整除而造成的坐标偏移与预测的坐标偏移间的差异损失。

目标长宽范围的损失主要训练目标的长宽参数预测。其定义如下:

式中:Bp表示目标的预测长宽;B 表示目标的真实长宽。Lbbox通过L1 loss 计算预测的目标长宽与实际目标长宽的差异损失。

2.2 基于中心点目标检测网络特征层的目标特征提取

对于在每一层特征层上目标的中心特征点来说，其包含的目标表征信息是最丰富的。基于中心点的目标检测网络后，可以得到每个目标的中心点位置，进而得到目标相对于整张图大小的相对中心点位置。传统tracking-by-detection 的多目标跟踪方法通常通过额外训练一个网络来提取目标特征，这样往往会大幅度增加算法的计算复杂度。本文中提出从基于中心点的目标检测的网络推理预测的同时提取目标的特征，从而在不增加计算量的情况下提取目标的中心点特征。即根据目标的相对中心点位置从各个特征层提取目标的中心点对应位置的特征向量。显然，每个目标都有其最合适的特征提取层，通过聚类各个目标对应合适的感受野大小选取了对于目标最具有区分性的特征层(包含不同尺度)，融合不同尺度的特征层的目标特征，使目标的表观特征具有尺度不变性。

目标大小与合适感受野的关系如图3 所示，红色代表目标的边框，绿色代表最合适的感受野大小，(a)中的目标因为像素较少导致语义信息不足，需要加入部分背景信息作为目标的额外表观特征，因此较小目标的感受野区域比目标的实际区域要大许多。而对于(b)中较大的目标，因其像素较多而语义信息充足，因此其感受野区域能够包含目标的原像素即可。为了获取目标不同尺度的特征从而得到更加鲁棒的目标表观特征，选择了如图4 所示绿色虚线框中的4 个模块，分别是不同层次特征层中的最后一层作为目标的表观特征提取层，且在每个特征提取层后分别经过一个3×3 的卷积层以改变特征图的通道数，使提取到的特征向量长度保持一致。最后，将从这4 个特征层提取到的特征向量拼接在一起，得到目标的表观特征向量，如式(4)所示。

图3 目标大小与合适感受野

图4 目标表观特征提取

式中:f 表示不同特征提取层经过3×3 卷积后再通过目标相对中心点位置Cr提取得到的特征向量，其维度均为130 维。将不同特征提取层提取到的特征向量通过首尾相连的方式得到目标最终特征向量F，其维度为520 维。

为了使后续目标关联网络的输入大小一致，必须保持每张图像得到的目标表观特征向量个数一致，对于图像中的目标数未达到设定的最大目标数Nm的情况，通过添加零向量来对目标表观特征向量个数进行补充。通过统计训练集中图像所包含的最大目标数量，设置总目标个数Nm=80 且假设测试集中的目标个数同样不超过80 个。

2.3 目标关联网络分支

目标关联网络分支连接在特征提取层之后，用于学习预测目标间表观特征向量的相似度。如图5 所示，骨干网络提取到前后帧所有目标的特征后，通过前后帧目标两两组合的方式得到前后帧的目标表观特征矩阵Ft1，t2∈R80×80×1040。将此矩阵输入到由1*1 卷积堆叠构成的目标关联网络中，经过多层卷积及通道缩减操作，最终得到帧间目标的相似度匹配矩阵Mt1，t2∈R80×80。关联网络中1*1 点卷积的设计使关联网络对帧间目标进行相似度计算，有效降低了网络的计算量。网络卷积的输出通道数量依据512、256、128、64、1逐渐减小，以使目标表观特征矩阵能够逐渐映射得到相似度匹配矩阵。

图5 目标关联网络预测过程

由于图像序列的跟踪过程中往往存在前帧目标在后帧中消失或者新的目标在后帧中出现的情况，因此，在相似度匹配矩阵中增加一列新的向量来表示目标消失的可能性。目标关联网络分支的匹配损失函数设计如式(5)所示。

式中:Lm用于计算目标关联网络预测的相似度匹配矩阵中每一行与真实相似度匹配矩阵中每一行的交叉熵;i 表示行的索引;Yi表示真实的相似度匹配矩阵第i 行;表示预测的相似度匹配矩阵第i 行。真实相似度匹配矩阵的构成如图6 所示。图中2 张图像分别为视频序列的前后帧。相似度匹配矩阵的列代表前帧的目标序号，行代表后帧的目标序号。X 表示目标数不足而填充的表观特征为零向量的目标，DP 表示目标消失的可能性，两两目标的值表示目标间的相似度。图6 中前后图像的目标匹配结果为前帧目标1、2 与后帧目标1、3 匹配，前帧目标3、4 消失，后帧目标2 为新出现的目标，目标X 不会与任何目标进行匹配。

图6 真实匹配矩阵

2.4 多目标跟踪过程

虽然通过对相似度匹配矩阵使用匈牙利算法能够得到两帧中目标间的匹配跟踪结果，但是对当前帧进行目标跟踪时，若仅考虑前一帧的目标表征信息是不充分的。在进行目标跟踪时，除了目标的表观特征匹配，还将轨迹中多个目标的表观特征与当前需跟踪的目标的表观特征进行匹配，其中轨迹表示跟踪序列中属于同一目标的目标集合。通过这种匹配方式，对于每条轨迹中偶尔出现的错误匹配不会影响到后续目标的正确匹配，增强了目标匹配的鲁棒性。同时，还考虑了目标之间的空间关系，即通过前后帧目标间边框的交并比进一步约束目标间的匹配。通过将目标的表观特征匹配、目标的整个轨迹匹配以及目标空间关系约束相加融合得到最终前后帧目标的匹配矩阵。

对于目标的出现和消失情况，若一条轨迹在fum=5 帧中没有任何目标与其匹配，则认为该轨迹所对应的目标已经消失。此外，考虑到目标可能出现误检测的情况，因此，对于没有任何轨迹与检测到的目标进行匹配的情况，则设该目标为待定目标;如果接下来连续2 帧都有目标与其匹配，则将该待定目标确认为新出现的目标，同时加入作为已确定轨迹。基于目标匹配结果，目标跟踪策略如下:

步骤1检测当前帧所有目标。若当前帧为初始帧，为每个对象新建一个已确定轨迹，将对象的特征向量分别加入对应的已确定轨迹中，跳转到步骤4;若当前帧不是初始帧，将目标与轨迹进行相似度匹配，得到目标与轨迹的表观匹配矩阵。

步骤2通过IOU 计算目标与轨迹的空间匹配矩阵，结合表观匹配矩阵得到当前目标与已匹配轨迹的最终匹配矩阵。对匹配矩阵使用匈牙利算法，可得到未匹配的目标、未匹配的已确定轨迹、未匹配的待确定轨迹、匹配到的已确定轨迹和目标以及匹配到的待确定轨迹和目标。

步骤3对于未匹配目标，设定为待确定轨迹;对于未匹配的已确定轨迹，则将其未匹配次数加一，如果轨迹的未匹配次数大于fum，则认为该轨迹所对应的目标已经消失，并删除该轨迹;对于未匹配的待确定轨迹，删除该轨迹;对于匹配到的已确定轨迹和目标，则将匹配到的目标加入轨迹中，若轨迹中的目标数大于m，则删除轨迹中最早加入的目标;对于匹配到的待确定轨迹和目标，将匹配的目标加入轨迹中且其连续匹配数加一，若待确定轨迹的连续匹配数大于等于3，则变为已确定轨迹。

步骤4对下一帧图像进行跟踪，跳转到步骤1。

3 实验与分析

考虑到自动驾驶场景下最频繁出现的行人目标，使用目前多目标跟踪领域广泛使用的多目标行人跟踪数据集MOT17。由于MOT17 的测试集中不包含真实跟踪标签，而测试集的评价结果只能有限次地在MOT Challenge 官网提交。因此，为了更好的对本算法进行评价，在进行消融实验时选取了训练集中一个较长的视频序列作为验证集。

3.1 多目标行人跟踪数据集MOT17

相对于其他目标，作为分刚体目标的行人目标拥有丰富的姿态变化，因此对该类目标进行准确检测［20］和跟踪是目前该领域的难点。MOT17的训练集和测试集各包含7 个视频序列，每个视频序列均在不同的场景下拍摄，且每个场景的背景都较复杂，行人的数量多且密集，最多时高达80人。同时，行人间存在频繁地交互及遮挡现象，某些场景下的行人目标较小，还有些视频含有拍摄镜头不断移动的情况。复杂的背景以及过多的小目标使得目标检测算法很难对所有目标进行精准检测，镜头移动造成的目标差异过大、多个目标的频繁交互以及遮挡等情况使得跟踪算法很难对目标保持精准跟踪，因此在MOT17 数据集上实现多目标跟踪具有很大的挑战性。

3.2 评测标准

多目标跟踪中最重要的评价指标为MOTA，该指标表示了多目标跟踪的跟踪准确性，其由3 个部分组成，分别为FP、FN、ID Switch。FP 为误判数，表示错误检测的目标数。FN 为缺失数，表示某个已知轨迹本能匹配某个目标，却未与该目标匹配的次数。ID-Switch 为误匹配数，表示某个已知轨迹错误的匹配到了不属于该轨迹的目标的次数。MOTP 表示跟踪到的目标的位置与真实位置的误差，该指标衡量了跟踪估计目标位置精确度的能力。Hz 表示算法每秒钟能处理的帧数，该指标在本文中衡量了多目标跟踪算法的跟踪速度。除了上述较重要的指标外，还有IDF1、MT 和ML，分别表示正确识别的检测与平均真实数和计算检测数之比、预测轨迹占该正确轨迹的80%的轨迹相对所有轨迹的比例、预测轨迹的丢失数占该正确轨迹的20%的轨迹相对所有轨迹的比例。

3.3 训练细节

实验环境是Ubuntu 16.04，使用单张RTX 2080Ti 对模型进行训练。训练步骤分为3 步，第1步:冻结目标关联网络分支以及特征提取层后的3×3 卷积层的参数，使用CrowHuman 行人检测数据集，通过目标中心点检测损失函数训练骨干网络DLA34，输入的图片分辨率大小为512×512。训练的batchsize 大小为64，训练周期数为140。初始学习率设置为0.025，在第90、120 个周期时分别降低10 倍学习率。第2 步:将第1 步得到的模型作为预训练模型，冻结目标关联网络分支以及特征提取层后的3×3 卷积层的参数，使用MOT17 数据集，通过目标中心点检测损失函数训练骨干网络DLA34，输入的图片分辨率大小为544×960，batchsize 大小为16，训练周期数设置为70。初始学习率设置为0.000 125，在第60 个周期时降低10 倍学习率。第3 步:冻结骨干网络的参数，使用MOT17 数据集，通过匹配损失函数训练目标关联分支以及特征提取层后的3×3 卷积层，输入的图像分辨率大小为544×960，batchsize 大小为3，训练周期数为35。初始学习率设置为0.01，在第13、22、28、35 个周期时分别降低10 倍学习率。

3.4 实验结果与分析

为了获取目标不同尺度的特征，结合各个目标的感受野区域考虑，选择在骨干网络中第4、8、16、32 倍下采样分辨率特征层中的最后一层作为目标表观特征的提取层。为了探究不同的特征提取层对于跟踪结果的影响，选择如图4 红色虚线框所示的更高层的特征提取层来进行对比。对于不同特征提取层的选取，在MOT17 测试集上的实验结果如表1 所示，↑表示该指标的值越高越好，↓表示该指标的值越低越好。从表1 中可以看出，使用更高层的特征提取层的目标表观特征进行匹配跟踪时的ID Switch 个数有明显增加，跟踪过程中出现了更多误匹配的现象。因此，相对于本文选取的特征提取层，更高层的特征提取层并不能提取到更有区分性的表观特征。

表1 特征提取层选取

在跟踪过程中，考虑了轨迹允许存在的最大目标数以及轨迹允许存在的连续最大未匹配次数。对于轨迹中允许存在的最大目标数，若个数过多会造成轨迹中最早加入的目标与后续目标的位移与姿态相差过大而很难进行正确匹配，若个数较少会造成轨迹中最后加入的错误匹配目标继续匹配到错误的目标。对于轨迹允许存在的连续最大未匹配次数，若次数过多则会造成本已经消失的轨迹再次与目标进行匹配，若次数过少会因轨迹对应目标偶尔出现的遮挡情况被判定轨迹已经消失而无法再次参与匹配。对于这2 个参数的不同设定，在MOT17 测试集上的实验结果如表2所示，当轨迹中的最大目标数为5 且轨迹允许存在的连续最大未匹配次数为5 时，达到最高的跟踪准确度。

表2 跟踪参数设定

表3 为目前先进的在线和离线跟踪方法的结果。虽然离线跟踪比在线跟踪使用了更多的目标跟踪信息，但本文的方法在各个指标下仍然超越了离线跟踪方法。可以看到，对于MOT17 测试集，本文提出的方法在3 个指标上均优于其他方法，且在其他指标上仍然具有竞争力。同时，考虑了包括目标检测过程的整个跟踪过程的预测速度，对于部分论文，其跟踪速度指标仅计算了跟踪匹配的过程，未考虑目标检测的时间消耗，因此对于包含目标检测过程的整个多目标跟踪过程，部分方法的跟踪速度要小于其原文的跟踪速度。

表3 各种算法的结果

4 结论

提出了一种基于目标关联学习的端到端多目标检测与跟踪方法。该方法使用单一的骨干网络同时实现了视频帧中的目标检测及对目标的表观特征提取。不同于传统的“tracking-by-detection”方法训练额外的网络来提取目标特征，该方法的目标特征提取过程不增加任何计算量。目标特征提取后，设计了目标关联网络分支来直接学习目标间的特征关联性，从而得到目标之间的匹配跟踪结果。整个跟踪过程基于一个端到端的网络结构，避免了重复输入检测后的目标进入特征提取网络进行特征提取，有效增加了跟踪速度，同时，基于目标感受野的特征提取层选取以及关联网络分支对两两目标进行相似度预测的方式，有效增加了多目标跟踪的准确性。

虽然也考虑了基于空间的目标IOU 匹配方法，但是目标检测边框的准确性会对匹配结果造成严重的影响，因此，未来会考虑目标间新的空间关系来进行目标间更准确的空间信息匹配，并结合表观特征进行更加准确的多目标跟踪。