基于ViT的视频相似度评估及同源片段定位模型

2023-10-23姜家皓张易诚康宇哲

计算机时代 2023年10期

姜家皓，张易诚，康宇哲，沈炜

(1.浙江理工大学信息科学与工程学院，杭州浙江 310018；2.浙江理工大学计算机科学与技术学院)

0 引言

近年来，随着数字化技术的迅速发展，视频信息在版权保护问题日益严重，因此设计一种能够评估视频相似度并定位同源片段的方法有重要意义。目前的同源视频检测方法大致分为三类：①基于视频全局特征的相似度计算；②基于视频帧级特征的检测；③基于视频时空特征的检测。由于视频存在裁剪、融合、合并等规避侵权检测算法的操作，而基于视频帧内容的同源视频检测被认为是解决这一难题的有效方法，因此本课题利用Vision Transformer[1]模型提取语义信息的特点，提出了基于ViT 的具有细粒度的片段级同源视频检测模型。

1 模型架构

同源视频片段检测[3]的目标是在目标视频中找到一个或多个查询视频片段，并定位同源片段在目标视频与查询视频的所在位置。

本文视频相似性评估模型的主要架构如图1 所示，主要包括四个部分：数据处理层，将视频解码抽帧并做图像增强，作为模型的输入；帧间时空特征提取层，提取视频帧的图像信息，并在时间维度做注意力操作，获取视频时空特征；相似度计算层，将视频对的视频时空特征序列做向量点乘得到帧间相似度矩阵，然后对矩阵进行倒角相似度计算，得出两视频相似度；同源片段定位层，若相似度大于阈值，则利用基于图的视频重复片段定位算法在视频相似度矩阵中定位同源片段。

图1 模型基本框架

1.1 数据采集与处理

本文数据集共24类视频，从数据集选取视频组成视频对作为输入，每个视频对由锚点视频、同源视频与其他23 类视频的非同源视频组成。首先将数据集中的视频进行解码并统一以200ms采样一次的速度进行抽帧，弥补了数据集视频在FPS上的差异，将视频分割成视频片段。其次，将每帧图像的长和高变换为224 像素。最后，借鉴SimCLR[10]中提出的多种图像增强方法的组合可以在视觉任务中发挥出更好的作用，本文采用随机裁剪与颜色失真的组合做数据增强，效果如图2所示。

图2 图像增强

1.2 帧间时空特征提取层

ViT 具有高效性和可拓展性，且其不需要大量的图像先验知识，在大规模数据集预训练后，图像表征就可以取得很好的效果。这些特性证明了ViT是视觉领域通用的骨干网络。因此，本文采用ViT 作为特征提取器。其中，采用Divided space-time attention[2]架构，如图3。首先，在时间维度做一维的自注意力操作，学习帧间的时间特征，从而捕捉视频的内部相关性。其次，利用空间二维自注意力学习图像的空间特征。以此获取时空特征向量，不仅将深度学习从图片分类拓展到视频分类，还加速了计算，取得了更好的分类能力。相较于只针对时间或空间维度的注意力操作具有更好的提取视频语义信息的能力，相较于同时做时间、空间维度的注意力操作具有降维、减少参数的效果。

1.3 相似度计算层

将提取的两个视频时空特征向量Mij与Mkl做点积得到帧间相似度矩阵Sim，如公式⑴：

并使用倒角相似度算法[6]计算帧间相似度CSf(Mij,Mkl)，详见公式⑵。其中，N定义为时空特征向量的编码维度，本文参考ViT，设置为768。

这个过程利用区域向量捕获了空间维度的信息，有利于模型学习细粒度视频信息，帧间视频相似度矩阵如图4所示。其中视频相似度矩阵横纵轴的单位均为帧。坐标（a,b）对应的数值表示Mij的第a 帧与Mkl的第b 帧的相似度，相似度范围[-1～1]，相似度越大，表示这两帧的时空向量相似程度越高，图4 中相似度越大亮度越高。

1.4 损失函数

借鉴对比学习思想，相似视频之间的特征信息需要尽可能的接近，其视频相似度高，不相似视频之间的特征信息需要尽可能的原理，其相似度低[11]。因此，本文使用N-pair-ms loss[8]作为损失函数，利用数据之间的结构信息来学习到更有区别性的表示，利用锚点视频与其他多个不同源的负样本之间的关系，加快模型的收敛速度。

N-pair-ms loss 的每个训练样本有N+1 元组，即MT,M+,，其中M+是MT的正样本是N-1 个负样本。N+1 元组不会提前构建好，而是在训练过程中从一个batch中构建出来。公式如下：

此外，本文定义了一个正则化函数，该函数将视频相似度规范在范围[-1,1]内，抑制相似度过高值。为了计算正则化损失，只需将剪切范围之外的输出值累加，公式如下：

因此，总loss方程如下：

其中，r是超参数，用来调整相似性正则化对总损失的占比，本文设置为0.5。

1.5 同源片段定位层

在模型验证阶段，若视频对的相似度大于阈值，则认为其具有同源视频片段，利用基于图的Temporal Network[9]算法进行同源视频片段定位。此方法通过部分对齐视频内容之间的连接，将部分对齐问题转换为网络流问题：此网络由视频A 的一组帧与视频B 的一组帧的相似度形成，搜索到承载最大容量（相似度）的最长路径即为视频A与B之间的同源片段。

⑴ 将Mb={b1,...,blen(Mb)}与Md={d1,...,dlen(Md)}分别表示为查询视频与参考视频的时空特征向量，其中biϵ[0,len(Mb)]与diϵ[0,len(Md)]分别为查询视频与参考视频的一系列帧集合。

⑵图定义为G=(N,E)，其中N和E分别是节点和边的集合。

⑷边定义为E={eij}，其中eij表示从相似度最高的数量为K 的集合中连接列表Ni到Nj的任意两个节点的加权有向边。

2 实验与分析

2.1 实验数据

⑴采用CC_WEB_VIDEO[4]数据集作为测试数据集，其是由香港大学和卡内基梅隆大学从视频网站YouTube和视频搜索引擎Google Video、Yahoo Video中收集的近似重复网络视频数据集。总共包含了24 个查询集和12790个视频。

⑵采用VCDB[5]数据集作为同源视频定位的测试数据集，由28 个查询集和528 个视频组成，且具有9236 个同源视频片段对的精确时间位置的手动注释，是视频部分拷贝检测的大规模数据集。

2.2 模型评价

此模型的好坏以以下方式对结果进行评价：

⑴加权平均准确率（weighted-mAP）可以反映系统在检索相关视频的性能指标，同时减轻数据不平衡带来的影响。在计算查准率Pweighted和召回率Rweighted时，需要各个类别的查准率Pi和召回率Ri乘以该类在总样本中的占比来求和。

其中，i 代表CC_WEB_VIDEO 的类别编号，则 |L|表示类别数量。TPi表示相似视频对且被模型判定为相似视频对的样本数，FPi表示非相似视频对且被模型判定为相似视频对的样本数，FNi表示相似视频对且被模型判定为非相似视频对的样本数，wi表示第i类别在总样本中的占比。

⑵ F1-Scores[7]引入帧级查准率（FP）、帧级召回率（FR）以及最佳F1 值作为评价标准，定义如公式⑺，其中FA 表示检测的所有帧数，FC 表示检索的正确帧数，FM表示数据集中标注的同源视频片段帧数。

2.3 评价结果

⑴同源视频相似度评估模型

本文比较了不同特征提取方式、损失函数相互组合的模型在训练时的表现效果，结果如表1 所示。其中，ResNet、Vision Transformer 为特征提取方式，Npair-ms表示N 对损失函数、triplets表示三联体损失函数。由实验数据可知，相比三联体损失函数，N对损失函数能够在一定程度上提高模型准确率。相比ResNet 特征提取器，ViT 能够更好更准确的学习视频时空向量的语义信息，且向量维度更小，计算量更小。

表1 对比模型mAP值

对照实验中，模型Vit+N-pair-ms 在对比实验中准确率最高，基于该模型，本文进行了变体测试。变体测试主要测试Divided space-time attention 结构对模型学习的帮助程度，实验证明，在特征提取层中使用时间维度的自注意力机制在一定程度上可以提高模型准确率，增强特征提取层的语义提取效果。

⑵同源片段定位方法评估

HV 表示霍夫投票算法、DP 表示动态规划算法、DTW 表示动态时间扭曲算法、TN 表示基于图的时域网络算法。

表2 的对比试验显示，TN 算法可以较好的F1 值，同源片段定位效果如图5所示。

表2 不同同源片段定位方法F1值

图5 视频同源片段定位效果图

3 结论

本文提出了基于ViT 的同源视频检测模型，并将其应用于同源片段检测与定位任务。该模型借鉴对比学习思想，将一对同源视频及N 对非同源视频组成视频对作为输入，通过其时空特征向量的相似度进行二分类预测。若预测结果高于阈值则认为视频对是同源视频，对其帧级相似度矩阵作基于图的同源片段定位；若预测结果低于阈值则认为视频对不是同源视频。

基于视频检索数据集的实验证明，本文提出的同源视频相似度评估模型使用Transformers 进行时空特征提取，并在时间维度上做注意力处理，学习视频帧之间的时间维度信息。CC_WEB_VIDEO 数据集的weight-mAP能够达到0.9223，高于其他对照组。此外，通过基于图的视频重复片段定位算法定位同源片段，从而实现同源性检测，于VCDB 数据集上F1-Scores达到0.7459，高于benchmark的0.6566。