一种近实时的无人机视频流拼接方法

2015-06-07郑晖，姜城，孙敏*，黎晓东，任翔，刘磊

地理与地理信息科学 2015年5期

关键词：二叉树视频流关键帧

郑晖，姜城，孙敏*，黎晓东，任翔，刘磊

(1.中国矿业大学(北京)地球科学与测绘工程学院，北京 100083；2.北京大学遥感与地理信息系统研究所，北京 100871)

一种近实时的无人机视频流拼接方法

郑晖1,2，姜城2，孙敏2*，黎晓东2，任翔2，刘磊2

(1.中国矿业大学(北京)地球科学与测绘工程学院，北京 100083；2.北京大学遥感与地理信息系统研究所，北京 100871)

为了解决无人机视频流的快速拼接问题，提出一种近实时的视频流拼接方法。该方法校正了倾斜拍摄带来的变形，改进了ORB算法特征提取和构建描述子的策略，提高了特征点的稳定性和描述子的判别性，在保证较高匹配率和足够匹配点对的同时提高了帧间变换模型的精度;最后为降低拼接误差,根据GPS数据和给定重叠度构建平衡二叉树，选取离二叉树节点最近的图像作为参考投影面完成拼接。实验结果表明：该方法减少了级联误差累积带来的影响，提高了拼接影像的质量，可用于无人机视频流的近实时拼接。

无人机；视频流拼接；倾斜拍摄；几何校正；级联误差

0 引言

无人机作为一种新的航空遥感平台，可以在人力无法进入的危险区域进行低空作业，快速获取大范围清晰的航拍视频，为抗震救灾、应急救援及时提供参考资料。但是，实时传输的视频流帧幅较小，难以全面表达拍摄区域的完整信息。为了快速获取拍摄区域大范围的影像，满足突发事件和灾害发生时的应急需求，无人机视频流的快速拼接可以有效地弥补摄像机拍摄角度和视野狭小的限制，更全面地展现拍摄区域的全貌。

现有的航拍视频拼接的主流算法是基于特征匹配的方法,通过提取、匹配视频图像的特征点，快速计算视频图像间的变换参数，进而完成视频的拼接。如王家宝等[1]通过降低差分金字塔层数、减少特征点提取个数提高SIFT特征提取和匹配的效率，分别对29帧分辨率为704×480的视频帧图像和70帧分辨率为640×360的视频帧图像进行实验，虽然达到了近实时的处理速度，但并没有给出最后的拼接结果。刘善磊等[2]利用相位相关法给定视频帧间重叠度提取关键帧，用改进的SURF算法完成了视频帧的匹配和拼接,但只选取10帧图像做实验，并且最后的全景图有明显的扭曲和变形；程咏梅等[3]将图像形状信息引入SIFT特征描述子，利用双向匹配对无人机航拍视频图像进行了拼接,在一定程度上提高了配准的鲁棒性，但计算复杂，很难用于实时拼接；杨涛等[4]将Harris角点和SIFT特征描述子结合，对小分辨率(320×240)的航拍序列图像实时处理，达到了精确的图像配准效果,但处理后的帧图像分辨率低、时长较短。上述方法都没有探讨长航时、大范围、高分辨率的视频流拼接产生的畸变和误差问题。

由于基于特征的方法偏重于纹理丰富的区域,而在纹理单一的区域(如湖泊、海洋)，甚至无法提取出特征点。针对由图像纹理分布不均匀导致特征点分布不均匀的问题，申浩等[5]通过空间约束和限制角点数量获得分布均匀的FAST角点，然后分析不同采样方法对构建描述子的影响，最后简单实现拼接，但未讨论拼接缝的消除和匀光。杨宇博等[6]提出了一种基于分块Harris特征的航拍视频拼接方法，分别对29帧分辨率为720×576的航拍视频帧图像和50帧分辨率为1 200×1 000的模拟航空视频帧图像进行实验，虽然可以均匀地提取图像中心区域的角点，但仍未研究长航时、大范围的视频流拼接产生的畸变和误差。周国清[7]在1 m分辨率的数字正射影像图上选取分布均匀的地面控制点计算视频帧的内外方位元素，并通过光束法平差将帧图像校正为正射图像后将按照地理坐标镶嵌，其处理方法可达到近实时的效果，但在突发事件和灾害发生时，很难及时获取地面控制点的信息。

本文从应急救援需求出发，提出一种近实时的视频流拼接方法。该方法首先校正了倾斜拍摄带来的变形，然后利用飞行姿态参数对无人机视频图像进行几何校正，通过匹配均匀提取的特征点，快速得到帧间变换模型进行拼接，可以近实时获取拍摄区域的完整信息，及时为抗震救灾、灾后重建与恢复提供参考资料。

1 拼接算法原理及详细流程

为了解决较大范围视频流的快速拼接问题，本文首先根据POSE数据和航迹规划时给定的重叠度选取关键帧并确定相邻帧间的重叠区域；然后将重叠区域分块，利用最佳邻域鲁棒描述子，提高ORB算法中描述子的判别性，在保证高匹配率的同时提高匹配速度；最后利用RANSAC算法估计帧间变换模型的参数建立变换模型，递归构建平衡二叉树,选取离节点位置最近的图像作为投影面,完成视频帧的拼接和融合。

1.1 关键帧选取算法

关键帧的选取是视频流拼接的基础，本文根据无人机实时下传的航迹数据(离线情况下，使用无人机记录的航迹数据)，在给定重叠度下推导自动提取关键帧时间间隔的公式。在自动提取关键帧时，以平均航高作为标准确定开始和结束选取关键帧的时刻，从而剔除爬升和降落两个阶段的视频帧图像。

假设某时刻无人机的航高为H(单位：m)，速度为v(单位：m/s)，所采用摄像机的传感器宽、高、焦距分别为w、h、f(单位：mm)，考虑倾斜拍摄(相机与水平面之间的夹角为θ，导致图像代表的实际地面宽度呈现下窄上宽)的影响，在给定重叠度D的情况下，自动提取视频帧的时间间隔推导如下：

帧幅下宽：

(1)

帧幅上宽：

(2)

帧幅高：

(3)

为保证x方向的重叠度，在t秒后摄像机在x方向上的重叠度为：

(4)

在y方向上的重叠度为：

(5)

在保证重叠度的情况下，x方向和y方向上的时间间隔可表示为：

(6)

1.2 构建最佳邻域鲁棒描述子

目前，特征检测算法主要有SIFT[8]、SURF[9]、FAST[10]、BRIEF[11]、ORB[12]、BRISK[13]等，这些算法针对不同情况下图像的变化问题，分别提出了各自的特征检测策略。如SIFT、SURF算法对图像的旋转、尺度、模糊、光照均有较好的鲁棒性，但其计算复杂，不适合视频的实时处理；FAST、BRIEF、ORB、BRISK等算法计算简单，可以对视频高效处理，其中ORB算法不但不受旋转变化的影响，而且对噪声和光照变化也有一定的鲁棒性。

本文在特征提取部分，采用ORB算法中的策略，在不同尺度空间计算FAST特征候选点，通过非极大值抑制的方法确定特征点，并计算其主方向。在特征描述部分，为了寻找最佳二值描述方式，对邻域大小和进行对比时选取的像素个数进行了分析，并以匹配率和匹配点对数量为判断标准进行实验。

构建描述子时，在特征点周围N×N个像素范围内随机选取像素点比较灰度值，将比较结果组合成一个二进制的描述子串。由于在大范围内选取对比点对相比小范围描述子的相关性较低,判别性较高，在匹配时更容易成功，但是范围太大会导致描述子差异性过大而无法匹配。因此，为了确定构建描述子的最佳邻域，在实验时N的取值范围设置为[10，70]，递增步长为5个像素。另外，为了分析选取对比点个数n对匹配数量和匹配率的影响，实验中分别随机选取2个和4个像素点构建描述子进行对比。为了评估描述子的判别性，在无人机视频序列中选取了3组照片(图1)，分别是纹理丰富的城区图像、纹理单一的麦田道路图像和飞机转弯时具有不同尺度且有较大旋角的图像进行匹配实验。

图1 实验采用的图像

Fig.1 Images used in experiments

图2表示邻域大小和随机点对个数对匹配率和匹配点对数量的影响，图中横坐标轴表示选取对比点对时特征点的邻域范围。实验结果表明：较小范围内的匹配点对数目较多，但匹配率较低，与上文“小范围内构建的描述子相关性大、判别性低”结论一致。在较大范围内随机选取对比点对时，由于描述子的不相关性过大使得匹配点对数量急剧减少，会大大降低变换模型的精度，导致拼接失败。

图2 不同邻域大小和随机点对个数的结果

Fig.2 The results of different neighborhood size and random points

从对比图可看出当邻域范围在40×40个像素左右时，匹配率在80%以上，保证了匹配的有效性，减少了剔除误匹配时的迭代时间。此时，匹配点对在40对以上，数量适中,可将其用于估计变换模型进行拼接。因此，建议邻域大小的最佳范围为[35,45]，拼接实验中选择N=40。对于选择对比点对的个数，当n=2时，特征点描述子判别性较低，即便用RANSAC算法剔除误匹配，仍不能保证错误匹配完全消除；当n=4时，特征点描述子判别性较高，虽然匹配点对数量有所下降，仍然获得了较好的匹配结果。拼接实验取n=4。以上3组图的匹配结果如图3所示，其中左列图N=40，n=4，右列图N=30，n=2。该实验部分，所有图像在特征检测、特征匹配平均耗时分别为98.97 ms、50.16 ms，因此，对640×480分辨率的视频流可以实时处理。

1.3 基于平衡二叉树的动态航带拼接

无人机视频流的拼接一般选择第一帧图像作为投影面，最后一幅图像需要经过n-1次透视投影变换，这样就造成航带尾部偏离航线。本文通过构建平衡二叉树进行拼接，不仅减少了投影变换次数，并且减小了航带尾部的变形。具体算法过程如下：1)根据式(1)-式(6)选取关键帧，然后提取特征点并构建最近邻域内的鲁棒描述子，用汉明距离匹配，并用RANSAC算法剔除误匹配，计算帧间变换模型参数；2)根据传感器尺寸、航高和图像间重叠度确定航带中心位置及航带两端的经纬度坐标和图像数量；以航带中心位置的经纬度作为根节点，航带两端的经纬度坐标作为最底层的左右叶子节点构建平衡二叉树；3)在透视投影变换时，以离各节点位置最近的帧图像为投影面进行拼接。该遍历过程从平衡二叉树最底层的左叶子节点开始，到平衡二叉树最底层的右叶子节点为止。

2 实验结果与分析

图3 采用不同邻域范围和对比点对时的匹配率

Fig.3 Matching rate with different neighborhood range and contrast points pair

实验平台为Intel Pentium双核处理器，主频2.8 GHz，内存3.25 GB，显卡为英伟达GT640 2 GB显存，采用了C实现代码编写。实验数据为一段20 min的航空视频，摄像机与水平面夹角为23°，分辨率为640×480，帧率为30帧/s。

2.1 选取关键帧

本实验首先读取POSE数据，得到无人机飞行的平均航高为174.43 m，平均速度为9.27 m/s，摄像机采用索尼HDR-CX180E，传感器尺寸为4 mm，摄像机焦距为2.1 mm，给定重叠度为60%，通过式(6)可求出选取关键帧的时间间隔为11.17 s。表1是取视频中10帧图像时的采样间隔。由于平均航高中包含了部分爬升和降落过程，因此，平均选取关键帧的间隔为10 s，共取得37帧图像。

表1 10帧图像的采样间隔

Table 1 Sampling interval of 10 frames

帧数12345678910当前帧id5935622465596939728276317992834987099059采样间隔(s)…9．6311．1712．711．4311．612．0311．912．011．7…

2.2 关键帧快速拼接

由于视频采集时为倾斜拍摄，并且摄像机不规律的抖动会导致每帧图像都有不同程度的形变，拼接时需要校正。图4是利用未经过校正的图像拼接的结果，图中的道路有明显的错位，并且级联误差累积造成航带尾端偏离；图5利用的帧图像首先校正了倾斜拍摄带来的变形，然后利用改进的ORB算法对其进行特征提取、特征匹配，利用CUDA C编程加速融合拼接，最终获得完整航线的拼接图。图中的道路连接良好，并且保证了透视变换的直线特征。为了对比本文算法效果，分别采用PTGui和Hugin软件进行拼接处理，图6展示了两者的拼接结果，由于倾斜拍摄造成的图像变形较大，这两种软件都不能完全拼接,只能拼接部分图像(图5中虚线框内部分)，并且图像中的道路呈现不同程度的弯曲，航带尾部严重变形，视觉效果很差。

图4 原始图像拼接结果

Fig.4 The mosaic result of original image

图5 校正后图像拼接的全景图

Fig.5 Panorama after calibration

图6 利用其他软件拼接的结果

Fig.6 The mosaic results using other softwares

2.3 拼接误差分析

按照重叠率为60%，如果将第一幅图像作为投影面，则每幅图像在保证至少30%的重叠度的情况下，n-1幅图像都投影到第一幅图像的级联次数为：

(7)

本文方法中构建平衡二叉树的层数为i，每层节点个数为2i-1，第i层余n%2个节点，投影变换的级联次数为：

(8)

实验中n=37，所以N1=306，i=5，N2=125。本文方法递归构建平衡二叉树,动态选取投影面,不仅减少了级联次数，而且最终以航带中间帧作为投影面减小了航带尾部的变形。

3 结论

本文充分利用了航线规划获取的数据和无人机的飞行数据，针对大范围、大旋角的航拍视频提出了一种近实时的视频流拼接方法。该方法对倾斜视频拍摄进行补偿，利用POSE数据确定帧间重叠区域并对其分块，在提高了ORB算法稳定性的同时保证了特征点在重叠区域的均匀分布，完成了复杂相机运动模型下视频流的近实时拼接。实验结果表明：该方法减少了级联误差累积带来的影响，提高了拼接影像的质量，可用于航拍视频的近实时拼接。但是，由于航带间不同的倾斜角度导致图像完全相反的变形，因此并未实现无人机视频倾斜拍摄情况下的多航带拼接问题。

[1] 王家宝,张亚非,陆建江,等.基于特征的航空视频序列拼接方法[J].解放军理工大学学报(自然科学版),2012,13(2):159-164.

[2] 刘善磊,王光辉,石善球,等.一种无人机视频帧自动拼接方法[J].测绘科学,2013,38(5):69-71.

[3] 程咏梅,张绍武,花永强,等.基于SIFT联合描述子的航拍视频图像镶嵌[J].西北工业大学学报,2010,28(1):51-56.

[4] 杨涛,张艳宁,张秀伟,等.基于场景复杂度与不变特征的航拍视频实时配准算法[J].电子学报,2010,38(5):1069-1077.

[5] 申浩,李书晓,申意萍,等.航拍视频帧间快速配准算法[J].航空学报,2013,34(6):1405-1413.

[6] 杨宇博,程承旗.基于分块Harris特征的航拍视频拼接方法[J].北京大学学报(自然科学版),2013(4):657-661.

[7]ZHOUGQ.Geo-referencingofvideoflowfromsmalllow-costcivilianUAV[J].AutomationScience&EngineeringIEEETransactionsOn,2010,7(1):156-166.

[8]LOWEDG.Distinctiveimagefeaturesfromscale-invariantkeypoints[J].InternationalJournalofComputerVision,2004,60(2):91-110.

[9]HEBERTB,ANDREASE,TINNET,etal.SURF:Speededuprobustfeatures[J].ComputerVision&ImageUnderstandingCviu,2008,110(3):404-417.

[10] ROSTEN E,TOM D.Machine learning for high-speed corner detection[A].Proceedings of the 9th European Conference on Computer Vision(ECCV)[C].2006.430-443.

[11] MICHAEL C,VINCENT L,CHRISTOPH S,et al.Brief:Binary robust independent elementary features[A].Proceedings of the 11th European Conference on Computer Vision(ECCV)[C].2010.778-792.

[12] RUBLEE E,RABAUD V,KONOLIGE K,et al.ORB:An efficient alternative to SIFT or SURF[J].ICCV,2011,58(11):2564-2571.

[13] LEUTENEGGER S,CHLI M,SIEGWART R Y.BRISK:Binary robust invariant scalable keypoints[J].ICCV,2011,58(11):2548-2555.

A Nearly Real-Time UAV Video Frame Mosaic Method

ZHENG Hui1,2,JIANG Cheng2,SUN Min2,LI Xiao-dong2,REN Xiang2,LIU Lei2

(1.CollegeofGeoscienceandSurveyingEngineering,ChinaUniversityofMining&Technology(Beijing),Beijing100083;2.InstituteofRS&GIS,PekingUniversity,Beijing100871,China)

In order to solve the problem of quick UAV video frame mosaic,a nearly real-time method is proposed.In this method,the image distortion resulted from oblique shooting is corrected,the strategy of feature extraction and descriptor construction in the ORB algorithm are improved,and the stability of feature points is increased,as well as distinction of descriptors.As a result,the precision of transformation models between frames is improved without decreasing the matching ratio or the number of matching points.In addition,the frame nearest to the node of the balanced binary tree is chosen as the projective plane,so that mosaic errors can be minimized.The experiment result shows that after applying this method to the mosaic processing,the cascading error is reduced,and the quality of result mosaic images is improved.What′s more,this method is qualified for nearly real-time tasks.

UAV;video flow mosaic;inclined shooting;geometric correction;cascading error

2015-05-25

国家科技支撑计划项目(2012BAH27B02;2012BAK12B02)

郑晖(1987-)，男，博士研究生，研究方向为无人机视频流处理。*通讯作者E-mail：sunmin@pku.edu.cn

10.3969/j.issn.1672-0504.2015.05.001

P231

1672-0504(2015)05-0001-05