APP下载

基于内容的视频检索中的镜头分割技术

2014-06-25王昆仑

中国高新技术企业 2014年9期

摘要:图像视频在具体、生动、确切、高效等方面有许多优点,成为人类接受外界信息的重要来源。如何提高视频资源的检准率、检全率,其现实意义将非常重大,如何分镜头是视频检索的第一步,镜头分割技术显得尤为重要。

关键词:视频检索;镜头分割;镜头渐变;镜头突变

中图分类号:TP391 文献标识码:A 文章编号:1009-2374(2013)13-0085-02

随着经济社会的快速发展和科学技术的飞速进步,视频等多媒体格式的信息量越来越大,来源也更为广泛。视觉成为人类接受外界信息的重要来源,其中,图像视频信息是视觉信息的主要表达方式,它所包含的信息量也是海量的,远远超过了文本、图片等数据格式。图像视频在具体、生动、确切、高效等方面有许多优点,由于这些特点就使得人类最重要的通信方式主要为基于视频信息的通信方式和以视频格式传输或携带的信息通信方式。这种视频信息方式更形象、更生动、更直观,更能够贴近或者还原于实际。计算机传统上存储数据的方式是基于文本的。视频数据信息已成为我们日常生活中不可或缺的重要内容,但由于它携带的信息量较大,也成为阻碍其发展的瓶颈,如何提高视频资源的检准率、检全率,其现实意义将非常重大,视频检索的第一步就是镜头。

1 镜头分割在基于内容的视频检索中作用

为构建视频资源数据库,首先应对保存的视频文件进行结构化处理。视频内容有四个层次,按从高到低的结构顺序,依次为视频序列、场景、镜头、帧。帧是指在数据和数字通信中,按某一标准预先确定的若干比特或字段组成的特定的信息结构。镜头是构成视觉语言的基本单位。它是叙事和表意的基础。在影视作品的前期拍摄中,镜头是指摄像机从启动到静止这期间不间断摄取的一段画面的总和;在后期编辑时,镜头是两个剪辑点间的一组画面;在完成片中,一个镜头是指从前一个光学转换到后一个光学转换之间的完整片段。场景是指电影、戏剧作品中的各种场面,由人物活动和背景等构成。连续的图像变化每秒超过24帧(frame)画面以上时,根据视觉暂留原理,人眼无法辨别单幅的静态画面;看上去是平滑连续的视觉效果,这种连续的画面叫做视频。

视频序列由数个视频场景组成,通常指单独的某个视频文件或者视频片段。场景通常由一个或者多个镜头构成。镜头由多个连续的图像帧构成。图像帧指单幅静态的图像,是构成视频文件的最小单位。

在播放视频时,定格时的每一个画面就是一个图像帧。摄像机拍摄物体时产生的一段连续图像就是镜头,由多个帧组成。拍摄对象运动、光源亮度变化或摄像头运动等都能引起镜头内部图像发生变化。场景是连接视频底层数字特征与高层语义的桥梁,它由语义相关的若干个镜头所组成。这些镜头不一定是连续的,但是必然在语义上有某种相关性,例如:不同镜头中人物所处的相同场所、不同事件发生时所在的相同地点等。场景一般可以代表特定的子事件,而众多的子事件组成了一个视频序列所代表的整体事件。

镜头分割(Shot Segment),即把视频文件分割成若干个镜头。由于镜头与镜头之间一般有很清楚的边界,成为边界帧。则镜头分割的主要任务就是把这些边界帧从构成视频文件的所有帧中找出来,也就是使用计算机来顺序的检测视频文件的每一帧,判断其是否是镜头边界帧,这项工作亦称为镜头边界检测(Shot Boundary Detection)。

分割后的每段视频片段都是一个独立的镜头,其中包含了能代表每个对应镜头的关键帧,这样就能通过提取关键帧来建立索引。因此,首先需要把视频序列分割成单个的视频镜头,然后再进行提取关键帧、提取视频片段整序、提取视频序列识别等。这有助于对视觉媒体从低层到高层进行处理、分析和理解的过程获取其内容并根据内容进行检索。

2 基于内容的视频检索中镜头分割方法

镜头间转换一般包括渐变(gradualtransition)和突变(cut transition)两种方式。所以相对应镜头间的转换,镜头检测研究方法也大致可分为镜头渐变和镜头突变检测研究两种研究方法。

直接将两个镜头连接就是镜头突变,它们中间不添加任何特效且不使用视频编辑技术。与之相反,镜头渐变则通过在两个镜头中间添加视频特效联接两个镜头。按照所添加的镜头间编辑特效的不同,镜头渐变技术包含溶解(dissolve)、叠化(Dissolve)、映射(Map)、擦除(Wipe)、划变(wipe)、划像(Iris)、淡入淡出(fade)等多种形式。

当前,主流的镜头边界检测算法可分为两类:基于压缩域的方法与基于象素域的方法。基于像素域的镜头切分主要是依据所拍摄对象的形状、纹理、颜色等特征从而实现镜头边界检测的原理。

总之,要实现视频镜头的分割,常用的方法就是计算视频中各连续帧之间底层视觉特征的帧差值F,再将F与预先设定或者自适应的域值T作比较,若F>T,则镜头边界不存在,若F

近些年来,使用智能计算与机器学习的方法检测镜头边界的算法已经逐渐兴起。由于在镜头渐变过程中,在内容上相邻帧的图像没有明显的突变,明显的切换点是难以检测到的。因此,渐变镜头的检测比切变镜头的检测更复杂,还有较多的问题亟待解决。利用单一的特征检测并不能很好解决两个镜头间变化多样的情况。2007年的TRECVID会议报告[48]指出渐变检测算法的查准率和查全率需要深一步提高,两者值均只介于70%~80%之间。提高渐变检测算法的查准率和查全率对于实现基于内容的视频检索系统有很大的应用价值和理论价值。

3 基于OpenCV的视频帧特征提取系统结构

其中视频库用于存储待分割的视频文件,提供简单的检索功能,并能存储各视频的基本特征信息。从视频库中取出视频后,先将其拆分为独立的视频帧,将各帧进行噪声消除处理,获得更为平滑的视频图像,然后将其转换至HSL色彩空间中,交给特征提取模块提取各帧的特征信息(包括像素域特征和压缩域特征),继而将这些信息存储成特征文件,交给机器学习库处理,从而得到结果文件。最后分析结果文件,得到镜头分割结果,完成处理过程。由于视频流的数据量大,又是一种非结构性的数据,需要对它进行一些预处理。镜头是视频流在编辑制作和检索中的基本结构单元,最为有效的预处理方法之一就是分镜头,它首先把这一段视频流,根据其组成的镜头,找出镜头的突变和渐变的切变点,进而标出每个镜头的起始帧号和结束帧号,然后从中挑出这一个镜头内的代表帧。后续的浏览与检索以及更高一级的视频结构化受镜头分割效果的直接影响。所以视频检索的第一步就是镜头,视频结构化的基础就是镜头的自动分割,视频分析和检索过程中的首要任务就是有效的视频镜头分割技术,也是人们研究的热点。

参考文献

[1] 孔祥鹏,马立和.基于H.264压缩域的运动对象快速分割方法[J].智能计算机与应用,2012,(8):2-4.

[2] 韩冰.基于智能软计算的视频镜头分割算法的研究

[J].西安电子科技大学学报,2006,(2):36-41.

[3] 梁薇.基于DSP的运动目标检测系统[J].计算机与网络,2012,(4):12-16.

[4] 许高程,张文君,王卫红.支持向量机技术在遥感影像滑坡体提取中的应用[J].安徽农业科学,2009,(6):3-5.

[5] 李东瀛,尉凯征,张.基于内容的视频检索技术

[J].信息系统工程.2011,(12):14-17.

作者简介:王昆仑(1979—),男,河南护理职业学院办公室主任,高校讲师,硕士。

(责任编辑:秦逊玉)

摘要:图像视频在具体、生动、确切、高效等方面有许多优点,成为人类接受外界信息的重要来源。如何提高视频资源的检准率、检全率,其现实意义将非常重大,如何分镜头是视频检索的第一步,镜头分割技术显得尤为重要。

关键词:视频检索;镜头分割;镜头渐变;镜头突变

中图分类号:TP391 文献标识码:A 文章编号:1009-2374(2013)13-0085-02

随着经济社会的快速发展和科学技术的飞速进步,视频等多媒体格式的信息量越来越大,来源也更为广泛。视觉成为人类接受外界信息的重要来源,其中,图像视频信息是视觉信息的主要表达方式,它所包含的信息量也是海量的,远远超过了文本、图片等数据格式。图像视频在具体、生动、确切、高效等方面有许多优点,由于这些特点就使得人类最重要的通信方式主要为基于视频信息的通信方式和以视频格式传输或携带的信息通信方式。这种视频信息方式更形象、更生动、更直观,更能够贴近或者还原于实际。计算机传统上存储数据的方式是基于文本的。视频数据信息已成为我们日常生活中不可或缺的重要内容,但由于它携带的信息量较大,也成为阻碍其发展的瓶颈,如何提高视频资源的检准率、检全率,其现实意义将非常重大,视频检索的第一步就是镜头。

1 镜头分割在基于内容的视频检索中作用

为构建视频资源数据库,首先应对保存的视频文件进行结构化处理。视频内容有四个层次,按从高到低的结构顺序,依次为视频序列、场景、镜头、帧。帧是指在数据和数字通信中,按某一标准预先确定的若干比特或字段组成的特定的信息结构。镜头是构成视觉语言的基本单位。它是叙事和表意的基础。在影视作品的前期拍摄中,镜头是指摄像机从启动到静止这期间不间断摄取的一段画面的总和;在后期编辑时,镜头是两个剪辑点间的一组画面;在完成片中,一个镜头是指从前一个光学转换到后一个光学转换之间的完整片段。场景是指电影、戏剧作品中的各种场面,由人物活动和背景等构成。连续的图像变化每秒超过24帧(frame)画面以上时,根据视觉暂留原理,人眼无法辨别单幅的静态画面;看上去是平滑连续的视觉效果,这种连续的画面叫做视频。

视频序列由数个视频场景组成,通常指单独的某个视频文件或者视频片段。场景通常由一个或者多个镜头构成。镜头由多个连续的图像帧构成。图像帧指单幅静态的图像,是构成视频文件的最小单位。

在播放视频时,定格时的每一个画面就是一个图像帧。摄像机拍摄物体时产生的一段连续图像就是镜头,由多个帧组成。拍摄对象运动、光源亮度变化或摄像头运动等都能引起镜头内部图像发生变化。场景是连接视频底层数字特征与高层语义的桥梁,它由语义相关的若干个镜头所组成。这些镜头不一定是连续的,但是必然在语义上有某种相关性,例如:不同镜头中人物所处的相同场所、不同事件发生时所在的相同地点等。场景一般可以代表特定的子事件,而众多的子事件组成了一个视频序列所代表的整体事件。

镜头分割(Shot Segment),即把视频文件分割成若干个镜头。由于镜头与镜头之间一般有很清楚的边界,成为边界帧。则镜头分割的主要任务就是把这些边界帧从构成视频文件的所有帧中找出来,也就是使用计算机来顺序的检测视频文件的每一帧,判断其是否是镜头边界帧,这项工作亦称为镜头边界检测(Shot Boundary Detection)。

分割后的每段视频片段都是一个独立的镜头,其中包含了能代表每个对应镜头的关键帧,这样就能通过提取关键帧来建立索引。因此,首先需要把视频序列分割成单个的视频镜头,然后再进行提取关键帧、提取视频片段整序、提取视频序列识别等。这有助于对视觉媒体从低层到高层进行处理、分析和理解的过程获取其内容并根据内容进行检索。

2 基于内容的视频检索中镜头分割方法

镜头间转换一般包括渐变(gradualtransition)和突变(cut transition)两种方式。所以相对应镜头间的转换,镜头检测研究方法也大致可分为镜头渐变和镜头突变检测研究两种研究方法。

直接将两个镜头连接就是镜头突变,它们中间不添加任何特效且不使用视频编辑技术。与之相反,镜头渐变则通过在两个镜头中间添加视频特效联接两个镜头。按照所添加的镜头间编辑特效的不同,镜头渐变技术包含溶解(dissolve)、叠化(Dissolve)、映射(Map)、擦除(Wipe)、划变(wipe)、划像(Iris)、淡入淡出(fade)等多种形式。

当前,主流的镜头边界检测算法可分为两类:基于压缩域的方法与基于象素域的方法。基于像素域的镜头切分主要是依据所拍摄对象的形状、纹理、颜色等特征从而实现镜头边界检测的原理。

总之,要实现视频镜头的分割,常用的方法就是计算视频中各连续帧之间底层视觉特征的帧差值F,再将F与预先设定或者自适应的域值T作比较,若F>T,则镜头边界不存在,若F

近些年来,使用智能计算与机器学习的方法检测镜头边界的算法已经逐渐兴起。由于在镜头渐变过程中,在内容上相邻帧的图像没有明显的突变,明显的切换点是难以检测到的。因此,渐变镜头的检测比切变镜头的检测更复杂,还有较多的问题亟待解决。利用单一的特征检测并不能很好解决两个镜头间变化多样的情况。2007年的TRECVID会议报告[48]指出渐变检测算法的查准率和查全率需要深一步提高,两者值均只介于70%~80%之间。提高渐变检测算法的查准率和查全率对于实现基于内容的视频检索系统有很大的应用价值和理论价值。

3 基于OpenCV的视频帧特征提取系统结构

其中视频库用于存储待分割的视频文件,提供简单的检索功能,并能存储各视频的基本特征信息。从视频库中取出视频后,先将其拆分为独立的视频帧,将各帧进行噪声消除处理,获得更为平滑的视频图像,然后将其转换至HSL色彩空间中,交给特征提取模块提取各帧的特征信息(包括像素域特征和压缩域特征),继而将这些信息存储成特征文件,交给机器学习库处理,从而得到结果文件。最后分析结果文件,得到镜头分割结果,完成处理过程。由于视频流的数据量大,又是一种非结构性的数据,需要对它进行一些预处理。镜头是视频流在编辑制作和检索中的基本结构单元,最为有效的预处理方法之一就是分镜头,它首先把这一段视频流,根据其组成的镜头,找出镜头的突变和渐变的切变点,进而标出每个镜头的起始帧号和结束帧号,然后从中挑出这一个镜头内的代表帧。后续的浏览与检索以及更高一级的视频结构化受镜头分割效果的直接影响。所以视频检索的第一步就是镜头,视频结构化的基础就是镜头的自动分割,视频分析和检索过程中的首要任务就是有效的视频镜头分割技术,也是人们研究的热点。

参考文献

[1] 孔祥鹏,马立和.基于H.264压缩域的运动对象快速分割方法[J].智能计算机与应用,2012,(8):2-4.

[2] 韩冰.基于智能软计算的视频镜头分割算法的研究

[J].西安电子科技大学学报,2006,(2):36-41.

[3] 梁薇.基于DSP的运动目标检测系统[J].计算机与网络,2012,(4):12-16.

[4] 许高程,张文君,王卫红.支持向量机技术在遥感影像滑坡体提取中的应用[J].安徽农业科学,2009,(6):3-5.

[5] 李东瀛,尉凯征,张.基于内容的视频检索技术

[J].信息系统工程.2011,(12):14-17.

作者简介:王昆仑(1979—),男,河南护理职业学院办公室主任,高校讲师,硕士。

(责任编辑:秦逊玉)

摘要:图像视频在具体、生动、确切、高效等方面有许多优点,成为人类接受外界信息的重要来源。如何提高视频资源的检准率、检全率,其现实意义将非常重大,如何分镜头是视频检索的第一步,镜头分割技术显得尤为重要。

关键词:视频检索;镜头分割;镜头渐变;镜头突变

中图分类号:TP391 文献标识码:A 文章编号:1009-2374(2013)13-0085-02

随着经济社会的快速发展和科学技术的飞速进步,视频等多媒体格式的信息量越来越大,来源也更为广泛。视觉成为人类接受外界信息的重要来源,其中,图像视频信息是视觉信息的主要表达方式,它所包含的信息量也是海量的,远远超过了文本、图片等数据格式。图像视频在具体、生动、确切、高效等方面有许多优点,由于这些特点就使得人类最重要的通信方式主要为基于视频信息的通信方式和以视频格式传输或携带的信息通信方式。这种视频信息方式更形象、更生动、更直观,更能够贴近或者还原于实际。计算机传统上存储数据的方式是基于文本的。视频数据信息已成为我们日常生活中不可或缺的重要内容,但由于它携带的信息量较大,也成为阻碍其发展的瓶颈,如何提高视频资源的检准率、检全率,其现实意义将非常重大,视频检索的第一步就是镜头。

1 镜头分割在基于内容的视频检索中作用

为构建视频资源数据库,首先应对保存的视频文件进行结构化处理。视频内容有四个层次,按从高到低的结构顺序,依次为视频序列、场景、镜头、帧。帧是指在数据和数字通信中,按某一标准预先确定的若干比特或字段组成的特定的信息结构。镜头是构成视觉语言的基本单位。它是叙事和表意的基础。在影视作品的前期拍摄中,镜头是指摄像机从启动到静止这期间不间断摄取的一段画面的总和;在后期编辑时,镜头是两个剪辑点间的一组画面;在完成片中,一个镜头是指从前一个光学转换到后一个光学转换之间的完整片段。场景是指电影、戏剧作品中的各种场面,由人物活动和背景等构成。连续的图像变化每秒超过24帧(frame)画面以上时,根据视觉暂留原理,人眼无法辨别单幅的静态画面;看上去是平滑连续的视觉效果,这种连续的画面叫做视频。

视频序列由数个视频场景组成,通常指单独的某个视频文件或者视频片段。场景通常由一个或者多个镜头构成。镜头由多个连续的图像帧构成。图像帧指单幅静态的图像,是构成视频文件的最小单位。

在播放视频时,定格时的每一个画面就是一个图像帧。摄像机拍摄物体时产生的一段连续图像就是镜头,由多个帧组成。拍摄对象运动、光源亮度变化或摄像头运动等都能引起镜头内部图像发生变化。场景是连接视频底层数字特征与高层语义的桥梁,它由语义相关的若干个镜头所组成。这些镜头不一定是连续的,但是必然在语义上有某种相关性,例如:不同镜头中人物所处的相同场所、不同事件发生时所在的相同地点等。场景一般可以代表特定的子事件,而众多的子事件组成了一个视频序列所代表的整体事件。

镜头分割(Shot Segment),即把视频文件分割成若干个镜头。由于镜头与镜头之间一般有很清楚的边界,成为边界帧。则镜头分割的主要任务就是把这些边界帧从构成视频文件的所有帧中找出来,也就是使用计算机来顺序的检测视频文件的每一帧,判断其是否是镜头边界帧,这项工作亦称为镜头边界检测(Shot Boundary Detection)。

分割后的每段视频片段都是一个独立的镜头,其中包含了能代表每个对应镜头的关键帧,这样就能通过提取关键帧来建立索引。因此,首先需要把视频序列分割成单个的视频镜头,然后再进行提取关键帧、提取视频片段整序、提取视频序列识别等。这有助于对视觉媒体从低层到高层进行处理、分析和理解的过程获取其内容并根据内容进行检索。

2 基于内容的视频检索中镜头分割方法

镜头间转换一般包括渐变(gradualtransition)和突变(cut transition)两种方式。所以相对应镜头间的转换,镜头检测研究方法也大致可分为镜头渐变和镜头突变检测研究两种研究方法。

直接将两个镜头连接就是镜头突变,它们中间不添加任何特效且不使用视频编辑技术。与之相反,镜头渐变则通过在两个镜头中间添加视频特效联接两个镜头。按照所添加的镜头间编辑特效的不同,镜头渐变技术包含溶解(dissolve)、叠化(Dissolve)、映射(Map)、擦除(Wipe)、划变(wipe)、划像(Iris)、淡入淡出(fade)等多种形式。

当前,主流的镜头边界检测算法可分为两类:基于压缩域的方法与基于象素域的方法。基于像素域的镜头切分主要是依据所拍摄对象的形状、纹理、颜色等特征从而实现镜头边界检测的原理。

总之,要实现视频镜头的分割,常用的方法就是计算视频中各连续帧之间底层视觉特征的帧差值F,再将F与预先设定或者自适应的域值T作比较,若F>T,则镜头边界不存在,若F

近些年来,使用智能计算与机器学习的方法检测镜头边界的算法已经逐渐兴起。由于在镜头渐变过程中,在内容上相邻帧的图像没有明显的突变,明显的切换点是难以检测到的。因此,渐变镜头的检测比切变镜头的检测更复杂,还有较多的问题亟待解决。利用单一的特征检测并不能很好解决两个镜头间变化多样的情况。2007年的TRECVID会议报告[48]指出渐变检测算法的查准率和查全率需要深一步提高,两者值均只介于70%~80%之间。提高渐变检测算法的查准率和查全率对于实现基于内容的视频检索系统有很大的应用价值和理论价值。

3 基于OpenCV的视频帧特征提取系统结构

其中视频库用于存储待分割的视频文件,提供简单的检索功能,并能存储各视频的基本特征信息。从视频库中取出视频后,先将其拆分为独立的视频帧,将各帧进行噪声消除处理,获得更为平滑的视频图像,然后将其转换至HSL色彩空间中,交给特征提取模块提取各帧的特征信息(包括像素域特征和压缩域特征),继而将这些信息存储成特征文件,交给机器学习库处理,从而得到结果文件。最后分析结果文件,得到镜头分割结果,完成处理过程。由于视频流的数据量大,又是一种非结构性的数据,需要对它进行一些预处理。镜头是视频流在编辑制作和检索中的基本结构单元,最为有效的预处理方法之一就是分镜头,它首先把这一段视频流,根据其组成的镜头,找出镜头的突变和渐变的切变点,进而标出每个镜头的起始帧号和结束帧号,然后从中挑出这一个镜头内的代表帧。后续的浏览与检索以及更高一级的视频结构化受镜头分割效果的直接影响。所以视频检索的第一步就是镜头,视频结构化的基础就是镜头的自动分割,视频分析和检索过程中的首要任务就是有效的视频镜头分割技术,也是人们研究的热点。

参考文献

[1] 孔祥鹏,马立和.基于H.264压缩域的运动对象快速分割方法[J].智能计算机与应用,2012,(8):2-4.

[2] 韩冰.基于智能软计算的视频镜头分割算法的研究

[J].西安电子科技大学学报,2006,(2):36-41.

[3] 梁薇.基于DSP的运动目标检测系统[J].计算机与网络,2012,(4):12-16.

[4] 许高程,张文君,王卫红.支持向量机技术在遥感影像滑坡体提取中的应用[J].安徽农业科学,2009,(6):3-5.

[5] 李东瀛,尉凯征,张.基于内容的视频检索技术

[J].信息系统工程.2011,(12):14-17.

作者简介:王昆仑(1979—),男,河南护理职业学院办公室主任,高校讲师,硕士。

(责任编辑:秦逊玉)