APP下载

立体视觉资源分类研究

2018-12-10段峰峰段思遥

软件导刊 2018年9期
关键词:检索分类

段峰峰 段思遥

摘要:立体视觉资源与二维视觉资源相比,在结构原理、内容表达、视觉呈现等方面更为复杂,以二维视觉资源的分类方式对其进行管理存在缺乏资源特点、描述不准确、处理复杂度高等问题。对立体视觉资源分类方式进行了研究,阐述了基于存储形式、编码格式、显示原理、显示分辨率、结构格式、视差类型、内容类型的分类方式及原理,为更好地实现立体视觉资源的管理、利用及研究提供思路和借鉴。

关键词:立体视觉资源;分类;编目存储;检索

DOIDOI:10.11907/rjdk.181071

中图分类号:TP301

文献标识码:A文章编号文章编号:16727800(2018)009005204

英文标题Research on the Classification of Stereo Vision Resources

--副标题

英文作者DUAN Fengfeng1,2,DUAN Siyao1,2

英文作者单位(1.School of Journalism and Communication,Hunan Normal University,Changsha 410081,China;

2.Hunan Social Public Opinion Monitoring and Network Public Opinion Research Center,Changsha 410081,China)

英文摘要Abstract:Compared with two-dimensional visual resources,stereo visual resources are more complex in structure principle,content expression,visual presentation etc.There are many problems,such as lack of resource features,inaccuracy of description,high complexity for processing when managing the stereo visual resources by the classification methods of two-dimensional visual resources.The classification methods are studied for stereo visual resources to better facilitate catalogue,management,retrieval and utilization.In the paper,classification methods and principle based on storage form,encoding format,display principle,display resolution,structure format,disparity type and content type are discussed.The purpose is to provide ideas and references for better management,utilization and related research of stereo vision resources.

英文关键词Key Words:stereo vision resources; classification; catalogue; retrieval

0引言

随着立体视觉技术不断成熟,其产业迅速发展。不同于传统的二维视觉资源,立体视觉资源关键在于存在深度信息,能够以全新立体化方式将视觉内容呈现给用户,使用户具有立体全真的体验,而立体视频技术则给用户带来了更加真实的体验效果。立体视觉技术及资源在影视娱乐、科技、教育、医疗、工业等诸多领域都具有广泛应用,随着相关领域的发展,立体视觉技术产业在未来社会发展中将不断增长,产生更大的应用价值。

计算机技术、数字媒体技术、互联网技术的发展促使网络数字资源不断增加,以立体视觉技术为支撑的数字立体视觉资源和内容迅速增多,资源类型也呈多样化,如图像、视频等立体视觉资源,半结构化、非结构化立体视觉资源,以及其它各种结构形式的立体视觉资源等。其在管理和利用方面与二维视觉资源相比具有一定的特殊性和差异性,对其进行分类研究,能较好地支持海量立体视觉资源的有效管理,实现高效的编目存储和检索,促进立体视觉资源更好地发展和利用。

1基于存储形式的立体视觉资源分类

1.1立体视觉文本资源

立体视觉文本资源包括立体视觉文本和立体视觉资源文本描述。立体视觉文本指文档和文件中的立体视觉文字,是立体视觉资源的呈现形式之一。该类立体视觉资源可以增强文本呈现的艺术性和视觉的真实感,是最简单的立体视觉资源。立体视觉资源文本描述指立体视觉资源元数据,即基于文本对立体视觉资源进行的描述和说明,目的是更好地实现立体视觉资源高效、精确的编目管理,更好地实现基于文本的立体视觉资源获取。

1.2立体视觉图像资源

立体视觉图像资源是基于立体视觉原理和技术的图像数据。立体视觉是双眼观察景物能分辨物体远近形态的感觉,即包含有重构场景的三維几何信息。立体视觉图像获取有多种方式,目前主要是通过立体相机或摄像机实现。从原理上分析,立体视觉图像获取和实现方式有[1]:①利用测距器获取范围数据(Range data)信息或深度信息,并通过此信息建立三维场景;②根据近大远小原理,利用一幅图像所提供的深度信息建立三维场景和立体描述;③利用不同视点拍摄的图像进行三维场景构建,即通过两幅或两幅以上图像信息重构三维场景。

1.3立体视觉视频资源

立体视觉视频是随时间连续的具有语义关联的立体视觉图像集合,是一种连续动态的视觉表达形式,本质上基于立体视觉图像原理和技术。它能提供一种具有全新立体感的视频表达形式,增强用户的真实感体验。与单通道二维视频相比,立体视频一般有两个或两个以上视频通道,数据量远远大于单通道视频,所以对立体视频的高效压缩尤为重要。目前对立体视频的研究主要有视差估计、信息隐藏、错误隐藏、压缩编码、网络传输、质量评价等[2]。

1.4立体视觉3D模型资源

3D模型是通过3D建模工具制作和生成的立体视觉文件形式,如3Ds Max、Maya等生成的3D模型源文件。尽管3D模型构建和呈现方式多样,但其本质依然是基于双目或多目视觉原理。随着3D技术的发展, 3D模型文件在不同的应用领域以多种不同的文件格式存在[3]。

2基于编码格式的立体视觉资源分类

2.1基于不同编码存储方案的立体视觉资源

双目或多目立体视觉图像及视频的存储主要有两种方案:①直接对各个单视点文件进行独立编码存储;②采用“单视点+深度”方式进行编码存储。单视点独立编码存储是针对双目或多目立体视觉图像或视频,对每个视点独立进行编码存储,其本质是基于二维图像或视频的方法和技术,对每个视点文件进行独立处理。该方式主要通过单通道内冗余信息的处理和压缩实现立体视觉图像或视频的优化及编码存储[4]。对于单视点深度编码存储,每个单视点并不是独立存在,而是具有一定关联关系,其在内容获取时通过同步设备对同一场景进行捕捉,因而在编码存储时可根据视点间的关系和依赖性进行处理,即采用“单视点+深度”的方式。单视点一般选取左视点,而深度则是通过视点间的匹配形成视差,进而计算出深度信息而获取[5]。通过“单视点+深度”的形式可以大大减少立体视觉图像或视频的数据量,不仅可实现单通道内冗余信息的压缩,而且可根据关联关系实现通道间的冗余信息压缩,在显示时通过视点间的信息实现再现。

2.2基于不同编码类别的立体视觉资源

主要是基于有损压缩和无损压缩形式存在的立体视觉资源。有损压缩利用人类对立体视觉图像或视频中的某些频率成分不敏感特性,允许压缩过程中损失一定的信息。虽然不能完全恢复原始数据,但所损失的部分对理解原始图像影响较小,由此换来较大的压缩比。无损压缩是利用数据的统计冗余进行压缩,可完全恢复原始数据而不引起任何失真,但压缩率通常受到数据统计冗余度的限制。该方法常用于立体视觉文本数据和特殊应用场合的图像数据(如指纹图像、医学图像等)压缩,用于视频资源压缩较少。

2.3基于不同编码算法的立体视觉资源

基于存储和呈现形式的立体视觉资源类型很多,各种类型所采取的编码算法也不尽相同,根据不同的存储和传输需要,编码算法也可能不同。立体视觉资源往往数据量较大,在传输中尤其需要高效的编码算法。基于此,一些优秀算法在立体视觉资源编码存储中具有重要应用,如JPEG、PCM、MPEG、H.264等。

2.4基于不同文件格式的立体视觉资源

以立体视觉形式存在的内容资源,最终表示的格式多种多样,根据文件编码和存储形式所形成的文件格式也有多种类型,这些类型的文件格式分别以不同的扩展名存在,如.jpg、.avi,以及3D模型文件格式.stl、.3ds、.obj等。

3基于顯示原理的立体视觉资源分类

3.1双目立体视觉资源

双目立体视觉资源主要包括双目立体视觉图像资源和双目立体视频资源。双目立体视觉是机器视觉领域的重要技术之一,它基于视差原理并利用成像设备,从不同位置或角度获取被测物体的两幅图像,通过计算图像对应点间的位置偏差获取物体三维几何信息。成像时根据不同视角的双目图像,基于视差原理恢复为物体及场景的立体信息,重建物体三维轮廓及位置,与平面视觉图像的最大区别在于其拥有深度信息[6]。双目立体视频是对同一物体或场景进行拍摄所获取的两路合成或两路分离的视频形式,并基于双目立体视觉图像原理进行显示,达到立体呈现画面的效果。

3.2多目立体视觉资源

多目立体视觉资源包括多目立体视觉图像资源和多目立体视频资源。多目立体视觉图像和视频是基于双目立体视觉原理,用多台相机或摄像机从多个不同角度对同一物体或场景进行图像获取,并基于一定结构形式进行显示,从而产生立体视觉效果的方式。多目立体视觉是双目立体视觉的拓展和延伸,具有更为真实、全方位的立体呈现效果。通常所见的多目立体视觉有8目立体视觉、16目立体视觉、32目立体视觉等。多目立体视频往往比双目立体视频更为复杂,需要解决获取和显示的同步性问题。

3.3体显示立体视觉资源

体三维显示是在一个具有宽度、高度和深度的真实三维空间内进行图像信息再现的技术,也称空间加载显示(Space-Filling Display)。它以体素作为图像信息显示的基本要素,因具有真实体积和深度,故也称为“真三维显示技术”。体三维显示通过适当方式激励位于透明显示体积内的物质,利用可见辐射的产生、吸收或散射而形成体素。当体积内许多方位的物质都被激励后,便形成由许多分散体素构成的三维图像,浮在真实三维空间即观察者所在的物质世界中。就像一个现实三维物体一样,能自动满足几乎所有生理和心理深度暗示,可多人多角度同时裸视观察,完全符合“真三维交互、自由裸视”要求,是一种支持人机交互的理想三维显示方式。体三维显示包括基于切片式投影的体显示和基于扫描旋转螺旋面的体显示[7]。

3.4全息立体视觉资源

全息立体成像是基于幻影成像方式,将物体的全息影像投射到透明介质上,利用干涉原理和光束叠加产生3D立体观感。全息成像是先利用干涉原理记录物体光波信息,实现影像拍摄;然后利用衍射原理再现物体光波信息,达到成像效果[8]。

3.5三维全景立体视觉资源

三维全景是基于全景图像的真实场景虚拟现实技术,通常是把相机环360°拍摄一组或多组照片拼接成一个全景图像,经过一系列数学计算得到其球形全景的矩形投影图或立方体图,然后通过计算机技术实现全方位互动式观看。三维全景技术主要包括全景图生成技术和后期制作合成技术。全景图生成技术包括全景图像采集技术、图像预处理技术、像素坐标及相机焦距估计技术、全景图投影模型技术等[9]。后期制作合成技术是针对前期拍摄的全景素材,基于全景拼合技术并使用全景拼合软件进行图像拼合处理,从而实现大视角的全景展示以及立体化场景体验[10]。三维全景有360°全景和720°全景两种形式。360°全景展示能体验到水平方向的全方位展示效果,而720°全景展示既能体验到水平方向,也能体验到垂直方向的全方位立体效果,是完全的场景展示。

3.63D动画立体视觉资源

三维动画通常基于制作软件(如3Ds MAX、Maya等)在计算机中首先建立一个虚拟世界,按照要表现对象的形状尺寸建立模型及场景,设定模型的运动轨迹、虚拟摄影机的运动和其它动画参数,然后按要求为模型赋上特定材质并打上灯光,最后通过渲染生成动画资源。它是基于时间线的3D序列模型文件的集合,将现实世界场景以更加真实、立体化的方式全方位呈现出来,给用户全真的感官体验。

4基于显示分辨率的立体视觉资源分类

4.1标清立体视觉资源

标清(Standard Definition,简称SD)是物理分辨率在720p以下不足以达到高清标准的一种视频格式,其分辨率在400线左右。常见的标清形式有480×320像素、640×480 像素视频。以标清分辨率标准表示和呈现的立体视觉资源即为标清立体视觉资源。

4.2高清立体视觉资源

高清(High Definition,简称HD)最早由美国电影电视工程师协会(SMPTE)等权威机构制定相关标准。国际上公认的高清标准是:视频垂直分辨率超过720p(逐行扫描)或1080i(隔行扫描),视频宽高比为16∶9。常见的高清分辨率为1 024×720p 和1 920×1 080i。以高清分辨率标准表示和呈现的立体视觉资源即为高清立体视觉资源[11]。

4.3全高清立体视觉资源

全高清(Full High Definition,简称Full HD)指垂直分辨率为1 080p的视频形式,即分辨率为1 920×1 080p。以全高清分辨率标准表示和呈现的立体视觉资源即为全高清立体视觉资源。

4.4超高清立体视觉资源

超高清(Ultra High-Definition,简称Ultra HD)由国际电信联盟(International Telecommunication Union)界定,将屏幕的物理分辨率达到3 840×2 160(4K×2K)及以上的显示称为超高清,是普通Full HD(1 920×1 080)宽高的两倍,显示设备总像素数量达到800万以上。常见的超高清有“4K分辨率(3 840×2 160 像素)”和“8K分辨率(7 680×4 320像素)”两种形式。以超高清分辨率标准表示和呈现的立体视觉资源即为超高清立体视觉资源。

5基于结构格式的立体视觉资源分类

基于结构格式的立体视觉资源主要针对立体视觉图像和視频,本分类方法以常见的双目立体视频为例阐述不同类别结构格式的立体视觉资源形式[1213]。

5.1左右分离立体视觉资源

左右分离是指两路独立的视频格式,和正常的左右合成格式基本相似,其视频分辨率不发生变化,在编码、存储、传输等相关处理中可独立操作,一般数据量较大。左右分离是目前较好的偏光立体视频格式。

5.2左右合成立体视觉资源

包括正常左右合成格式和变形左右合成格式。正常左右合成是把左右两路视频合成一个视频的偏振格式,左右视频宽度、高度均不变,直接合成后一般是较宽的非标准格式。变形左右合成也称为标准的左右格式,这种格式的立体视频是一种常见的结构形式,长宽比通常是标准形式,一般为1 080P、720P、576P、480P的标准视频。合成时分别将宽度除以2,高度不变,通过立体视频播放器播放和显示。

5.3上下合成立体视觉资源

主要包括正常上下合成、变形上下合成、隔离变形上下合成等格式的立体视觉资源。正常上下格式和左右格式基本一样,也是非标准宽高比的视频格式,是将两路视频以上下方式排放,宽度、高度均不变。变形上下格式也称为标准的上下格式,具有标准的宽高比,合成时图像左右伸拉变形,上下视频分辨率分别在纵向上除以2,横向不变。隔离变形上下格式是一种间隔变形上下格式的立体视频形式,合成时同变形上下格式几乎相同,只是中间有一条黑色间隔,在分辨率上保持宽度不变,高度分别除以2。

5.4交错格式立体视觉资源

包括逐行扫描交错格式和隔行扫描交错格式立体视觉资源。逐行扫描交错是两重影的交错格式,是一种比较科学但较为复杂的偏振立体格式,运用了反交错技术。隔行扫描交错是垂直方向隔行扫描的条形交错格式,以交错场直接显示一幅立体帧。

5.5互补色格式立体视觉资源

互补色立体视觉资源是利用不同色光混合后能得到白光的原理,将以互补色表示的对象或场景进行影像重叠而产生视差,从而形成立体感[14]。包括绿红格式、红青、红蓝格式、红绿格式、红蓝格式、棕蓝格式、黄蓝格式、黑白红青格式等立体视觉资源。

6基于视差类型的立体视觉资源分类

双目立体视觉系统中,立体效果的呈现关键在于双目视差,而视差是由双目成像的左右视觉差异产生的,在显示中以双目图像对方式呈现。视差具有垂直视差和水平视差之分,水平视差相对于垂直视差能够达到更理想的立体视觉效果,且能较好地实现视觉舒适度[15]。在相关研究和成像实践中通常针对水平视差,水平视差包括正视差、负视差、零视差[16]。

6.1正视差立体视觉资源

双目立体视觉正视差又称入屏,指观察者所观测到的左右视觉成像点在成像面后,即被观察到的影像或对象在屏幕后,远离观察者。基于正视差原理的视觉资源(如立体视频镜头、片段等)即为正视差立体视觉资源。一般常用于需要表达视野开阔、场面宏大的视频镜头或片段中。

6.2负视差立体视觉资源

双目立体视觉负视差又称出屏,指观察者所观测到的左右视觉成像点在成像面前,即被观察到的影像或对象在屏幕前,靠近观察者,通常会有“飞”出屏幕的感觉。基于负视差原理的视觉资源(如立体视频镜头、片段等)即为负视差立体视觉资源,常用于表达惊悚、刺激、夸张的视频镜头或片段中。

6.3零视差立体视觉资源

双目立体视觉零视差,指观察者观测到的左右视觉成像点在成像面上,即被观察到的影像或对象在屏幕上。在正视差和负视差情况下画面对像呈现具有明显深度,相应的视觉显示呈立体感。零视差则没有深度信息,相应的立体感也不明显,但通常在立体视频视觉显示时用作正视差和负视差之间的过渡,以使视差和深度变换过程具有渐进性,缓解和减少观察者的视觉疲劳。

7基于内容类型的立体视觉资源分类

基于内容类型的立体视觉资源主要根据常用的《广播电视节目资料分类法》对其进行分类[17],分为政治类、法律类、军事类、经济类、文学艺术类、体育类、历史地理类、科学技术类、医药卫生类、社会生活与社会问题类、娱乐休闲类、文化类、教育类、哲学宗教类、城乡建设与环境类等立体视觉资源,根据需要可对各类资源进行二级、三级等深层次分类。

参考文献参考文献:

[1]塞利斯基.计算机视觉:算法与应用[M].艾海舟,兴军亮,译.北京:清华大学出版社,2012.

[2]董全武,周同,郭宗明,等.立体视频镜头误差检测和质量分析[J].北京大学学报:自然科学版,2014,50(6):9981006.

[3]李彦生,尚奕彤,袁艳萍,等.3D 打印技术中的数据文件格式[J].北京工业大学学报,2016,42(7):10091016.

[4]VETRO A,WIEGAND T,SULLIVAN G J.Overview of the stereo and multiview video coding extensions of the H.264/MPEG4 AVC standard[J].Proceedings of the IEEE,2011,99(4):626642.

[5]赵慧敏,姜秀华.基于视频加深度格式的立体视频技术分析[J].电视技术,2014,38(1):25.

[6]TSINGALIS I,TEFAS A,NIKOLAIDIS N,et al.Shot type characterization in 2D and 3D video content[C].2014 IEEE 16th International Workshop on Multimedia Signal Processing (MMSP),2014:15.

[7]潘文平,沈春林,蔡亮,等.交互式动态体三维显示关键技术[J].科技导报,2011,29(1):4451.

[8]余文涛,张汉乐,邓欢,等.基于全息光学元件的增强现实3D显示系统[J].中国激光,2016,43(10):202208.

[9]赵阳.三维全景图像生成的若干关键技术研究[D].沈阳:沈阳理工大学,2015.

[10]秦曉军,黄秋儒.面向网络视频的三维全景展示技术[J].电视技术,2014,38(19):120122.

[11]崔建.从模拟到数字、从标清到高清——视频记录存储设备的历史回顾和发展(下)[J].现代电视技术,2016,(2):8891.

[12]邱丽娜.2D+深度格式的3D视频重建技术研究[D].武汉:华中科技大学,2013.

[13]李响.立体影片格式有多少种[EB/OL].天极网,http://news.yesky.com/4/33946004.shtml,20121031.

[14]刘妍秀.3D显示技术的原理及应用[J].长春大学学报,2011,21(12):5254.

[15]蔡辉跃.虚拟场景的立体显示技术研究[D].南京:南京邮电大学,2013.

[16]段峰峰,王永滨,杨丽芳,等.一种时间一致性立体视频深度图序列估计算法[J].计算机应用研究,2015(10):31423146.

[17]全国广播电视标准化技术委员会.GY/Z 199-2004.广播电视节目资料分类法[S].北京:国家广播电影电视总局,2004.

责任编辑(责任编辑:杜能钢)

猜你喜欢

检索分类
分类算一算
垃圾分类的困惑你有吗
2019年第4-6期便捷检索目录
分类讨论求坐标
数据分析中的分类讨论
《国外医药抗生素分册》第37卷1~6期(2016年)目次检索
专利检索中“语义”的表现
国际|标准|检索
国际标准检索
国际标准检索