图书馆视频资源著录和标引信息获取探究

2010-03-22陈洁薇广东药学院图书馆广东广州510006

图书馆建设 2010年8期

陈洁薇（广东药学院图书馆广东广州 510006）

近年来随着视频资源大规模地出现，人们越来越重视对其的利用。但由于多数视频资源著录和标引不规范，读者在利用视频资源过程中存在着障碍。例如，读者在图书馆的视频资源中要查找某个镜头就需要有经验的馆员逐一搜寻视频拷贝，既浪费时间还不一定能找到。所以对视频资源的规范著录和准确标引是建立视频资源信息检索的前提，也是对视频资源进行有效管理与利用的基础。

1 视频资源的著录和标引规则

1995年，由美国图书馆界、计算机界和博物馆界的专家组成的委员会共同推出了都柏林核心计划，确认了网络资源内容描述的最基本元素，为网络资源与视频资源的著录和标引奠定了基础[1]。都柏林核心计划由15个元素组成：题名、作者或创作者、主题词或关键词、内容描述、出版者、其他责任者、日期、资源类型、格式、资源标识、来源、语言、关系、范围和权限管理。都柏林核心元数据的基本功能是识别、描述、组织和发现网络资源与多媒体资源，对网络信息资源和多媒体资源进行有效的描述、著录和标引，有效地解决网络资源和多媒体资源的编目和利用问题。

MARC（Machine-Readable Cataloging，机器可读目录）格式是我国图书馆长期以来一直使用的编目格式，随着网络资源的出现及其著录的需要，添加856字段使MARC具备了对网络信息资源进行编目组织的功能，MARC和都柏林核心元数据共同成为组织网络信息资源、视频资源的重要手段[2]。

2 图书馆视频资源的建设现状

计算机存储技术和网络传播技术的迅速发展为视频资源的开发利用创造了条件，使世界范围内的多媒体资源占出版物总数的1/3。国内外多数图书馆已经开始了多媒体资源的建设和服务，如深圳图书馆、北京大学图书馆、广东省立中山图书馆的“多媒体资源”数据库，华南师范大学图书馆的“教育资源光盘数据库”，北京舞蹈学院图书馆的“网上报告厅视频服务”，清华大学图书馆2006年底推出的“‘知识视界’视频教育资源”数据库[3]，广州警官学院图书馆2003年建设的“公安视频案例教学资源数据库”和“法律视频教学资源数据库”[4]，武汉理工大学图书馆的“音视频点播”系统，中南大学图书馆的“音视频资源”系统等，但大多数都处于起步摸索阶段。此外，目前图书馆对视频资源的著录和标引极不规范，有的图书馆使用MARC格式著录，有的图书馆使用都柏林核心元数据著录；有的图书馆使用分类标引，有的图书馆使用主题标引；甚至有的图书馆只在视频资源库的界面上列出配有文字介绍的视频画面。视频资源在著录和标引方面的差异使视频资源的检索方法缺少规范性，究其原因主要是视频资源载体多样，一些视频根本找不到相应的文字说明，标引存在一定的难度。因此，如何合理地对图书馆视频资源进行著录和标引并使资源得到高效利用，是目前各个图书馆面临的关键问题。

3 视频资源著录和标引信息的获取

3.1 基于视频资源内容的著录和标引信息的获取[5]

基于视频资源内容的信息获取即对视频资源中的图像、视频、音频内容进行分析，抽取特征和语义，作为视频资源著录和标引的依据。对视频资源内容获取需运用镜头分割技术、关键帧抽取技术、图像特征提取技术和视频结构重构技术。

3.1.1 镜头分割技术

大部分视频资源是由多个镜头组成的。对视频资源内容的著录和标引信息的获取首先要把视频资源自动地分割为镜头，将其作为视频资源著录或标引的信息来源，这个过程称为镜头边界的检测或场景转换检测。采用镜头分割技术就是把视频资源的内容分成若干个镜头，每个镜头都作为视频数据的基本单元（也称为元数据）。视频流中的镜头由在时间上连续的视频帧组成，代表每个场景中时间和空间上的连续动作，对应着摄像机的每次起、停操作记录。镜头分割技术对镜头的分割方法有4种：①镜头切变检测，包括图像像素差法、模板比较法、似然比方法、颜色直方图差法、颜色直方图平方差法、平均密度差方法等；②双比较技术，它既能检测到正常的镜头切变又能检测到镜头渐变；③动态分析技术，是解决镜头分块边界分割问题的技术；④视频压缩技术，即依据比较前后视频帧图像的压缩系数，按一定的条件设定压缩系数，当满足压缩条件时把它们切分为两组镜头，避免“解压—检索—压缩”带来的大量计算。

3.1.2 关键帧抽取技术

关键帧是反映一组镜头中主要信息内容的一帧或若干帧图像。关键帧的作用类似于文本检索中的关键词，用关键帧代表镜头能够利用图像检索技术对视频镜头进行检索。关键帧的抽取方法有5种：①基于镜头的方法，即为每个镜头选取一个关键帧，该方法非常适合于视频内容活动性小或保持不变的镜头；②基于内容分析的方法，该方法是根据镜头内容的变化程度选择具有代表性的关键帧；③基于运动分析的方法，该方法是借助光流分析技术计算镜头中的运动量，在运动量中选取有代表性的关键帧；④基于镜头活动性的方法，该方法是通过镜头的变换来选取关键帧的方法；⑤基于聚类的方法，该方法是把镜头内容大致相同的合在一起，选取共同的关键帧。

3.1.3 图像特征提取技术

视频资源的图像特征分为静态特征和动态特征两种。针对关键帧而言，静态特征的提取可以采用图像特征（如颜色、纹理、形状和边缘特征等）提取技术。图像动态特征的提取是在运动中选取图像的特征，其提取方法有光流方程法、基于块的方法、像素递归法、贝叶斯法和X线断层分析法。

3.1.4 视频结构重构技术

视频结构重构技术的实质就是将语义相关的镜头组合聚类。从情节的内涵和外延来看，时间上连续、内容上相关的一组镜头就是一个情节。现有文献对情节没有统一的定义，不同的研究者给出的情节名称也不尽相同，如视频段落、视频段、情节单元等。情节更符合人们在观看视频时对内容的理解，但是目前对情节的研究尚需更多理论和技术的支持。

3.2 基于视频资源文本的著录和标引信息获取[6]

3.2.1 视频资源文本描述

基于视频资源的文本描述是将视频资源的内容以文本的形式描述出来，辅以故事板镜头片段、代表帧等可视化信息，如在《人体解剖学》视频资源中，通过主题词、关键词等文本信息对850个视频片段元数据进行描述。

3.2.2 视频资源的创作脚本

大多数视频资源（如电影片、电视片、教学片、新闻、广告等）在摄像、编辑之前就已经有描述视频作品的镜头、场景和背景、道具、人物、台词、动作等创作脚本，它不仅是视频资源的文本描述，也是视频管理的重要文档。基于创作脚本对视频进行分析、描述和管理的前提是视频作品本身具有规范的、与视频内容和步调一致的创作脚本。

3.2.3 声音信息转换为文本信息

声音信息是视频资源的重要组成部分，因为用户获取的视频信息主要是声音信息，借助语音识别技术和多媒体自动标引技术将视频中的声音信息转换为文本信息，并对文本信息进行描述。目前对于视频资源中的新闻片、记录片、广告片、教学片等声音信息进行文本描述已经取得了较好的效果。

3.2.4 采集视频资源中的文字信息

视频资源中的文字往往包含大量的信息，它与视频内容同步，是视频分析和标引的重要语义线索。视频资源中包含的文字信息主要有两种类型：第一种是对白或解说字幕及少量的视频画面中某对象所包含的文字或背景文字。可以通过视频画面中出现的文字探测并识别出来，即对每一帧图像进行一定的预处理后，利用OCR（Optical Character Recognition，光学字符识别）技术识别文字。例如，汉王文本王—文友680光学字符识别技术、创华OCR文字识别技术都能够探测到视频中的隐藏字幕。此外，王辰等提出的灰度变换、边缘增强、边缘检测、字符探测和文字串探测的“五步骤探测方法”[6]，其探测率和探测准确率可达80%以上。第二种是一些影视作品中所包含的隐藏字幕，可以通过解码隐藏字幕获得。隐藏字幕就是把文字加入标准NTSC（National Television Standards Committee，美国国家电视标准委员会）视频信息的一种标准化编码方法，通过相应的解码器就能显示文字。

3.2.5 从视频资源的相关资料获取文本信息

许多视频作品都有一些相关的资料，如作品的宣传资料（包括作品的故事简介）和评论资料、电视台的专题节目等。这些资料从多方面反映出视频资源的语义信息，利用这些现有资料获取视频资源内容信息较为准确、方便。

3.3 视频资源的题名、责任者和附注等著录信息的选取

根据以上视频资源著录信息的选取，采取先选取内部信息、当内部信息缺乏时再选取外部信息的原则，对视频资源进行著录和标引。内部信息是指名称、主菜单、程序说明等信息；外部信息是指光盘标签、盒封、封套和附件等上的信息，如永久固定或印刷在物理载体上的标签，文献资料、容器或其他附件，盒封、封套及附件上的信息。

3.3.1 以视频资源的内容确定题名信息

一般情况下，视频资源的题名信息是按照视频资源的内容确定的。当视频资源题名信息分别来自物理载体、片头、片尾而使题名著录信息杂乱、难以判断和取舍时，要详细分析题名信息[7]。具体的方法有：①分析视频资源的内部信息，寻找题名项；②分析视频资源片头（或片尾）的附加广告，查看其是否与本视频内容有关，以判断广告内容中的题名是否是本视频资源的题名或丛书题名；③当片头题名与视频内容相符时，即使与载体标签、盒封、载体本身等物理载体上的题名不一致，也均以片头题名为题名，其他物理载体上的题名著录在附注题名项；④当片头题名与视频内容不符时，则取载体标签、盒封、载体本身等物理载体上的与本视频内容最贴切的题名为题名或责任说明项题名。

3.3.2 视频资源的责任者项著录

视频资源责任者项的选择以视频资源的责任说明为主要信息来源，当主要信息源缺乏时，再以代信息源为主。责任者的选取有以下3种情况：①一般情况下，信息源上的责任说明按曲作者、词作者、编撰者、表演者（以独唱或独奏者、主讲者、朗诵者、演出者序）、合唱（奏）者、演出导演（含对演出负有全面责任者）和录音制品的制作者（编辑、录音、拟音等）顺序著录；②若信息源上的责任说明属综合型的，则按信息源上的排列格式或序列著录；③若信息源上的责任说明为数众多且错综复杂，则可只著录制作公司名称和制作者、导演及对作品主要负全面责任的人名。

3.3.3 视频资源著录的相关附注[8]

视频资源的附注主要包括：题名来源附注、载体形态附注、附件附注、摘要附注、其它载体附注、系统要求附注。其中，载体形态附注的字段为215，并包括以下几项：$a特定资料标识及其数量、单位及资源播放时的特定格式等；$c其它形态细节，如声音特征、色彩、声道、磁道、播放等；$d尺寸，光盘的直径尺寸大小；$e附件光盘所带的附件。

下面对视频资源著录和标引的主要项目举例说明。例如，北京医科大学解剖教研室制作的《人体解剖学》DVD，厚度12cm，有字幕及附带目录，内容分为头颈、胸部和四肢三大部分，其主要著录形式如下：

200# $a人体解剖学

210## $a北京医科大学解剖教研室

215## $a DVD$c有声，彩色$d 12cm

500 # $a附带目录

517## $a头颈 $b胸部 $c四肢

546## $a字幕

710 # $a中国北京

856 # $f人体解剖学$h北京医科大学解剖教研室$q DVD $s12cm