APP下载

浅谈多媒体数据库管理系统及应用

2010-08-23

科学之友 2010年6期
关键词:数据模型新华社检索

莫 雪

(新华通讯社广西分社,广西 南宁 530022)

1 多媒体数据库

1.1 多媒体数据

多媒体数据是指多种媒体,如数字、正文、图形、图像和声音的有机集成。其中数字、字符等是格式化数据,文本、图形、图像、声音、视频等是非格式化数据。多媒体数据的数据量十分庞大,各种数据之间的语义联系非常复杂,表达形式多样。

1.2 多媒体数据库及其数据模型

随着多媒体技术及其支撑技术的飞速发展,多媒体应用领域越来越广,所以,对多媒体信息进行快速高效的处理显得非常迫切。由于多媒体数据种类繁多,传统的数据库难以对这些媒体信息进行处理和管理,因而,产生了一种全新的数据库——多媒体数据库。

多媒体数据库(MMDB, Multimedia Database)是一个由若干多媒体对象所构成的集合,这些数据对象按一定的方式被组织在一起,可为其他应用所共享。

多媒体数据库是能够有效实现多媒体数据的存储、读取、检索等功能的数据库系统,它继承了传统数据库的一些优点,并能对具有时空关系的数据进行同步和管理。

数据模型是数据库系统的核心,从总体发展上看,多媒体数据库的数据模型可分为如下3类:①关系数据模型;②面向对象数据模型;③扩充的关系数据模型。

关系数据模型以关系代数作为其理论基础,发展至今已能够非常完善的处理传统的结构化数据。但是多媒体数据库里包含了大量的图形、图像、声音和视频等非结构化数据,这些数据结构异常复杂,且大部分不能用关系模型表示。因此关系数据模型在处理这些数据时就难以适用了。

面向对象数据模型对非结构化数据进行表示和操作非常方便,但是其技术没有关系数据模型那样成熟,理论研究和应用开发中还有很多问题需要解决。并且需要从底层重写代码,开发工作量大、周期长,由于这些问题的局限,当前使用面向对象数据模型开发多媒体数据库系统还主要应用在大公司指定开发的专用项目上,对于一般多媒体数据库系统开发项目来说,应用面向对象数据库模型来进行开发,从技术和经济条件上来讲都是不适用的。

使用扩充的关系数据模型来进行多媒体数据库系统的开发是当前最常用也是最成熟的方法。在传统的关系数据模型中引入了面向对象的思想、超文本(hypertex1)模型或超媒体方法,就解决了图形、图像、声音和视频等非结构化数据不能用关系模型表示的问题。

2 多媒体数据库管理系统(MMDBMS)

多媒体数据库管理系统 MMDBMS(MultiMedia DataBase Management System)是一个以多媒体数据库为基础的多媒体应用。该应用能够完成对多媒体数据库的各种操作及管理功能,如对MMDB的定义、创建、查询、访问、删除等。

2.1 MMDBMS的查询方式

针对多媒体应用的灵话性,人们希望MMBBMS能提供多种方式的“模糊”查询手段,具体描述如下:

2.1.1 基于元数据的查询

元数据在这里是指数据库条目的外在属性,比如作者姓名、创建时间以及标题等。在VOD(点播视频)应用中,这种方式的查询可以是:“请列出由×××在2007年出席的重要会议”这种类型的查询可以用传统的DBMS技术来实现。

2.1.2 基于注释的查询

注释是指对数据库条目内容的文字描述。查询时一般给出关键字或一些自由文本,而检索是基于查询与内容注释的相似性。这种方式的查询实例是这样的:“请放映一下东盟自由贸易区成立时的视频片段。”这种类型的查询要求事先对所有数据库条目都恰当地进行注释,然后用传统的IR技术进行处理。视频数据、脚本和字幕均可作为注释。

2.1.3 基于特征的查询

特征是指多媒体数据的统计信息,如音量、颜色分布及纹理等。这种方式的查询实例可以是这样:“请放映一个音量分贝在××至××的视频帧。”其中××可以是某个给定的声音分贝分布的直方图。处理这类查询,传统的DBMS已无能为力了,数据库条目的有关统计信息必须事先收集、整理并存储。

2.1.4 用实例查询

用多媒体数据对象来进行查询,这个对象可以是一个静止图像、一张草图或一个声音片段。这种方式的查询实例可以是这样的:“请放映一段视频,其中有类似×××的场景。”这种类型的查询中如果包含有数据对象的空间和时间关系,处理时可能会非常复杂,要支持这么多种复杂的查询方式,多媒体数据库引擎需要有全新的体系结构。

2.2 MMDBMS的体系结构

根据上一节描述的MMDBMS所支持的查询方式,本文给出图1所示的MMDBMS体系结构。其中主要的组成都分有:

2.2.1 用户图形接口

MMDBMS的用户接口可以通过Internet或图形界面访问。网页登陆界面可以用Java applets来构造。这个用户接口支持用户用图形方式进行基于内容的查询,同时也支持传统的文本方式的查询。

2.2.2 索引子系统

索引子系统以多媒体数据及相关文本注释作为输入,通过数据分析子系统,提取低层多媒体特征信息(如颜色、纹理、形状等),加上一些重要的文本描述信息(如作者姓名、类属、主题等),并将这些内容存储在特征数据库中。

2.2.3 数据分析子系统

数据分析子系统的功能是提取重要的低层多媒体数据特征,如音量、颜色、纹理、形状等。

2.2.4 特征数据库

特征数据库中的条目内容包括低层特征数据及高层的文字描述数据。

2.2.5 查询处理器

查询处理器从图形用户界面接受查询语言,通过特征数据库进行计算评估,然后向用户返回匹配最好的多媒体数据。这里所指的查询语言必须能利用低层特征数据及文字描述来表达复杂的查询方式,传统的SQL肯定不能胜任。

2.2.6 存储子系统

存储子系统完成对文本、视频、音频、图像等数据库数据的定义、创建、查询、访问、删除等管理功能与操作。

图1 MMDBMS的体系结构图

3 MMDBMS在新闻媒体行业的应用

我所在的工作单位——新华通讯社,作为国内最权威的新闻媒体单位、党和人民的耳目喉舌和国家、世界性的通讯社,每天都担负着采集、发布、管理各类多媒体新闻数据信息的重大任务。新华社采集的信息包含文字、图片、声音、视频等多种媒体数据,涉及政治、外交、经济、文教、科技、法律等各个领域,并具有信息量大、权威、准确、及时、丰富等特点。

新华社多媒体数据库始建于1999年,采用TRS全文检索的核心技术,2002年,TRS公司与新华社技术局再次合作实施了新华社多媒体数据库英文检索引擎的提速改造,提速后的系统对于多媒体数据库的全文检索能够达到3 s~5 s左右响应。目前,多媒体数据库中已经存储了数千万条多媒体信息,数据容量接近8 T,内容涵盖中、英、法、西、阿、俄等九大主流语种,以文字信息为主,包含图片、图表和音视频信息能,真正实现多媒体互动、数据准确、传输高效、检索便捷。

新华社多媒体数据库底层采用TRS和Oracle协同工作的解决方式,由TRS完成千万级数据的索引检索服务,由Oracle 完成信息制作流程,检索方式分为本地联机检索和远程网络检索两种方式,可进行精确检索、模糊检索、全文检索、对各检索入口项实行任意联合组配检索;可实现多级检索,逐级细化检索条件,直至命中满意的检索结果;能够对检索结果排序;提供中英文全文检索功能,中文按词进行全文检索,具有智能词库机制;对图片可按分类号、作者、拍摄时间、拍摄地点、照片文字说明等项检索,其中文字说明项可实现中文按词全文检索,支持逻辑库功能,支持跨库检索,支持文字资料和图片资料的系统链接。

新华社多媒体数据库作为新华社核心存储的地位也在不断加强,从以前分散的存储逐步向统一存储、统一管理、统一服务方向发展。在这个过程中,新建设的其他应用系统中,TRS也积极的参与了广泛的应用研究,并在很多系统中直接集成了TRS全文检索的核心功能,以保证数据的检索性能和统一数据的要求。

新华社的多媒体数据库管理分内外两个库。“内库”,即待编稿库,与各分社的地方子库连接,新华社所有记者采集的稿件、素材都要进入待编稿库。我们从国内外搜集到的有价值的图片资源、历史资料、网上和外报外刊的新闻信息、音视频资料等数据资源,也要分类、整理入库,并以待编稿库为依托建立起全社统一的采编平台,使文字、图片、图表、音频、视频新闻信息可在同一界面上显示、编辑、互动,供各编辑部和所有编辑选择、编辑、加工和利用;“外库”,即成品稿库,新华社所有新闻信息产品都要进入成品稿库,并以成品稿库为依托建立起全社统一的营销平台,通过分社营销平台与用户连接,供广大用户选择、采用,成为新华社新闻信息产品营销的总出口。记者采写、搜集的新闻信息素材要源源不断地进入待编稿库,经过编辑部门的编辑、加工变成产品后源源不断地进入成品稿库,再经过营销人员的工作将数据库新闻信息产品源源不断地进入市场,提供给用户;同时,及时反馈用户意见,采编人员再根据用户意见不断改进,提高多媒体数据库各类新闻信息产品的质量。

1 马新娜、樊金生.嵌入式实时数据库系统的研究与设计[J].微计算机信息,2006(8):3~4

2 冯玉才.多媒体数据库研究动态[J].计算机世界报,1997(3):12~13

3 钟玉、蔡莲红.多媒体计算机基础及应用[M].北京:高等教育出版社,1999

4 王森、肖健宇.MODB的对象数据模型[C].全国第五届多媒体学术年会论文集,1996.9:1~5

5 王森、肖健宇.多媒体MIS对MDBMS的功能需求及OODBMS对多媒体MIS的支持[J].计算机工程与应用,1997.33(10):5l~54

6 张彬.与时俱进 实现新闻信息服务模式创新[J].新闻业务研究,2002(2):15~16

猜你喜欢

数据模型新华社检索
基于区块链的微网绿电交易数据模型研究
基于Pro/E 的发射装置设计数据快速转化方法
党的十九届四中全会公报
瑞典专利数据库的检索技巧
在IEEE 数据库中检索的一点经验
一种基于Python的音乐检索方法的研究
聚焦2016新华社年度照片
经济全球化对我国劳动收入份额影响机制研究——基于面板数据模型
新中国六十华诞大阅兵