APP下载

地方特色专题数据库建设工作流程——以“西安事变数据库”为实例

2011-05-08

图书馆学刊 2011年4期
关键词:西安事变标引页面

郎 菁

(陕西省图书馆,陕西 西安 710061)

全国文化信息共享工程陕西分中心从2007年开始,陆续建设了“陕西帝王陵”、“秦腔秦韵”、“西安事变”、“陕西非物质文化遗产”等8个富有陕西地方特色的专题数据库,积累了一定的实践经验。规范、有效的工作流程在数据库建设中发挥着至关重要的作用。

一般的建库工作流程大致可分为申报立项、建设实施、评审验收3个阶段11项工作。简单图示如下:

1 申报立项阶段

1.1 选题申报

地方特色专题数据库是指具有地方文化特色,并且具有地方资源优势的专题数据库。由于文化本身所具有的特性,这类数据库通常具有连续性、系统性、关联性的特点,在选题时需要有高屋建瓴的视角,做整体规划和长远考虑。作为一项系统工程,在立项实施前应对其社会需求、实用价值进行多方面的调研、评价,进行可行性论证。为了避免重复建设,还应调查同类地方特色数据库建设现状和相关特色文献分布状况。

一般情况下,立项申报书所应包含的主要内容有:①数据库建设需求分析(实用性分析);②数据库内容特色及主要建设内容;③数据库建设可行性分析;④拟采取的建设方法和技术路线;⑤数据库社会效益和经济效益评价;⑥数据库预期达到的目标及提供成果的形式;⑦数据库建设周期及进度安排;⑧数据库的经费预算、参建成员等。

项目申报书是项目申报者与评审专家之间沟通的依据。因此,规范填写数据库建设项目申报书,准确、全面地反映各项申报信息,充分表达申报者对该项目基本内容和大体框架的理解,对建设项目获得专家认可具有重要作用。申报过程中,尤其要注重有关文献调研、工作方案和技术选型等方面的清晰陈述,体现出申报者对项目的成熟思考及解决方案,让评审专家一目了然。

“西安事变数据库”的申报,主要突出以下几点:西安事变发生在西安,在中国近代史上具有重大意义,陕西省图书馆选择这一历史事件建专题库,独具地缘特色,且具有历史遗存、文献、研究等多方面的建设基础和优势,具有较高的实用价值和社会效益。数据库选用TRS数据库管理发布系统,拟建成集文本、图片、视频于一体的多媒体数据库,兼顾普及性和学术性,为公众提供一个了解和研究西安事变的数字化信息平台。

1.2 评审立项

该阶段的工作主要是组织各方面专家,召开评审会议,对数据库申报情况进行答辩论证。由评审会议签署意见通过立项,或进一步修改。

一般较大规模的数据库建设项目,还要制定数据库评审立项程序、原则和标准。如全国文化信息资源共享工程地方资源建设项目、中国高校文献保障系统(CALIS)特色数据库子项目等,都有一系列申报程序和立项标准。地方特色数据库项目评审遵循的基本原则和选题原则是一致的:①选题具有地方文化特色,内容属于地方特色资源;②具备一定的建设基础(主要指人员、资金、技术、资源等);③能为本省地方社会文化建设所共享;④建设内容具备重要性、实用性、可持续性等。

陕西的8个地方特色数据库建设项目是作为全国文化信息资源共享工程地方特色资源建设项目来申报的。2007年6月15日召开专家评审会,来自本省高校科研院所、博物馆系统、文化系统的10余位专家听取了各数据库的结构规划、基本内容、建设思路等,专家们肯定了数据库的建设方案,认为该项目是陕西迄今涉及范围最广,提炼、提升陕西地方特色资源,具有开创性的数字化建设,并从学科专业方面对数据库构架、收录内容等提出了意见。评审会后,数据库立项并开始建库工作。

2 项目实施阶段

这一阶段的工作需要文献编辑、技术支持、数据加工、平面设计等各方面人员。由于各个馆部门设置不同,数据库参建人员往往分属不同部门,牵涉部门较多,只有各部门之间工作协调、衔接顺畅,才能保证数据库建设进度。如果没有专设数据库建设部门,就需要设立数据库建设工作小组,由小组负责人负责数据库建设总体工作,根据数据库建设周期和工作进度安排,阶段性地组织、召集工作会议,及时发现数据库建设当中的问题,提出解决办法,进行有效的调整,协调与其他分工协作部门的各种工作关系及工作交接,确保数据库工作进度,并定期进行工作质量考核、统计及总结,上报本馆相关职能部门。

数据库建设流程中的工作多是一环套一环的,一步完成才能开展下一步工作,而有些工作是各自分头或同时进行的,没有严格的先后顺序,如结构设计、页面设计,在大纲设计完成后就可进行,数据标引则只有在数据加工和结构设计完成后才能进行。

2.1 大纲设计

数据库大纲的制定,是实施阶段要做的第一项重要工作。大纲主要根据收录文献的内容类别,进行相应的栏目、专题设置。地方特色数据库不同于图书馆传统的书目、题录等单一数据库,作为一个包含文本、图片、影音文件等的多媒体数据库,以导航目录形式揭示文献是普通受众易于理解和接受的一种方式。

数据库大纲既要有机统领全部入库文献,也要体现学科分类的科学、严谨和规范性。所以,大纲设计要多方吸纳与数据库选题相关的研究专家的意见,要反映出这一学科内容的研究现状和较新成果。

“西安事变数据库”大纲设计及入选文献都充分听取了专家意见,吸收了西安事变研究的重要成果,进行了多次修改、调整和补充。“西安事变数据库”大纲框架主要分为事变简介、人物志、大事记、纪念旧址、史料辑录、历史图库、追忆广角、历史评价、图书论著、机构学者、今日报道、影视文艺、网站链接等12个一级栏目,为了方便内容揭示,最多设置到三级目录。

从整个数据库建设过程看,数据库大纲设计阶段应投入较多的精力,充分发挥研究专家的优势,尽可能全面、合理地设置收录文献的一级分类导航,使后期内容的细化和补充都可在一级栏目下展开,确保大纲基本框架在之后的建库工作中无需再做过大的调整,保证数据库后期工作单制作、数据加工、标引、结构设计、页面设计等一系列工作的顺利开展,避免因前期工作不充分造成无谓的返工。

2.2 文献选取

根据数据库大纲,在前期文献资源调研的基础上,确定数据库文献收录范围。进行文献选取时要注意版权问题,遵守著作权和网络传播权的相关法律法规,尤其是当代的研究文献,要取得作者或出版社的授权,并在一定的合理范围内应用。

大部分地方特色数据库最终建成的都是多媒体库,收录的资源类型主要有文本、图像、音视频等对象数据。该阶段的工作主要是根据数据库大纲,从收录内容及收录形式两方面进行入库文献的划定。

如“西安事变数据库”录入文本主要有全文、题录两种,其中事变简介、人物、事变研究3个部分都设有参考书架,由专家推荐重要、权威文献,进行全文录入,史料部分及西安事变研讨会论文专辑全文录入;其他研究文献以题录为主。作为一个以西安事变为专题的数据库,尽可能将相关权威文献、重要学者及研究成果全部收入。

2.3 工作单制作

以上4个流程的工作,包括本流程的工作单制作,一般都是由数据库策划编辑人员完成的。制作工作单,是因为要对数据库收录的对象数据如文本、图像、音视频等进行扫描、录入等加工制作,要由专门的技术人员通过专业加工设备完成。工作单的内容主要包括文献来源、加工内容、加工要求等,随加工文献一起提交加工制作人员。

除工作单之外,与数据加工人员进行文献交接时,还应填写文献清单、交接清单等,保障加工文献的安全无损,确定数据加工完成时间,以利下一步工作的衔接。

2.4 数据加工

数据加工要通过各种相应的采录设备和编辑识别软件来完成。该流程是文本、图像、音视频等对象数据入库必不可少的工序,这类文献要根据相关数据加工标准规范,通过扫描、识别等加工处理方式成为电子文献,才能实现文献性质的转换,完成数据库检索功能。

文本数据:电子录入;通过扫描仪进行纸质资料的全文扫描,并进行文字识别、校对、数据保存。

图片数据:通过数码相机直接拍摄;通过扫描仪进行物理图片、照片的扫描;在数字视频上进行图片抓取。然后用图片编辑软件处理图片,校对,数据保存。

音视频数据:通过数字音视频录音、录像软件或设备进行直接录音、录像;通过音视频采录软件和设备对非数字录音、录像进行采集和数字化;从现有的音视频数据中进行直接的截取。影音文件可用格式工厂等视频转化软件进行处理、校对、数据保存。

全文数据的文献格式有图形文件(TIFF)和文本文件(TXT)两种格式。图形文件在数据库中仅供浏览,不能进行检索,依据相关数字化规范,图形文件扫描一般选取图像分辨率(加水印)为300DPI,图像模式为RGB模式(24位真彩),分别选择TIFF格式用于保存,JPG格式用于网络传输。文本文件在数据库中不仅可以浏览,并且可供检索。文本文件的加工,要经过扫描为图片格式,用尚书六号等软件识别图片中文字,对于识别不了的文字经手工录入、校对等工序才能完成,加工费用较图片格式高出很多。古籍纸本文献由于存在着繁体字、异体字、竖排版等问题,其文本转换是一项难度较大的工作,加工费用更高。一般需通过人工录入或OCR(OpticalCharacter Recognition)软件将图形文件转换成文本文件。所以,收入数据库中的文献选择哪种加工方式,要综合考虑文献特点及其使用目的、检索要求、加工费用等多种因素。

“西安事变数据库”入库数据中,上述几种加工形式都有涉及,收入文本1500万字、图片4000多幅、视频30多部,计万余条数据。全文数据绝大多数处理为可供检索的文本格式,少量固定的图表类、简介类文字处理为图像版的静态页面,虽不能检索,但直观,揭示性更强。数据库中所收文献多为建国后出版物,都是简体版,仅有少量台湾文献为繁体竖排版,考虑到文献的重要性,也都处理为可供检索的文本格式。标准规范主要依照文化信息共享工程资源建设相关文本、图像、音频、视频等加工标准和工作规范。

2.5 结构设计

结构设计在数据库大纲、文献选取等工作完成后就可以进行了,由数据库技术支持人员承担。对于地方特色数据库建设,快捷的检索途径、友好的用户界面是衡量数据库质量高低的重要参数。数据库结构设计的合理与否与此紧密相关,因此在进行数据库结构设计时,数据库设计人员和编辑人员要加强沟通,从使用者的角度,根据文献内容进行细致的研究分析,力求标引字段设置合理,分类导航清晰科学,操作简便快捷,最大限度地实现特色文献的特殊检索要求。地方特色数据库应提供多种检索方式,并且都在系统内存在,以方便用户从各个角度找到自己想要的数据。其中包括分类查询、关键字全文模糊检索、数据库分项检索、数据库高级检索、二次(多次)检索等。

“西安事变数据库”主要包括了西安事变人物、西安事变史料、西安事变研究等方面的信息,信息格式包括文本、图片和音视频。基本字段为题名、责任者、时间、文献出处、图片出处等,该库充分利用TRS全文检索系统中高效的全文检索功能,提供不同途径的全文检索,如全部字段检索、组合检索及全文关键字检索,并能实现二次检索。除各个栏目内设检索口外,在前台页面中,还设置了全文检索入口,提供库内跨栏目通检,检索页面显示题名及所在栏目,方便用户准确找到所需文献。另外,在数据库的前台页面,设置12个一级栏目,每个栏目下再分若干专题,将所有文献通过这12个栏目及相关专题以分类导航树的形式向用户层层推荐。通过前台页面,用户即可非常直观地了解、浏览数据库的资源体系。

2.6 页面设计

结构设计完成后,要通过页面设计显示出来。该流程工作由平面设计人员承担。具体工作内容是根据数据库大纲及结构设计要求,完成首页、一级栏目、二级栏目、三级栏目、概览、细览等所有前台页面、静态页面的制作及美术设计。

两人到了旁边的转角,左小龙假装站守转角,赶紧抓紧时间方便,然后又赶紧收了起来,慌忙之中,还嘘到了自己手上,左小龙眼看四周没有什么地方可以冲水,又在地上搓了搓,仔细一看,昨天满手污黑的机油还被冲干净了一些。

在地方特色数据库的建设中,前台页面的表现形式相当重要,在一定程度上,可以有助于揭示数据库内容。一般的书目、题录数据库都只设置一个检索页面,提供一个检索入口。而地方特色数据库通常都是多媒体库,并以Web网页形式发布,其特性是将图形、音频、视频信息集合于一体,同时易于导航,可以建立各信息之间的链接,用户可以从一个链接跳到另一个链接,在各页各站点之间进行浏览。这对页面设计也提出了更高的要求。设计者要了解熟悉数据库内容,针对数据库面对的受众,设计出特色鲜明、主题突出、编排合理、便于受众理解、使用方便的页面。页面设计的根本目的是揭示内容,所以页面设计人员同样存在与数据库策划编辑人员的良好沟通,页面设计人员只有熟悉、了解数据库结构和内容,才能从方便用户了解、利用数据库的角度编排页面,使数据库的内容策划得到形式上的最佳体现。

以“西安事变数据库”为例,通过数据库前台页面,用户不仅可以通过全文检索入口检索库内文献,还可以直观地了解数据库的资源体系。前台页面设置有全部12个栏目及其相关专题,每个栏目的分页面也设置有检索入口,层级关系在左侧边框中一目了然,能体现一个栏目自成体系的文献资源。

“西安事变数据库”的美术设计做到了形式和内容的统一,将丰富多样的内涵,用简洁明了的设计很好地揭示了出来。数据库设置有引导页,以乌云翻卷、光影变幻的黑白色天幕为背景,正中“西安事变”4个红色字体异常醒目,暗喻当时风云际会、山雨欲来的历史背景和西安事变改变时局的重大意义。点击进入后,仿佛历史的大幕拉开,主页面仍以黑白和棕色为主色调,页头主题鲜明,背景色调同引导页,表现的是乌云压顶的西安城,除“西安事变”4个红字凸显数据库名称外,几个关键字:张学良、杨虎城、1936年12月12日、国共合作、八项主张、抗日等,也以红白两种色彩、大小不同的字体,组合在页头的黑白背景中,将西安事变这一历史事件的人物、时间、地点、内容等关键词巧妙地揭示出来。灰、棕、红三色的和谐搭配,符合事件的历史感和政治色彩。主页的版块设计也主次分明,布局合理、有序,虽然多达12个栏目,通过线、点、块的分割,保证了页面良好的视觉秩序,页面在棕色栏目条的分割下,产生和谐统一的美感。为使繁多的栏目名称、文字、照片等静态图片不显拥挤、呆板,左上角照片以幻灯片形式转换,加上中间一条滚动的图片腰线,通过不同比例的空间分割,层次分明且富有空间上的韵律感。

2.7 数据标引

数据加工和结构设计完成后,就可以进入数据标引阶段了。数据标引是将入库的各种不同格式、不同来源、不同类型的数字文献,依据一定的元数据结构及著录规则,进行分类、著录,使入库的数字资源组织有序、可供检索且随要随取。具体工作内容是根据数据库大纲栏目及文献内容的要求,确定显示字段或元数据规范,进行数据标引著录。

数据标引包括元数据的著录标引和对象数据的标引,数据库中如收入有CNMARC、DC等目录元数据,则无需经过前面的工作单制作、数据加工流程,一般根据相关元数据规范直接著录、标引或收割入库。

数据标引是一项较复杂的技术性工作,尤其是地方特色数据库的标引工作,收录文献具有地域性和特殊性,在遵循图书馆数字化建设、资源共建共享相关标准规范的前提下,应根据自身数据库收录的特点,制定出符合本数据库建设实际工作需求的标准和方法,以满足特色文献标引工作需要。

另外,数据标引涉及到数据库检索质量问题,检全率、检准率是衡量数据库质量的重要标准,而标引者对文献内容的把握、整合程度直接影响到数据标引的正确、合理。所以文献标引工作一般由数据库编辑人员完成。但标引工作又有机械、重复、量大的一面,也有些单位是交由一般文字录入人员承担,这样就得增加一道工序,必须由数据库编辑人员提供标引工作单或标引细则及要求,明确标引字段,并加强审校,以保证数据标引质量。

《西安事变数据库》收入的全部为文本、图像、视频等对象数据。标引工作由数据库编辑人员承担。基于TRS强大的全文检索功能,首页面又有直观清晰的分类导航目录,检索字段的设置要求简明实用,主要标引题名、责任者、文献出处、图片出处、时间等要项,基本可以满足受众对西安事变史料、研究资料等的检索需求。

2.8 链接发布

结构设计、页面设计、数据标引等工作全部完成后,由数据库技术支持人员完成链接发布工作,在网站主页及其他页面各个模板之间作链接,保障标引数据的正确显示。

在这个阶段,编辑人员可以直观地看到发布后的数据库,检查显示是否有错误,及时和技术人员沟通修改,保障标引数据的正确链接和显示。另一方面,也可以对上传数据进行再次的检查校对,结构设计和页面设计上还有什么需要完善的地方,都可以跟技术人员、设计人员进行沟通,做进一步的修改。

数据库建设实施各流程的工作完成后,由技术支持人员负责数据库的后期管理维护、系统安全、数据安全、数据备份等各项工作。另外,编辑人员还要制定更新计划,定期对数据内容进行更新、清理和修正,保障数据库的生命活力。

2.9 评审验收

整个专题数据库工作完成后,数据库策划编辑人员提交数据库建设工作总结,并在评审验收会上进行数据库演示说明,由上级主管部门聘请专家对特色数据库项目的任务完成情况、系统功能、数据规范及数据量等进行综合验收评审。建设完成的数据库应具备相应的数据库管理功能和服务功能,及规定的数据量。较大规模的数据库建设还要制定数据库验收指标、评审标准和验收办法等,进行系统测试、试运行检查,对于建设周期较长的数据库,还需要增加中期审验环节,以项目任务书规定的阶段性目标为指标。

[1] 李月明.基于trs平台的专题特色数据库开发与实践[J].农业图书情报学刊,2009(4):29-31.

[2]吴涛.“河洛文化文献专题数据库”建设方略探微[J].现代图书情报技术,2005(6):60-64.

[3] 樊志坚,郑章飞,何平.书院文化数据库的设计与实现[J].图书情报工作,2005(3):112-115.

猜你喜欢

西安事变标引页面
刷新生活的页面
档案主题标引与分类标引的比较分析
本刊对来稿中关键词标引的要求
西安事变前后张学良与蒋介石的纷争
移动页面设计:为老人做设计
本刊对来稿中关键词标引的要求
关于关键词标引的要求
Web安全问答(3)
张学良谈『西安事变』
阎锡山与西安事变