APP下载

三人谈:关于政府信息公开目录的讨论

2009-05-26李超平

信息化建设 2009年3期
关键词:类目检索分类

我邀请了我的两位朋友来一起讨论《政府信息公开目录》,对这个话题的兴趣源于这可能是一个让专业知识服务于一项社会事物的机会。我深信建立一个《政府信息公开目录》的复杂性超出了许多人的预料,事实上我的确不止一次听到来自政府系统的官员们对这个问题的困惑。不久前,我和我的朋友们有机会了解了正在制定之中的一个《政府信息公开目录指引》和与之配套的《元数据方案》,这证实了我之前的判断,的确还有许多认识上并不清晰、甚至不太正确的东西使得这项工作还存在许多有待完善的地方。即使这份《指引》及《元数据方案》顺利编制完成,要让更多的政府机构去正确地运用它们也是个大问题,须知,在一些专业的信息机构比如图书馆、情报中心,根据已经相对成熟的目录体系和元数据方案来组织一个有序的信息系统,是由受过专门训练的人员来完成的。

编制政府信息公开目录是为了把那些必须向公众公开的信息进行有效的组织,使之有序从而具备检索性。考虑到从后台编制到前台应用的逻辑关系,我们决定先从三个方面来讨论:一是目录体系,二是元数据,三是检索。这个问题并不是一篇短文能够讨论清楚的,所以,我们分别选择了一个很基本的角度,如果这个话题被读者证明是有价值的,我们可以把它延续下去。

李超平(浙江大学公共管理学院信息资源管理系副教授)

建立一个科学的政府信息公开目录体系

要不要统一分类?

对政府公开信息进行统一分类的必要性是毋庸置疑的,简单地讲,在网络环境下,各行其道的分类目录将暴露一种低水平的信息管理能力,试想,在一个国家范围内,不同的政府网站各搞各的分类目录,五花八门,不仅让公众使用不方便,就是从感官上也给人一种管理混乱的感觉。

统一分类,准确地说是统一分类标准及类目划分,也就是形成一个统一的分类标准。目前,最难确定的是分类标准(即分类方法)。应该放弃这样一种想法,即我们应该选择一种理想的分类方法。事实上,世界上没有一种分类方法是十全十美的,任何一种分类方法在照顾对象的某些属性的时候不得不牺牲另一些属性,被牺牲的属性在某些情况下对某些人可能更加有用。这是分类法的遗憾,所以在图书馆领域,专业人士总是提倡采用多种分类标准,以提供不同的检索途径。

有一种看法值得注意,即认为“统一的政府信息公开目录”就只有一种目录,或者是主题分类目录,或者是机构分类目录,或者是体裁分类目录,等等。为什么只能择其一形成一个目录呢?这完全是对统一分类的误解。“统一分类”仅指对分类标准的统一制订,而不是说我们最终要统一在某一个目录上。我们的顶层设计可以也应该考虑不同的分类维度,这样最终就可提供多种分类目录,多种分类目录共同构成了政府公开信息的目录体系,这个体系是统一的。在这一点上,图书馆的经验是值得借鉴的,他们之所以坚持提供多种目录,这完全是以用户利益为考量的。不同的用户对自己信息需求的刻画是不同的,当他对自己要查找的信息的背景有多一些的了解,比如信息内容、发布机构,发布时间,体裁,适用对象等等,那么他对具体要找的这一份信息的刻画会详细一些,以此类推,当他什么背景信息都不知道,就只能对自己的需求进行最简单的刻画,往往就是“我需要某方面的政府信息”,用户的这种现象是永远存在的,如果我们只能提供一种目录,实际上我们只为一部分用户提供了方便。当然,让所有用户都感到方便是不可能的,在“满足用户需求”和“我们能做到什么”之间,我们应该找到一个平衡点。

这个“平衡点”已经有了基本的模式,比如国办即将出台的《政府信息公开目录系统实施指引》,其建议的政府信息公开目录分类体系就包括了四种分类方法:主题分类、机构分类、体裁分类和服务对象分类。如果能够按照这四种分类维度形成目录体系,基本上能够满足大多数情况下的用户查询信息的需求。

在四种分类维度中,主题分类是核心,为什么?因为主题检索对用户的信息需求刻画的要求最少,用户在不知道政府信息的发布机构、体裁和使用对象等信息背景的情况下,仅凭“我需要某方面的信息”这样一个简单的需求刻画就能查找相关的政府信息。即使我们现在囿于条件不能打造一个相对完整的分类目录体系,至少要做到提供主题分类目录,这是最基本的。

对主题分类目录的简单讨论

中央门户网站上的《政府信息公开目录》是主题分类目录,这个主题分类的基础是国务院的业务工作划分,即是基于“政务工作主题”的分类。从专业的角度,我们从三个方面评价这个主题分类表,一是一级类目设置对政务主题的覆盖性;二是类目与类目的区分度;三是类目的纵向展开程度。

对第一个问题,一般从逻辑关系的角度比较容易判断,要做到全覆盖并不难,即使有些政务工作的主题不明确,通过设置一个弹性类目(如“其它”)都能解决。这里顺带讨论一个枝节问题,在22个一级类目中,第一个是“国务院组织机构”,这个类目的设置显得很唐突,虽然在许多网站的分类目录里,出于使用方便的考虑打破逻辑等级关系的现象并不少见,但至少分类对象应该是统一的。“国务院组织机构”指向国务院的机构设置,而其它21个并列类目指向政务信息资源,这是两种完全不同的对象实体。也许向公众公开国务院的机构设置情况是政府信息公开必不可少的内容,但公开的形式是可以人为选择的,事实上,在中央门户网站首页上,已经有专门的“政府机构”栏目,该栏目已经完成了向公众公开国务院组织机构的职责,实在没有必要在政府信息主题目录里再设置一个一级类目,导致逻辑关系不顺。第二个问题,关于类目之间的区分度,由于过分拘泥于业务工作的划分习惯,所以一级类目的区分度并不好,比如“国民经济管理”和其它与国民经济有关的类目就很难区分,从逻辑关系上看,其它所有涉及社会经济行为的类目都是“国民经济管理”的下位类目,现在这样并列列类,导致信息归类时入类选择的困难,继而造成信息检索时的困扰。其它这样类目相近的情形在该目录中还有存在,当各个目录下积累的信息日渐增多时,最大的后果是信息查询也会越来越困难,检准率会大大降低。第三个问题,从纵向延伸的程度来说,该主题目录还仅有一级类目,当信息日渐增多,这个目录的检索功能会越来越差,我们相信这个公开目录只是一个初步的工作,进一步的类目细化工作国办会有安排。我本人担心的是,按照目前的一级类目设置,向下展开的难度会很大。一种分类体系,从逻辑上说,最忌讳的是同级类目之间外延的重叠。如果不能对现有一级类目重新调整,对每个一级类目作进一步划分时将是困难的。

刘炜(上海图书馆图书馆学情报学研究所所长、数字图书馆研究所所长、研究馆员)

政府信息组织中的元数据方案设计

编制政府信息公开目录,必不可少的是制订《核心元数据方案》,它提供了在不同数据库之间共享数据、进行统一检索的基础。元数据方案的编制是一个专业性较强的工作,有一些基本的概念需要建立起来。

什么是好的元数据方案?

元数据方案是信息系统对其所管理的信息对象的各类属性所进行的规定,通常反映为数据库表的字段结构、关系、类型及取值,本来是信息系统设计中的一个很简单、但是技术性很强的问题,主要由系统设计(详细设计)人员根据需求进行具体设计。

随着Web应用的普及,兴起了各类元数据标准,以及根据这些标准制定元数据方案(标准考虑到普适性,相对来说比较一般和抽象,对于具体的应用——通常称为领域应用——常常需要制订更为详细的属性选择原则、取值约束、编码规定等,这就是具体的元数据方案)。这些元数据规范的应用主要是希望实现互联网范围内的信息交换与共享。这些元数据方案一般都包括对信息对象属性字段的简单规定,目的是什么,如何用,如何保证可交换性等,在很大程度上依靠于开发人员理解和悟性,并无定论。因此元数据方案有好有坏,而依据一定的元数据方案所开发的系统,也有水平高低之分。

好的元数据方案应该完整、明确、配套,是信息系统内容架构的总体说明,独立于信息系统系统软硬件架构,与系统实现无关,因此我们说它构成了“描述和反映信息资源内容组织的一套独立的语义架构”。这样做的好处是最大程度地保证了信息资源内容不会因为技术进步而造成迁移上的困难,有利于信息内容的生命周期独立于信息技术的生命周期,并有助于信息资源内容的永久保存和重用。

政务信息管理与数字图书馆一样,内容的“独立性”和长久保存,是非常重要的,这方面的需求是显而易见的。因此我们认为,一个好的元数据方案应该具有一定的独立性、完整性、前瞻性和可操作性。

为什么设计一个好的元数据方案不很容易?

一个好的元数据方案常常需要三方面人员:IT技术人员、领域信息组织专家和用户的共同努力才能达成,这三方面的人员都要求有相应的知识背景,同时在一个团队中又要能够合作无间,因此极其不易。

传统的软件工程不管采用那种开发模式,都非常强调需求分析,系统设计是基于需求来做的,系统成功与否,经常把责任直接推给需求,需求是用户提的,或者最终交由用户确认的,用户最终通常只能打碎了牙齿往肚里咽。软件工程里常说,这是因为用户的"隐性需求"没有充分挖掘,“你没有说出来,我怎么给你做?”但是对于许多东西,用户常常认为:“这还用我说吗?这不明摆着的吗?”,这就是“隐形需求”。之所以"隐性需求"难以挖掘,通常有以下三方面的原因:

1、需求无法表达:用户对于IT系统的开发全无概念,无法全面清晰地表达其需求;

2、需求没有表达:用户认为某些需求是"缺省"的,而系统设计人员并不知道;(处在不同的语境中,需求表达/理解的不一致);

3、需求表达了没有用:用户即便把需求表达出来,由于成本、工程、效率、技术等方面的原因,设计人员也无法实现。

上述三类人员的合作,对于充分发掘系统对于语义描述的"隐性需求"具有至关重要的作用。对于隐性需求的忽视,常常是系统开发失败的主要原因。而如何挖掘"隐性需求",往往就成为软件公司开发人员水平高低的试金石。

元数据方案考虑时的几个原则:

原则一:元数据元素尽可能多,但是语义不能重复,元素之间的关系尽可能明确揭示。

元数据就是关于信息资源的结构化描述信息,是信息资源有序化的基础。丰富的元数据有利于信息资源的组织管理、揭示乃至数据挖掘。对于信息管理而言,由于用户需求是复杂、多样、难以预料的,元数据永远不会嫌多,不管是描述性元数据,还是管理型元数据,总能从某个侧面反映信息资源的某些属性,总会有辅助揭示的功效。

对于政府信息公开网站来说,公众肯定是主要用户,但也不排除政府工作人员需要经常查检。元数据设计在信息系统设计中应该结合应用需求场景,独立考虑,最好不要混同于系统功能设计,能在元数据设计层面解决的问题不要放到系统设计里实现,这样才能充分保证数据的独立性、可移植性和永久性。

当然,元数据设计也是基于需求而来的,需求如果简单,元数据的确不必非常复杂。但需要提醒的是,需求设计一定要充分,有的时候,我们以为需求是简单的,殊不知这可能是我们自己认识上的局限,退一步讲,即使现阶段需求是简单的,但未来发展可能会超出我们的想象。

原则二:元数据并非总要人工来做

元数据多多益善,但并非总要人工来添加,那样成本太高,还有误差,肯定不可行。实际上已经有越来越多的元数据都是通过自动生成。例如:数码相片中的元数据有好几十项(大多是技术参数,甚至包括经纬度信息),需要人工干预的可能只有在上载或入库时添加的tag、说明信息等几项,大量的元数据都是在信息生产、加工、流转、使用等生命周期中自动生成的。

按照这个想法,政府信息管理的整个流程如果有一定的规范,并能借助一定的系统进行,诸如"公开范围、公开形式、公开部门、是否是依申请公开"等信息,就很容易获得。当然如果没有这样的流程管理,实现这一点是比较困难的,可以归类在"说明"或"关键词"中做一般性的标引说明,而不必单独作为属性描述。

原则三:好的元数据方案设计可以兼顾将来的需求

一个前瞻性的设计,能够为将来的发展留下伏笔,也能够反映当前系统设计人员水平。前面所述的"元数据设计"独立于系统设计是一个重要原则,能够从一定程度上保证数据的独立性,从而能够更好地保护数字资产,不会随着技术的变化而危及可获得性。元数据元素的设计应该尽可能考虑周全,但是在实际应用中可以空缺(不取值)留待将来使用。决不能因为获得困难就认为这些字段不重要。

当然"考虑将来需要"必须对信息需求进行一定的抽象才能做到,并根据相关的"实体-关系",建立一定的应用和描述模型。管理流程不规范、多变造成信息描述的变化,可以依据模型而得到忠实的记录。

原则四:核心元素的作用是统一的互操作

核心元数据的意思就是大家都有的元数据属性元素,有助于实现统一的互操作,一个系统中不同的资源类型可以在核心元素的基础上,扩展不同的元素或者子元素,不应该设计或定义完全不同的"核心元素",甚至多级的"核心元素"也是不足取的,不利于将来元数据方案的维护和数据的管理。

胡小菁 (华东师范大学图书馆副研究馆员)

基于服务视角看《政府信息公开目录》

以我目前的理解,国办正在制订的《政府信息公开目录系统实施指引》意在提供一个发布政府公开信息的工作流程与内容框架,让各级政府部门网站依此发布各自需要公开的政府信息,并向公众提供服务。《实施指引》中包括一套核心元数据方案,作为内容的载体,同时其发布格式支持跨部门查询;还包括几个分类表(主题、机构部门、体裁、服务对象),作为一些元数据可选值的内容标准,同时也是目录服务中等级浏览的依据。

从服务的角度来看政府信息公开目录,我以为应当考虑两个方面,一是建立一个政府公开信息的一站式检索门户,二是在检索功能上采用简单检索辅以分面精确限定模式。

建立政府公开信息一站式检索门户

《实施指引》规定了统一的核心元数据集,其目的应当是方便公众找到自己需要的政府公开信息。目前的情况是,各级各类政府部门公开的信息发布在各自网站的不同版块上,公众要获取需要的政府信息,首先要找到这些网站,而后又要在各自的版块上寻寻觅觅,相当不易。

应当考虑为这些依据政府信息公开目录发布的信息提供一个一站式检索门户。公众想要了解政府公开信息,只要进入这个门户,就可查询到所有相关信息,这将大大减轻公众查找政府公开信息的困难,同时也能使政府信息公开目录系统的效用最大化。

统一的核心元数据集为实施一站式检索门户提供了基础,目前来讲比较可行的方式就是把不同政府网站的元数据收割(harvest)到这个门户。根据情况,在这个门户中可以包括全文,也可只包括元数据部分,并提供到全文的链接,链回到提供该信息的网站。需要强调的是,统一的检索门户就是一个垂直搜索引擎,如同百度、谷歌,并不与各级各类政府网站本身提供的服务相冲突,只是增加了公众发现这些政府公开信息的途径,方便了公众使用。

检索界面:简单检索辅以分面精确限定

政府信息公开目录的服务功能包括浏览与检索。按类浏览是呈现目录内容的重要方面,不过有些信息属于哪个类别并不容易判断(如“农村信息化”),而有些类别名称对公众来讲也不容易区别(如“医药管理”与“食品药品监管”),所以还必须辅以文本检索,才能保证公众能够查到所需信息。

检索功能上,考虑到面向的是普通公众,需要强调的不应当是布尔逻辑、通配符之类高级检索功能,而是不限定字段(元数据元素)的单一检索框,即对所有可检字段的检索(能提供全文文本当然更好)。在政府公开信息较多的情况下,这种简单的检索方式通常会出现较多的结果,可以采用对结果一览表辅以相关内容分面(faceted)展示的方式,以供二次或多次限定检索。

目前不同行业采用分面方式的新型检索系统不少,比如出售CD、DVD的网站tower.com可按音乐类别、载体(CD、DVD等)、在售情况、价格、艺术家、发行年等对检索结果进行精确查找;海滨房出租中介网BeachHouse.com可按国别、周租金、房间数等精确查找中意的渡假屋。在目录中的实例有香港中文大学图书馆目录(http://library.cuhk.edu.hk/screens/cat2_cht.html), 可按资料类型(书、刊等)、语言、出版日期、馆藏地、主题等进一步限定检索。

分面展示方式的优点是,在查询者提供最初的检索词之后,只需要在显示的词中点选,即可找到最切合自己要求的结果,避免了一般二次检索时由于所用检索词与系统用词不匹配而找不到结果的情况。

以目前的元数据方案,可以限定的元素有:生成日期(根据前四位年份)、发布机构、服务对象、关键词(主题、分类、体裁等)、信息类型等。作为一站式门户,位置关键词(信息适用的地域范围)尤其需要作为一个分面。

总之,《政府信息公开目录》不应该只是一个供政府网站参照的标准,而应当成为直接面向公众、帮助公众获取政府公开信息的利器。

猜你喜欢

类目检索分类
分类算一算
本期练习题类目参考答案及提示
2019年第4-6期便捷检索目录
分类讨论求坐标
数据分析中的分类讨论
专利检索中“语义”的表现
《中图法》第5版交替类目研究综述
黄三角、长三角、珠三角明、清及民国通志一级类目比较*
DDC22与CLC5化学类目映射分析
国际标准检索