APP下载

人文社科专题数据库建设的主题选择研究

2019-02-25刘雨农吴柯烨权昭瑄

现代情报 2019年12期

刘雨农 吴柯烨 权昭瑄

摘要:[目的/意义]探索一种融入数据驱动思维的人文社科专题数据库建设主题选择方法,为相关主体在建库主题的遴选、比较和确定等工作提供决策参考。[方法/过程]从政策、用户两个维度出发,提出基于政策文本与检索数据的人文社科专题数据库主题筛选框架。以Fulink平台为例,基于政策文本LDA主题分类建模和检索数据的词频统计归类,确定专题数据库建设备选主题,最后通过比对筛选将主题进行分类。[结果/结论]本文构建的主题选择框架,能够有效提升相关主题选择工作的全面性、准确性、科学性,为人文社科专题数据库建设的项目规划等提供了良好的思路。

关键词:人文社科;专题数据库;主题选择;LDA

DOl: 10.3969/j .issn .1008 -0821 .2019 .12 .002

[中圖分类号] G250. 74 [文献标识码]A [文童编号]1008-0821 ( 2019) 12-0011-08

专题数据库是针对用户信息需求,对某一专题的信息进行收集、分析、处理、存储并按一定的标准和规范将其数字化的信息资源库。在人文社科领域,专题数据库已成为各学科数字化转型的基础性工作,在数据资源开发、科研内容创新、科研方法支持等方面提供了有力支持。近年来,在国家政策支持和现实需求的双重作用下,我国建成了一系列人文社科专题数据库,涉及哲学、历史、艺术、文化等众多科学领域,有力地促进了人文遗产和社会记录的保存与传播,也有效支持了相关学科的研究工作。

主题的选择与论证是专题数据库建设的起点和开始,决定了专题数据库的建设方向和建设效果。然而,过去人文社科专题数据库的主题选择方式主要依靠建库主体的资源优势和决策者的经验判断,难以全面回应多方面的需求,进而限制了专题数据库的功能实现以及进一步的服务延伸。为此,本文提出了一种新的主题选择框架,通过对客观文本和行为数据的科学分析支持人文社科专题数据库建设,以期避免主观性、单一化决策带来的弊端,提高专题数据库主题选择的全面性、准确性与科学性。

1 文献综述

随着数字人文和社会计算的推进,人文社科领域对信息资源保障提出了更高的要求,专题数据库建设的理论和方法成为信息管理及相关人文社科学科的重要研究话题。目前,虽然针对主题选择的专门性研究仍不多见,但在数据库建设的综合性研究中已被大量提及,主要涉及以下3个方面:

1.1 专题数据库主题分布描述

经过多年发展,国内外建立起大量人文社科专题数据库,主题涵盖了历史、经济、文化等众多学科。部分学者对现有数据库主体分布进行了调查研究,如刘青等以州为单位,调查了美国特色数据库建设状况,并将其主题归纳为政治与政策、军事和战争、法律和法规、经济与就业等9个方面,同时指出,文化娱乐类专题数据库在全美州立图书馆中占比最大[1]。何小月等将专题数据库主题内容划分为学科专业、地域特色、名人特藏等7个方面,同时选择了中美20所高校的自建数据库进行横向对比,指出国内高校在学科专业和地域特色类数据库建设存在短板[2]。鄂丽君将调查样本扩展至我国所有“211工程”高校后得出了相反结论,认为学科特色和学校特色资源项目占总数比超过60%[3]。此外,陈钦明等同样针对不同性质的专题数据库主题分布进行了归纳[4-5]。这些研究尽管在专题数据库主题划分视角和划分粒度上存在差别,但是有助于明确人文社科专题数据库的建设现状和定位,能够为其他专题数据库建设主题选择提供参考。

1.2 专题数据库主题选择基本原则

对于人文社科专题数据库在实际建库过程中产生的各类问题,部分学者从建库流程的角度进行探讨,认为主题选择的不科学、不合理是这些问题产生的重要原因之一,并以此提出了一系列主题选择原则。王昶认为,专题数据库建设是一项长期工作,主题选择应注重长期规划性和可持续性,以长远眼光和思路,根据现有条件选择符合实际状况的、成体系的特色主题[6]。刘青等提出主题内容广博化原则,认为专题数据库主题划分和内容深度上尽管存在差异,但应通过统一平台的整合,为用户提供全方位多系统的资源和信息服务[1]。徐大平等认为地方特色专题数据库的主题选择重点在于突出地方文化特色、体现地方文献特色,并提出了成系列小主题选择、科学性和实用性3个原则[7]。总体来说,这些原则可归纳为3点:第一,以需求为导向,能够切实满足用户长时期的信息资源需求;第二,突出特色性,力求避免在内容上同其他数据库的交叉和重复;第三,具有可操作性,根据信息资源体量和人力、资金等实际情况确定主题选择粒度,保证数据库质量。

1.3 专题数据库主题选择方法与过程

相对于专题数据库主题选择原则,已有研究很少涉及具体的主题选择方法。王昶[6]提出了专题数据库主题选择策划工作的3步流程:第一,开展广泛的调查研究,初定主题选择方向;第二,开展专家评议和读者调研,确定主题选择的可行性;第三,考察建库资源与技术水平,明确主题选择内容。任航等[8]对长春市若干高等院校的在校艺术生进行了问卷调查,通过需求情况确定数据库主题选择。可以看到,当前专题数据库的主题选择方法依然以专家论证和问卷调查等方式为主,最终决策仍然依赖于决策者的经验判断。

综上所述,已有研究充分重视了主题选择对专题数据库建设的重要作用,为专题数据库主题选择明确了原则和方向,提供了良好的思路和方法。然而,现有研究成果依然存在一定不足:第一,研究大多集中于宏观层面的原则性方针,在数据库建设的实际过程中很难转化为直接的、具体的行动方案,可操作性存在一定限制;第二,方法上依然以用户调查和专家咨询为主,带有较强的主观性,难以保证决策的科学性;第三,并未考虑不同性质的主体在数据库建设中的动机差异。在大数据、智慧数据的背景下,面对高速增长的数据存量和复杂化的信息需求,应在原则性、经验性探索的基础上,充分发挥数据分析等技术和方法的重要作用,为数据库建设主体的建库决策提供支持和参考。

2 人文社科专题数据库建设主题选择模型构建

本文通过前期多地、多主体访谈调研,确定了专题数据库国家需求和用户需求的主方向,并以客观数据为基础,构建人文社科专题数据库主题选择框架,以期为相关决策提供支持。模型建构路线如图1所示:第一,从政务公开平台中,获取国家相关部门政策文本全文,并进行文本预处理。同时从信息服务商检索系统后台获取特定时间段的用户检索数据,筛选有效检索语句;第二,提取政策文本中的实意性名词,并进行LDA主题建模,形成若干备选主题;第三,将采集到的检索语句分别提取关键词,利用BM25算法同机构已有文献资源进行匹配,通过排序和归纳筛选出备选主题词;第四,综合比对結果,对结果进行分类。

2.1 需求调研与分析

满足不同层面、不同对象的信息需求是数据库长期建设运营和持续发展的核心动力。对于对象群体复杂、数据形式多样的人文社科领域,专题数据库的主题选择更应以需求为导向。不同性质的建库主体由于机构职能、服务对象等方面存在差异.专题数据库产品的需求内容和重心也存在显著区分。如公共机构建设的专题数据库普遍重视公共需求,为国家发展战略和公益事业提供支持;而商业性专题数据库则更加侧重于通过满足用户使用需求来扩大市场,实现自身盈利和发展。对此,本文将人文社科专题数据库需求归纳为两个层面:

第一,宏观层面的国家社会需求。人文社科专题数据库通常需要承担部分国家、社会层面的宏观需求,如为国家重大战略部署提供数据支撑、对非物质文化遗产进行保护与抢救、弘扬优秀历史文化传统、纪念特殊事件等。尤其是对于公共性质的建库主体,更应在宏观战略需求的背景下,有针对性地规划专题数据库建设,为相关政策提供有效支持。

政策文本是政府相关部门为了实现特定要求,以权威形式颁布的文件,是国家、社会需求最直观的表达和体现。在政府政务全面公开、自然语言处理技术快速发展的背景下,大批量政策文本的开放获取和深度挖掘已具备可行性。对此,本文通过挖掘政策文本内容,实现宏观需求的分析。

第二,微观层面的用户使用需求。作为人文社科专题数据库的直接使用者,用户的需求相对具体和明确。如科研人员对特定专题领域资料的集中需求,公众对某一主题知识的学习兴趣等。但由于不同用户使用动机、需求粒度、表达方式等存在差异,此类需求较为多元,调查和识别的难度较高。

对于用户使用需求,过去一般采取问卷、访谈等方式,在调查对象规模和代表性上存在一定限制。当前,由于人文社科领域的信息爆炸式增长和碎片化分布加深了信息的获取难度,搜索引擎逐步成为用户对于信息搜寻的主要工具。对此,本文以搜索引擎中的检索记录衡量用户的实际需求。

2.2 基于LDA的政策主题生成

LDA(Latent Dirichlet Allocation,隐含狄利克雷函数)模型是一种文档生成模型,即包含词、主题、文档三层结构的贝叶斯模型。该模型通过将文档一词汇矩阵转化为文档一主题矩阵和主题一词汇矩阵来实现主题的识别与生成[11]。作为一种非监督的机器学习方法,LDA在大规模文档中能够有效实现主题识别任务。简要来说,LDA主题生成过程可分为3个步骤,首先对语料库中的每一篇文档,从主题分布中抽取一个主题,其次对所抽取主题中所对应的词分布中抽取一个词语,最后充分阐述过程直至实现所有文档和所有单词的遍历。如图2表示。

2.3 基于BM25算法的资源匹配

特定主题的人文社科专题数据库建设必须以充足的信息资源作为基础保障。尤其是对于检索关键词,必须同资源储备进行匹配,判断其是否具备专题开发条件。本文基于BM25算法,通过计算、排序每个检索词的BM25得分,实现主题关键词进行二次筛选。

BM25是二元独立模型的拓展形式之一。作为一种相关性排序函数,BM25模型根据计算给定检索词与文档的相关性得分并累加,进而对匹配文档进行排序。该模型由于算法设计较为灵活,被广泛应用于搜索引擎当中。范晨熙等通过将BM25模型与开源搜索框架Lucene结合,建立了BM25相关度搜索模型[9],何喜军等利用该模型,构建了专利转让索引库[10]。本文基于理论框架,对该模型进行了拓展与应用。

首先,对提取到的关键词进行语素解析,产生语素qi。对于所有馆藏资源的摘要文档D,计算每个语素Qi与D的相关性评分。最后,将Qi相对于D的相关性得分加权并求和,最终得到Q与D的相关性得分。评分公式为[10]:

3 实证研究

3.1 数据来源与实验环境

本文从可测量角度出发,以福建省为例,通过政策文本衡量国家需求,通过检索数据反应用户需求。由于国家各级政策发布机关单位数量庞大,内容宽泛,本文仅选取国家文化与旅游部、福建省文化与旅游厅近5年发布的各类政策文本作为实证样本,通过爬虫工具获取原始文本后,手工剔除人事变动、财务审计等管理类文件,得到有效政策文本1 756条。检索数据从FuLink(福建省高校数字图书馆)平台后台获取,按照检索排行降序顺序,选择人文社科相关的检索条目,共计10 000条,部分记录如表1。FULink平台包含福建省53所成员馆,拥有完善的在线系统和稳定的访问流量,检索数据能够反映出省域内用户的一般需求。

本文实验环境为Inter Core i7 - 7700HQ、2. 8GHz、8线程CPU,8GB内容容量的PC机,家用标准版64位Windowsl0操作系统。集成开发环境为JetBrains PyChrm,部分功能基于Python语言编程,所用工具包包括Jieba、Numpy、Pandas、Nltk、Sklearn、Matplotlib等。

3.2 政策文本数据处理

LDA模型需要对分类数量进行预先设定。该数值一般采用困惑度确定,计算公式如下:

其中z、d分别指训练过的主题和测试集的各篇文档。分母Ⅳ是测试集中出现的所有词。一般来说,困惑度随主题数K增加而下降。如图3所示,通过计算,当K值取4时,困惑度曲线下降趋势趋近于稳定,此时K的取值为最佳数量。

构建LDA模型以分析每一篇文章的话题分布,利用训练完的模型将政策文本转化为话题分布函数,并将文本一主题向量与原文本合并,部分结果如图4所示。

最后,根据以上结果,输出每个主题的前若干关键词,并以窗口形式展示。最终结果如图5-8所示。

3.3 检索记录数据处理

通过Fulink后台,选择2019年检索记录,将输出结果按照词频排序,选择检索次数大于1 000的关键词,并将非人文社科范畴的词语剔除。最后,将检索词与资源库各类文本文档进行匹配,筛选出命中词汇。部分结果如表2所示。

不同于文本语料,检索记录多以单个检索词的形式表示,缺乏上下文语境,难以利用NLP技术进行主题识别。由于数据总量相对较少,因此本文选择人工方式判断检索词语义,并进行主题归纳。

3.4 备选主题分类

比对上述两类主题分类结果,进行汇总、比对和分类,最终形成3类备选主题。

1)理想型主题选择:教育、互联网与大数据

通过比对,此类主题选择内容同时出现在政策主题和检索主题分类中。意味着在现有资源的基础上,能够同时响应国家和用户需求,建议优先作为专题数据库建设主题。

教育学与教育事业是人文社科领域的重要话题,大量职能部门均对教育事业发展进行了专门性部署,尤其是红色教育、传统文化教育、人文素养教育等方面近年来获得了极大关注。在用户层面,由于以高校图书馆联盟为实证对象,用户以高校学生为主,因此,数据库建设主要回应以备考或个人发展为目的的需求。显然,各类人文社科教育需要大量专门性文献资料为支撑,因此专门性数据库建设势在必行。

近年来,互联网与大数据为人文社科领域带来了巨大的变革,尤其是网络安全、电子政务、数据资产等议题正在引起相关部门的高度重视。此外,大数据更是为人文社科领域的研究提供了新的契机和方法,从检索数据来看,人文社科对于数据科学、编程语言、计算工具等方面的资料存在大量需求。

2)政策导向型:非物质文化遗产、旅游

此类主题选择通常侧重于公共性建库主体,能够有效回应国家政策要求,有助于发挥其公共文化服务等方面的职能。

非物质文化遗产和旅游是人文社科专题数据库的传统主题选择,从研究结果来看,非遗资源保护和旅游产业发展依然是当前文化及相关部门的工作重心,从中央到地方均有大量政策部署。在数据库建设过程中,建库主体可围绕本地资源,进行针对性的数据采集与加工整理,着力打造出具有地方特色的文化品牌。同时,不断拓展数据库的开放程度,并开展宣传推广工作,进而服务于地方旅游产业。

3)用户导向型:文学、经济学、语言

此类主题选择能够反映用户的现实需求,具有良好的市场前景,一般来说更加符合商业性的建库主体性质,而对于高校、科研院所等实际科研需求也能做到有效回应。与政策导向不同,用户需求更为多元,其影响因素也更加复杂。在本文的实证研究中,用户需求更多地集中于在文学、经济学和语言3类。其中文学作品相对于其他人文社科学术性资源来说,学科门槛较低,受众面更广。而经济学原理和方法对包括社会学、管理学、国际关系在内的多种学科同样实用,因此存在大量记录。而语言方面的需求则以英语学习材料和工具书为主,这是由高校用户对于等级考试、外文学术资源等硬性需求决定的。

4 结语

本文构建了一种人文社科专题数据库建设的主题选择模型,为专题数据库的主题选择提供了一种全新的思路和方法。相较于以经验性判断为主的常见模式,本文通过对政策文本和用户访问记录进行深入挖掘和匹配,有助于进一步提高专题数据库建设决策的科学性、实时性和前瞻性。

需要注意的是,本模型面向人文社科专题数据库建设的决策支持,希望通过多渠道大样本的数据分析为专题数据库的主题选择工作提供科学有效的备选方案,这意味着该方法无法完全替代决策工作。专题数据库建设是一项复杂、持久的工作,不同地区和不同性质的建库主体均存在较大差别,也受到资金、技术、人员等因素的制约,建库人员的经验和价值判断依然具有不可替代的作用。在专题数据库的规划和论证过程中必须紧密结合自身实际情况,因地制宜地开展数据库建设工作,才能形成质量上成、功能完备、影响广泛的数据库产品。除主题选择外,建库方式、服务模式、推广方法的选择对专题数据库的发展同样具有重要影响。

此外,本文实证研究部分初步验证了模型的可行性,但在政策文本数量、馆藏资源类型、用户需求类型等方面仍存在进一步拓展和精细化的空间。在未来的研究中,可通过扩充数据源的广度和粒度,进一步提高模型的适用性和有效性。

参考文献

[1]刘青,高波.美国州立图书馆特色数据库建设研究[J].图书馆,2017,(3):72-80.

[2]何小月,雷锦怡,江翩翩,中美高校图书馆自建数据库比较研究[J].图书馆学研究,2019,(6):40-48.

[3]鄂丽君.高校图书馆特色馆藏建设的现状分析[J].图书馆建设,2009,( 12):19-23.

[4]陈钦明.福建省高校图书馆自建闽台特色数据库现状调查与分析[J].图书馆学研究,2018,(3):48-52.

[5]孫瑾,军队档案专题数据库建设现状及存在问题——兼论数据组织阶段质量控制[J].档案学研究,2013,(3):41-45.

[6]王昶,自建数据库选题策划机制研究[J].图书馆学研究,2012,(6):41-43,27.

[7]徐大平,郎菁,梁芬玲.地方特色专题数据库选题若干问题研究——以陕西地区为例[J].情报杂志,2012,31 (2):174 -177.

[8]任航,潘逸尘高校图书馆艺术教育主题服务内容、途径与策略研究[J].情报科学,2018,36 (12):83-89

[9]范晨熙,黄理灿,李雪利.基于Lucene的BM25模型的评分机制的研究[J].工业控制计算机,2013,26(3):78-79.

[10]何喜军,张婷婷,武玉英,等供需匹配视角下基于语义相似聚类的技术需求识别模型[J].系统工程理论与实践,2019,39 (2):476-485.

[11]张子振,储煜桂,吴小兰,基于LDA的多源文献主题及其差异研究——以“机器学习”为例[J].情报科学,2019,37(6):108-112,150

(责任编辑:郭沫含)

收稿日期:2019-10-14

基金项目:国家社会科学基金重大项目“人文社科专题数据库建设规范化管理研究”(项目编号:18ZDA326)。

作者简介:刘雨农(1991-),男,博士研究生,研究方向:智慧城市、社会网络。吴柯烨(1996-),男,硕士研究生,研究方向:自然语言处理。权昭瑄(1996-),男,硕士研究生,研究方向:金融大数据。