APP下载

数字人文视域下话语文本时空场景语义资源框架研究

2020-12-08

无线互联科技 2020年19期
关键词:关系数据库本体时空

关 琳

(1.江苏警官学院 公安管理系,江苏 南京 210031;2.南京大学 中国智库研究与评价中心,江苏 南京 210093)

0 引言

世界各国政治领导人在官方和半官方场合的话语(以下简称“话语”),对于本国社会经济发展和国际关系局势都有着深远的影响。以美国为例,特朗普总统每一次Twitter发文都会引起国内外媒体转发转载和广泛讨论,并对美国内外局势产生影响,因此有媒体称这位总统是推特治国。从这一侧面也体现了领导人话语的重要性和研究价值。CNKI中收录的单以Twitter一种信息源研究特朗普总统话语的知识成果就达300余项。这些研究几乎全部是以爬虫为收集工具,通过实时采集数据获取话语文本的。这种研究方式,由于缺乏专题知识库的支撑,无法整合更多数据来源渠道,因而很难持续开展。

就我国而言,目前收录领导人话语文献的权威数据库有3个。分别是由中央网信办指导、人民网·中国共产党新闻网建设的“学习路上——习近平总书记系列重要讲话大型网络数据库”(2014年建成);由人民出版社开发建设的“中国共产党思想理论资源数据库”(2010年建成);以及由中宣部(2018年建成)推出的“学习强国”学习平台。就学术研究而言,由于产品定位的原因,从功能上看这些产品都缺乏基本的文本统计、计量、分析手段;从信息的组织形式上看也都仅完成了文献的分类、归纳和保存,因此检索功能以全文检索为主,所支持的语义查询也仅包括事物性状和表达形式两类,无法支持基于时空场景语义的内容分析应用需求。受限于此,学界和宣传部门无法利用该系统开展定量研究和知识场景重塑。因此,这3个数据库系统与本研究存在着系统功能、数据内容和知识组织形式上的显著差异。

1 基于语义的知识组织助力话语传播

话语文献作为思想和政治领域的专题文献,其知识组织与其他领域的专题文献有着相似之处。从数据挖掘和高效利用的角度出发,通过构建领域本体和关系数据库的方式,在文本内容分析过程中加入时间、空间、场景、主题等多个维度,可以大大丰富内容分析的内涵[1]。

同时,此类基于时空场景语义的数据库和本体将有力支撑数据可视化、关系网络分析以及文本计算等研究。按照类似思路建设的数据库有ProQuest,Hein On Line,West law,Lexis Nexis,CNKI政府公报数据库以及北大法宝等。但就其数据内容而言,多集中在政策和法律领域,没有收录话语和其他相关资源;就其数据维度而言也并未突出表达文献产生的时空场景。

话语的表达方式和侧重点与时间、空间和场景密切相关[2]。从帝王起居注到领袖文集、语录,古今中外以话语为主题的知识组织成果不胜枚举。随着数字人文的兴起,以篇章、句子甚至是词语为单元开展针对话语文献的单一维度研究,已不能满足大数据背景下用户的知识需求。采用语义技术对文献做细粒度加工并添加时空场景维度,从语义层面还原知识产生的时空场景,将为学习和研究话语文献创造良好条件,也为在该领域内应用数据可视化、内容分析以及文本计算等方法开展定量研究奠定数据基础[3]。本文以话语文献为研究对象,探索建立基于时空场景语义的话语文本数据构建框架。

2 话语文本时空场景语义资源框架设计

按照文献资源原始数据集、资源组织、资源描述和资源应用将话语文本时空场景语义资源框架划分成4个层次,如图1所示。

图1 话语文本时空场景语义资源框架

第一层为文献资源原始数据集。话语文献原始数据集中,包含不同类型、不同时期、不同来源、不同场景的包含话语的文献资源。这些文献较为零散地存储在网络、书籍和各种专题库中,按照不同类型对应传统的元数据格式组织和检索。由于各种元数据之间存在规范上的差异,并不能完全兼容,也无法完全对元素语义进行形式化和明确的定义,因此无法利用,因此需要集中收集使其成为一个专题文本数据库,便于进一步后续整合、开发和利用。

第二层为基于本体的知识组织层。鉴于前述当前主流话语文献资源库保存和利用的局限性,本框架拟在文献资源原始数据集基础上建立本体,以期实现不同类型和格式间话语文献资源的语义互通。具体来说以半自动化方式构建本体;设计实用的本体验证机制保障本体的科学性;将该领域不断涌现的新话语、新概念完善到本体中保障本体的完备性。根据OWL本体定义对承载话语的存量文献进行RDF资源标注,并添加时间、空间、主题、事件标签存储在关系数据库中。

第三层为基于关系数据库映射的数据关联层。本体的建立使得在语义层面上描述话语文献资源成为可能。这种描述方式,可以透析话语文献间的显性关联关系。为深层次拓展研究场景,还需要以关联数据的形式将资源再组织,并保存在关系数据库中。基于时空场景的关系数据库设计,既要将时间信息、地点(含地理位置、行政区划等)信息、场景(含活动主题、类型、与会人员等)信息等进行数据库融合建模,又要保证本体RDF三元组属性能够映射到数据库中,并关联到时空场景数据。针对基于时空场景语义的数据库建模(拟采用MySQL),将OWL本体映射到关系数据库中,利用关系数据库技术采用属性表的方式将具有相同属性的RDF三元组存储在一个表中,每个三元组占一行,表后若干列为时间、地点、主题、事件等相关属性标签,以此实现基于时空场景的RDF存储。

第四层为资源应用层。将增量文献文本化(纸质文献电子化、网络文献文本化,文本预处理包括清洗网页中的链接、图片等冗余内容,这一部分可借助自动化工具)并与存量文献集中,实例化保存到关系数据库中,持续地从增量文献中提取新概念、属性和关系完善本体;利用关系数据库开展针对话语语义的文本计量研究,并以时空场景大数据展现、重塑话语的发展历程。

3 话语文本时空场景语义资源框架的应用

本文应用话语文本时空场景语义资源框架对前期研制的“话语思想文本数据库”进行了优化和升级,并开展基于时空场景语义的多维分析,可以将前期收集到的话语文本进行语义级分析,较之原有系统基于文献计量的统计分析方法,其分析结果与前期基本吻合。应用该框架后系统分析颗粒度更小,分析维度更丰富,如图2所示。

图2 话语文本时空场景语义资源框架应用

除用于项目团队自有文本数据库外,该框架还可广泛用于其他现有文献数据库的二次升级,有效扩充后者的语义、时间、空间、场景分析维度,进一步拓展文献价值。

4 结语

本文提出的话语文本时空场景语义资源框架,为国内外政治领导人话语数据库平台提供了新的改进和建设思路,将有助于后者进一步提升知识组织水平,并推进话语文本的深度挖掘和智能理解,也为我国话语研究提供一个新的基于语义技术的视角,从而促进话语的研究和阐释。

猜你喜欢

关系数据库本体时空
Abstracts and Key Words
关系数据库在高炉数据采集系统中的应用
跨越时空的相遇
对姜夔自度曲音乐本体的现代解读
镜中的时空穿梭
玩一次时空大“穿越”
《我应该感到自豪才对》的本体性教学内容及启示
基于索引结构的关系数据库关键词检索
Care about the virtue moral education
一种基于数据图划分的关系数据库关键词检索方法