APP下载

中文文本的事件时空信息标注

2016-05-04张春菊张雪英王曙廖建平陈晓丹

中文信息学报 2016年3期
关键词:语料库时空语义

张春菊,张雪英,王曙,廖建平 ,陈晓丹

(1. 合肥工业大学 土木与水利工程学院,安徽 合肥,230009;2. 南京师范大学 虚拟地理环境教育部重点实验室,江苏 南京,210046)

中文文本的事件时空信息标注

张春菊1,张雪英2,王曙2,廖建平2,陈晓丹2

(1. 合肥工业大学 土木与水利工程学院,安徽 合肥,230009;2. 南京师范大学 虚拟地理环境教育部重点实验室,江苏 南京,210046)

基于文本数据源的地理空间信息解析研究侧重于地名实体、空间关系等空间语义角色的标注和抽取,忽略了丰富的时间信息、主题事件信息及其时空一体化信息。该文通过分析中文文本中事件信息描述的语言特点和事件的时空语义特征,基于地名实体和空间关系标注研究成果,制定了中文文本的事件时空信息标注体系和标注模式,并以GATE(General Architecture for Text Engineering)为标注平台,以网页文本为数据源,构建了事件时空信息标注语料库。研究成果为中文文本中地理信息的语义解析提供标准化的训练和测试数据。

中文文本;时空信息;事件;标注体系;标注语料库

1 研究背景

地理信息是指与空间地理分布有关的信息,既包括空间定位和几何信息,也包括时间、时空关系、物理、化学和生物等属性和语义信息[1]。文本是人们时空认知结果的自然语言表现形式,已成为一种重要的地理信息来源[2]。特别是随着互联网技术的快速发展,网络已经成为人类信息的主要载体和交流平台,其所汇聚的信息已经覆盖到人类社会、经济、生活等各个角落,网络文本成为地理空间信息的重要收藏地[3],如新闻、博客、论坛、统计表格、Wiki等。事件是人们认识和理解世界的基本单位,包括时间、空间和主题三个基本特征,是文本(特别是网络文本)信息表达的基本粒度和主要形式。事件成为文本数据源中地理信息表达的纽带。实现文本中时空和主题事件信息的语义解析不仅可以为泛在时空信息动态关联更新,时空信息实时挖掘分析提供数据源;而且可以建立自然语言与GIS计算模型之间的语义映射关系,将时间维、空间维和主题维数据有机地、交互地组织,推动地理信息检索、智能导航、LBS等地理信息服务向动态化、多维化、主题化方向发展。

在文本描述中,事件时空信息采用特定类型的词汇和定性的模式进行表达,具有非结构化、语义不确定性、定量与定性描述相结合的特点。语料库是带有特定语言信息的知识库,是语言定性、定量分析的金本位,支持特定领域的应用系统开发[4]。标注体系构建的任务是对语言中特定信息进行分析,发现文本中特定领域信息的语言结构(例如,词、词组、句法模式等),建立描述它们的元数据[5]。不同层次标注的语料库是文本信息解析系统的必备资源,为其提供标准化的训练和测试数据[4,6]。GUM(Generalized Upper Model)、TRML(Toponym Resolution Markup Language)、GeoTagger和TESLA(The Geospatial Language Annotator)等典型标记语言,侧重于文本中空间语义(特别是地名实体)角色的标注[7-9]。SpatialML(Spatial Markup Language)和NaturalGML(Natural Geography Markup Language)研究了文本中地名实体标注和空间关系的结构化表达方法[10-12],但是忽略了文本中丰富的时间信息、时空一体化信息、主题事件信息,及其之间的时空语义关系,且尚未形成较为系统的标注体系和规范。语言学领域研究了主题事件信息标注和语料库构建方法,包括事件相关的实体、时间表达、论元角色、句法、语义等,但是没有从地理空间概念的角度进行时空语义信息的表达,特别是缺少时空一体化信息[13-15]。

2 中文文本中事件时空信息描述的特点

每个事件系统都存在一个从萌芽、前兆、发生、演化、控制、衰减、直到最后消亡的生命周期,时空与属性语义信息贯穿于生命周期的各个阶段。时空语义表达事件发生位置、影响范围、发生时刻,持续时间长短等信息;属性特征表达事件在某个维度上的属性信息,如强度、规模,经济损失、人员伤亡等。在文本描述中,事件与地名、空间关系、时间、属性等信息之间的关联关系,特别是事件时空演化过程信息的语义关系是一个复杂的语义不确定性和模糊性的过程,包括同一事件的演化过程和不同事件之间的关联。

人们基于一定的词汇系统和句法结构,可以组织各种各样的语句对认知空间世界的事件信息进行描写、叙述或说明[16]。一个事件实例一般包括名称、时间信息、空间位置信息、属性信息等语言单元,事件的语义表达通过一定的句法结构来链接各个语言单元。汉语中事件时空信息描述词汇较为丰富,部分词汇在一定程度上直接触发事件时空语义信息。时间描述通常与表达时间单位的词汇紧密结合,如“2013年1月1日”中的年、月、日,以及傍晚、去年、周六、五点等。省、山、湖等地名特征字,以及南边、北郊、靠近、以东等空间关系词汇对空间位置信息的表达具有强烈的指示作用。地震、暴雨、泥石流等事件类型词汇,以及死亡、失踪、震级、解救、降雨量、重伤等属性信息词汇均能够在一定程度上指示事件的发生。此外,发生、爆发、突发等动词,以及基本上、很大程度、严重等程度副词可以辅助于事件时空信息的判断。

作为时空认知外在表现的另一载体,GIS中事件时空与属性信息存储在专题数据库中或者以专题地图的形式展现。图1为互联网地图和文本两种形式对汶川地震时空信息表达的示例。

3 事件时空信息标注体系

3.1 标注体系的基本框架

侧重于事件实体在文本中的时空语义表达,同时考虑信息的兼容、共享与交换性能,本文以XML为标记元语言,设计了事件时空信息标注体系。由于事件实体、时间信息、空间信息、属性信息及其语义关系在文本中描述具有各自的特征,其标注的基本策略是对事件描述的相关语言单元和语义结构分别进行表达,标注框架如图2所示。其中,地名实体采用标签,包括地名实体id(标注序号)、type(要素类型)、typecode(分类代码)、form(具名和不具名特性)和mod(修饰性词汇)等属性[11]。空间关系标注包括空间关系实例的id(标注序号)、TLINK(拓扑关系)、DLINK(方向和距离关系)、SIGNAL(空间关系词汇)、MOD(修饰性词汇)等属性[12]。在文本描述中,事件信息的时空要素及时序关系表达具有稀疏性、分散性,甚至与表述中心存在一定距离,特别是省略和指代形式的事件信息描述涉及到句子、段落,甚至篇章等不同层次的上下文信息。在保证语义基本完整、事件时空信息标注具有可操作性与一致性的前提下,本文以句子为单位,对时间、空间位置和事件实体进行最小语义单元的标注;以段落为单位标注事件之间的指代关系和事件单元;事件时序关系标注则以篇章为单位。

图1 互联网地图(数据来源: http: //map.baidu.com/)和文本中汶川地震时空信息表达示例

图2 事件时空信息标注基本框架

3.2 时间信息标注模式

时间信息告诉人们某事何时发生、持续多长时间、发生频率等。中文文本中包含大量的相对时间和时间段信息,如昨天、去年、五周等,需要借助于上下文参考时间才能确定其准确的时间信息。结合中文文本中时间信息描述特点,将时间短语分类如表1所示。根据能否直接定位到时间轴上判断各时间类型是绝对时间或相对时间。绝对时间可以直接与日历时间相对应,如“2007年3月5日”。具体时间、周或星期时间、段时间、时间词和参照时间,由于缺少“年”时间单位的约束,而无法定位到时间轴上,称为相对时间。相对时间基于参考时间进行推理后,可与日历时间对应转换。

表1 中文文本中时间信息分类

时间信息采用

(1) 日历型时间标注

日历型时间信息描述较为具体、完整,标注内容包括时间值、时间类型和类型代码。

截至2013年7月19日,漳州、厦门地区因强降雨造成死亡1人、失踪1人。

(2) 日历型时间与具体时间的组合

日历型时间与具体时间的组合,如“2010年的春天”、“2008年5月的星期五”。为了保持时间信息的完整语义和推理的准确性,按照时间单元分别进行标注,并标注所参照的日历型时间信息。同理,日历型时间与时间词、周/星期时间组合时,其标注方法相同。

2008年5月12日 14时28分04秒,四川汶川、北川,8级强震猝然袭来,大地颤抖,山河移位,满目疮痍,生离死别。

(3) 具体时间标注

寻找具体时间的上下文信息,若包含日历型时间且具有参照关系,则按照日历型时间与具体时间标注规则进行标注。若无参照关系的日历型时间,则参照时间设置为缺省。

截止16时35分,最大的降雨量地区是202.3毫米。

(4) 参照时间标注

参照时间的标注,不仅要标注其值,还要标注其参照的绝对时间,以便于时间值的推理。特别是当其参照的绝对时间不是日历型时间时,应寻找其上下文中最近距离的日历型时间。

发表于南京日报2013年9月2日。8月23日,华润苏果发生抢劫案,在此前一天发生了盗窃事件。 注: 经过推理,“前一天”具体时间值为“2013年8月22日”

(5) 段时间标注

点时间和段时间是由文本表述的时间尺度决定的。一般情况下,时间表达多为点时间,如“11月30日下午19: 00左右”。如果强调“多长时间”则为段时间,如“9天”、“l月14日至22日”。段时间需要标注其起点(StartID)、终点(EndID)和时间类型。对于非日历型时间的段时间表达,需要标注其参照时间关系。

青海省玉树县于2010年4月14日晨发生地震,大小余震不断,持续到4月25日。

(6) 时间修饰成分

例如,“昨天上午10时45分左右”、“截至昨天下午2时”、“2008年底前”等时间描述中,词汇“左右、截止、前”均是对时间的修饰成分。

“昨天 上午 10时45分 左右”。

(7) 不可标注时间

部分文本描述与时间有紧密的联系,但无法确定其值,如“在、从、自、到、至、才、然后、其次、后来、经常、偶尔、多次、通常、反复、有时、从来”等。在上下文中不指示一定时间的时间词汇,如“这里的冬天很冷”中的“冬天”。此类时间描述不予标注。

3.3 事件实体标注模式

时间、空间和属性是事物本身固有的三个基本特征,是反映事物状态和演变过程的重要构件[17],是事件客观性判断的依据。本文事件分类参照《突发公共事件分类(国发〔2005〕11号)》中分类标准。事件实体标注采用标签,包括事件实体的id、type(事件类型)、typecode(分类代码)、form(具名和不具名特性)、signal(预测性事件的指示词汇)、描述指代关系事件Refevent、TargetEvent(指代关系中目标事件)、SourceEvent(指代关系中参照事件)、Attribute(属性信息)、AttributeID(属性信息的id)。

(1) 事件名称标注

对于蕴含具体地理位置、时间和属性信息,或通过上下文能够判断其具有确定的时空与属性信息的事件,则为具名事件,否则视为不具名事件。使用标签form进行区分,NAM表示具体事件,NOM表示非事件。

汶川地震的8度区面积约27787平方公里。 汶川地震纪念碑是一座具有强烈震撼力的纪念碑!

(2) 事件触发词汇标注

当事件名称缺失时,触发词汇在一定程度上标志事件的发生,包括描述事件概念类型的词汇(如地震、暴雨、泥石流等)和属性信息词汇(如7.8级地震)。根据时空约束信息判断触发词汇是否指示具体事件,并使用标签form进行区分。事件描述中经常出现“爆发”、“发生”等动词,本规范不对其标注。

从本月12日开始,四川部分地方降大暴雨,引发多处特大泥石流灾害。 地震又称地动、地振动,是地壳快速释放能量过程中造成振动。

(3) 事件触发词汇出现多个或者缺省

一个句子可能出现多个不同的事件触发词汇。当该触发词汇指示不同事件,则分别标注;若指示同一事件,则任选其一进行标注。若描述具体事件的句子中,没有出现事件名称和相关触发词汇,则标记为事件词缺省NONE。

北京强暴雨事件引发房山地区山洪暴发,据马河上游洪峰下泄,不到24小时,已致37人遇难,190万人受灾。 经过行窃者和老板一番搏斗,书店中一片狼藉,两个人躺在地上,遍地是血。

(4) 事件昵称的标注

部分事件描述出现“称为××”、“视为××”等评价、程度信息,不做标注。

1998年洪水,是本世纪发生的又一次全流域型的特大洪水,称为“百年不遇之洪水”。

(5) 事件名称与地名实体组合

地名实体经常与事件名称或触发词汇描述连接在一起,或者作为事件名称的组成部分,表示事件及其发生位置两层语义信息。为了保证语义信息的完整性,本文分别标注地名实体、事件名称或触发词汇,可以存在交叉标注现象。

截至2008年9月25日12时,四川汶川地震已确认69227人遇难,374643人受伤,失踪17923人。

(6) 指代事件的标注

文本中,经常出现上文中描述的事件信息,下文中省略事件的具体名称或者触发词汇,以“该事件”、“此次灾难”等指代形式表达。以段落为单位,对指代事件及其参照事件和目标事件进行标注。当指代事件跨段落时,只标注其触发词汇和事件类型,不标注其指代关系。

2008年5月12日14时28分04秒,汶川地震爆发。截至2008年9月25日12时,此灾难已确认69227人遇难,374643人受伤,失踪17923人。

(7) 预测性事件

文本中经常出现预测性事件的描述,如词汇“预测”、“预报”、“将”、“未来”等。本文只标注已经发生的客观性事件,对于预测性事件不予标注,或者标注为NOM并标注预测性的指示词汇。

天气预报显示,17到18日晚、21日至23日,四川包括广元、绵阳、成都等8个地区将有两次强降雨过程,尤其是21日至23日,局部地区降雨量甚至将超过200毫米。

(8) 属性信息标注

文本中蕴含丰富的事件属性信息描述。在事件实体标注的基础上,增加其属性信息描述。本文中事件的属性信息标注采用最大粒度,不对其进行细化。

震中位于北纬35.5°、东经 99.5°,震源深度10 千米。

3.4 事件单元标注模式

事件实体和时空信息及其语义关联关系构成完整的事件单元。在时间信息、地理位置信息(地名、空间关系)、事件实体、属性各个要素单元标注的基础上关联完整的事件单元。事件单元的判断与标注以段落为单位。事件单元采用标签,包括事件实体(EVEntity)、“事件-时间”关联(TimeLINK)和“事件-空间”关联(LocLINK)。

(1) 事件-时间关联

包括EVEntity(事件实体)、TIME(时间信息)和TimeLINK(事件-时间关联)标签信息。

2008年5月12日,四川汶川、北川,8级强震。

(2) 事件-空间关联

包括标签EVEntity(事件实体)、GNE(地名实体)、TLINK(拓扑关系)、DLINK(方向和距离关系)和LocLINK(事件-空间关联)。

北京时间2008年5月12日,四川省汶川县发生里氏8.0级强震,地震烈度达到9度,严重破坏地区超过10万平方千米。

在“事件-时间”、“事件-空间”关联的基础上,进行事件单元的标注。

2008年5月12日,四川省汶川县发生8.0级强震,地震烈度达到9度,严重破坏地区超过10万平方千米。

3.5 事件时序关系标注模式

事件与事件之间,以及事件与某个时间点之间存在时间上的先后顺序关系,即时序关系。事件组成要素和事件单元作为单独孤立的事件节点存在,而时序关系将孤立的事件节点在时间上进行关联。为了保证事件时序关系的描述粒度较为适中,时间边界较为清晰,本文将事件的时序关系分为前(Before)、后(After)和同时(Simultaneous)三种类型,分别表示一个事件发生在另一事件之前、之后、同时发生。事件时序关系标注采用标签,包括描述事件时序关系的id号、RelationType(时序关系类型)、SourceEvent(参照事件)、TargetEvent(目标事件)和signals(语气词汇)。通常情况下,多个事件之间形成复杂的时序关系,本文将其简化为二元时序关系进行标注。

2008年5月12日,四川汶川特大地震爆发后,随着降雨的发生,北川部分地区多次发生泥石流灾害。

上例中完整的事件时空信息标注结果如下:

2008年5月12,汶川特大地震爆发后,随着降雨的发生,北川部分地区多次发生泥石流灾害。

4 语料库构建和应用分析

4.1 语料库标注

语料标注工作是在标注规范的约束下,人工进行文本识别和语义解析的过程。GATE是一个开源自然语言处理软件,可接受XSD格式的schema文件,使用户按照一定标注框架对文本进行标注,同时提供标注数据管理方案,经过GATE处理的语料可统一存储为XML格式。通过大规模新闻网页语料的收集获取、网页去重与解析,以及分词、词性标注等预处理,形成网页文本源数据(约200万字)。以GATE为标注平台,参考本文设计的事件时空信息标注体系,建立事件时空信息标注语料库(见图3)。

图3 基于GATE的事件时空信息标注界面

实验中随机抽取流感、南海军事演习、中国东盟会议、地震、暴雨、干旱六类事件的350个文件进行统计,共有事件单元标注实例1 057个。各类事件及其要素单元数量分布情况为: 流感事件330个(GNE为974个、Time为672个、Attribute为532个、Eventy为521个),南海军事演习事件151个(GNE为1 031个、Time为312个、Attribute为688个、Eventy为330个),中国东盟会议事件78个(GNE为445个、Time为142个、Attribute为257个、Eventy为152个),暴雨事件139个(GNE为767个、Time为296个、Attribute为368个、Eventy为285个),地震事件171个(GNE为841个、Time为237个、Attribute为367个、Eventy为318个),干旱事件137个(GNE为538个、Time为333个、Attribute为262个、Eventy为244个)。事件单元描述与地名、时间、属性和事件实体单个要素通常呈现一对多的关系,一方面因为事件本身存在时空语义的变化,涉及多个地理位置和时间信息;另一方面文本描述中也存在部分时空信息与事件实体不相关联的情况。总体上来讲,语料库语言描述特征带有一定的普遍性,具有作为标准数据的研究和应用能力。

4.2 事件时空信息抽取实验

(1) 基于规则模型的时间信息抽取

基于本文时间信息语料库,构建时间词汇词典和时间信息描述模式库,设计时间信息匹配算法,采用触发词和规则模型相结合的方式进行时间信息的抽取[18]。实验结果发现,准确率、召回率和F值分别为75.00%、88.24%和81.08%。同时,针对中文文本中时间信息描述的模糊、省略、指代等常见现象,设计了相对时间、特定时间和时间段的推理和规范化算法,进行中文文本中时间信息的语义解析。由于网页文本中时间信息描述较为灵活,存在跨段落的省略和指代现象,标注者对时间信息的参照关系可能漏标或者标注错误,导致时间表达模板的数量和覆盖性受到限制,从而在一定程度上影响时间信息的解析效果。

(2) 基于支持向量机模型的事件分类

事件分类是指判断文本中描述的事件类型。触发词汇是事件判断的必要条件,但包含了触发词汇的句子可能是事件,也可能不是事件。例如,“地震是一种正常的自然现象。”,只是对地震的一种常识性描述。同时,部分事件描述文本不包含触发词汇,却传递具体的事件信息,如“9月20日,映秀镇死亡人数已经达到30人”。时间、空间和属性是事物本身固有的三个基本特征,是事件客观性判断的依据。根据事件的时空表达特性,基于事件时空信息标注语料,以时间信息、空间信息、属性信息、事件名称等标注结果作为上下文约束特征,采用支持向量机模型,进行中文文本中事件的分类[18]。实验结果发现,在封闭和开放测试中,分类的准确率分别为92.30%和80.60%。可以看出,本文标注语料具有较好的平衡性,机器学习效果较好。

5 结语

探讨中文文本中事件时空信息的标注体系和语料库标注方法,充分考虑中文文本的语言描述特点和事件信息的时空语义特征,对事件的各要素单元及其语义关联进行标注。以网页文本为源数据的标注语料库,充分考虑语言描述的多样性、自由性、普遍性,而且达到较大规模和较高标注质量,对文本中地理信息的语义解析有重要意义。未来研究工作主要包括以下方面:

(1) 主题事件的发生往往会引发后续的系列次生事件,事件之间存在广泛的时序语义关系。例如,暴雨事件发生在山区或者沟谷深壑地区,会引发山体滑坡、泥石流等事件。事件之间的时序关系描述是一个复杂的语义不确定性和模糊性的过程。未来将进一步完善事件时空信息标注体系和规范,特别是事件之间时序关系的标注。

(2) 我国地域辽阔、历史悠久,各个历史时期、不同地域范围的人们对事件时空信息有不同的描述方式。本论文研究主要针对简体中文文本描述中的突发公共事件,尚未考虑地域方言,香港、澳门、台湾地区的语言表达,以及历史事件的时空信息结构化表达。

(3) 本文构建的标注语料库为中文文本中事件时空信息解析提供标准化的训练和测试数据。未来将基于该语料库,探索事件时空信息的结构化表达和可视化重构方法,搭建事件时空信息的定性描述与GIS定量表达之间的桥梁。

[1] 闾国年,袁林旺,俞肇元. GIS技术发展与社会化的困境与挑战[J].地球信息科学学报,2013,15(4): 483-490.

[2] Palkowsky B,MetaCarta I. A New Approach to Information Discovery—Geography Really Does Matter[C]//Proceedings of the SPE Annual Technical Conference and Exhibition,United States,2005: 3231-3234.

[3] Goodchild M F. Twenty Years of Progress: GIScience in 2010[J]. Journal of Spatial Information Science,2013,1: 3-20.

[4] 俞士汶,朱学锋,段慧明. 大规模现代汉语标注语料库的加工规范[J]. 中文信息学报,2000,14(6): 58-65.

[5] 冯志伟. 标准通用置标语言SGML及其在自然语言处理中的应用[J]. 当代语言学(试刊),1998,4: 1-11.

[6] 俞士汶,段慧明,朱学锋等. 北京大学现代汉语语料库基本加工规范[J]. 中文信息学报,2002,16(5): 1-23.

[7] Kim J D,Ohta T,Tsujii J I. Multilevel Annotation for Information Extraction Introduction to the GENIA Annotation[J].Linguistic Modeling of Information and Markup Languages,2010,41: 125-142.

[8] Leidner J L. Toponym Resolution in Text: Annotation,Evaluation and Applications of Spatial Grounding of Place Names [D]. Edinburgh: University of Edinburgh,2008.

[9] Blaylock N,Swain B,Allen J. TESLA: A Tool for Annotating Geospatial Language Corpora[C]//Proceedings of the 2009 Annual Conference of the North American Chapter of the Association for Computational Linguistics,2009: 45-28.

[10] Leidner J L. Toponym Resolution in Text: Annotation,Evaluation and Applications of Spatial Grounding of Place Names[J]. University of Edinburgh,2007,41(2): 124-126.

[11] 张雪英,朱少楠,张春菊.中文文本的地理命名实体标注[J].测绘学报,2012,41(1): 115-120.

[12] 张雪英,张春菊,朱少楠.中文文本的地理空间关系标注[J].测绘学报,2012,41(3): 468-474.

[13] 邹红建. 突发事件信息的标注研究[D]. 硕士论文: 北京语言大学,2008.

[14] 张永奎,张晴,王磊.面向信息处理的突发事件新闻语料库建设与应用研究[J]. 山西大学学报(自然科学版),2009,32(4): 546-551.

[15] 仲兆满,刘宗田,周文等. 事件关系表示模型[J]. 中文信息学报,2009,23(6): 56-60.

[16] 方经民. 空间方位参照的认知结构[J]. 世界汉语教学,1999,50 (4): 32-38.

[17] 吴信才,曹志月.时态GIS的基本概念、功能及实现方法[J].中国地质大学学报,2002,27(3): 241-250.

[18] 张春菊.中文文本中事件时空与属性信息解析方法研究[D].南京师范大学博士学位论文,2013.

Annotation of Spatial-Temporal Information of Event in Chinese Text

ZHANG Chunju1,ZHANG Xueying2,WANG Shu2,LIAO Jianping2,CHEN Xiaodan2

(1. School of Civil Engineering,Hefei University of Technology,Hefei,Auhui 230009,China;2. Key Laboratory of Uirtual Geographic Environments,Nanjing Normal University, Nanjing, Jiangsu 210046,China)

Text has become an important data source of geo-spatial information. Currently,researches on structured geo-spatial information expression focused on extraction of spatial information,such as place names and spatial relations in text. However,abundant temporal information,event information and spatial-temporal information are ignored. In this paper,annotation of spatial-temporal information of event in Chinese text is proposed. Firstly,the linguistic characteristics of spatial-temporal information of event in Chinese text are analyzed. Then,an annotation schema is presented,and the annotation specification is decribed in detail.Finally,GATE (General Architecture for Text Engineering) is introduced as the annotation platform,and a large-scale annotated corpus based on the Web data source is developed and evaluated. This study effectively addresses the current lack of related specification and standard data for interpretation of event and spatial-temporal information in Chinese text.

Chinese text; spatial-temporal information; event; annotation schema; annotated corpus

张春菊(1984—),博士,讲师,主要研究领域为地理信息智能处理与服务。E⁃mail:zcjtwz@sina.com张雪英(1970—),博士,教授,主要研究领域为地理信息理论与应用研究。E⁃mail:zhangsnowy@163.com王曙(1989—),硕士,博士研究生,主要研究领域为地理信息形式化与空间化方法。E⁃mail:shuwang8951@hotmail.com

2014-05-09 定稿日期: 2014-12-23

国家自然科学基金(41401451,40971231),国家863项目(2012AA12A403-3),中央高校基本科研业务项目(JZ2014HGBZ0064),江苏省测绘地理信息科研项目(JSCHKY201502)

1003-0077(2016)03-0213-10

TP391

A

猜你喜欢

语料库时空语义
跨越时空的相遇
平行语料库在翻译教学中的应用研究
镜中的时空穿梭
语言与语义
《语料库翻译文体学》评介
玩一次时空大“穿越”
批评话语分析中态度意向的邻近化语义构建
“社会”一词的语义流动与新陈代谢
时空之门
“吃+NP”的语义生成机制研究