APP下载

语用视角下复述句生成方式的类型考察

2021-11-16马天欢

中文信息学报 2021年10期
关键词:近义字面示例

马天欢

(暨南大学 华文学院,广东 广州 510610)

0 引言

自然语言理解中的“复述”被认为是对相同语义的不同表达[1]。识别语义上等同的文本片段是文本理解应用的一项基础工作[2]。因而“复述”被认为是判别计算机是否理解自然语言的标准之一。宋睿等[3]认为这是一项“经典的自然语言处理研究任务”。目前,对于复述的研究已取得相当丰硕的成果[4]且应用在如机器翻译、自动问答、自动文摘等领域中,其研究价值可见一斑。

与此相关的研究包括语义相似性计算[5]、文本蕴涵[6],以及语料中同义词的识别和挖掘[7],这些都与近义表达密切相关。

这类研究中,归纳类型是一项重要的研究内容。前人[7-9]总结了主要的几类复述现象,包括同义词复述、语态变换、语序变换、句子结构变化、基于推理的复述等。此外,马彬彬[10]总结了13种复述现象,补充了外部知识引入、直述和间述变换等几类。在文本蕴含方面,任函等[11]归纳了16类蕴涵现象,主要包括词汇相同而语序不同、词汇之间存在整体与部分、上下义关系等;金天华等[12]考察了文本蕴含的成因,并归纳了词汇、句法异构、常识和社会经验三类。

总的来说,在复述及与之相关的近义表达所研究的对象中,研究者所关注的语言现象多为脱离语境的词或句,仅着眼于其静态抽象的词义或句义,如考察所发现的动词蕴含关系只考虑词的概念义[13],并没有考虑语言单位在进入真实交际之后所产生的语用意义。

目前仅有少量研究关注语境语用因素。如有学者发现目前问答系统研究中缺少对语用信息的重视,提出需要将语法信息、语义信息、语用信息都引入问答系统[14]。陈千等[15]突破了前人仅着眼于单句之间蕴含关系的局限,考察了多个句子与一个句子间的蕴含关系,指出这类蕴含关系的识别需要借助背景材料的语义信息,且覆盖多个片段,同时还强调了这种现象的普遍性和重要性。可以说,这项研究指出在篇章中的同义表达不可忽略上下文的背景信息。同时,陈龙等[16]发现非字面义词的处理是语言深度理解中的一个棘手问题,从词典中发掘出了3 524个非字面义二字词;如“主流”一词,认为它的一个义项“比喻事情发展的主要方面”是其非字面义,而“河流的主要部分”指的是具体的事物,是其字面义。但我们认为,任何词的义项的确定无不依赖语境,需要在具体的语境之下才能确定其此刻表示的是字面义还是非字面义。

然而,当前文本蕴涵研究存在不足的根本原因是语言学角度的“研究严重缺乏,限于传统逻辑学和语言学的研究”;语言外的知识不可排除在外,语言的理解有赖于语境,包括各类意象图式、脚本等[17]。遗憾的是目前国内汉语复述等同义表达的研究未见有这方面的突破。

总之,汉语当前已有的复述研究已取得不少的成果,但其中不足之处是:研究视角多限于脱离语境的静态抽象的词汇和句子,属于“无语境”的意义研究模式,忽略了需要考虑语境因素的篇章和话语中的复述现象。而任何语言单位只有进入真实语用中,才有交际价值,且生成它临时的语用意义。因为意义必须依赖语境[18];且交际中任何词语、话语的生成和理解,语境都是一个影响词义的重要变量[19]。同时,“话语”的语用意义存在于句子语义基础之上,还存在于字面之外的“言外之意”[20]。这是因为话语是实际交际中的词和句,必须从当下的情境中来解答,它不像句子那样有固定的意义,因而话语的理解往往需要一定的语用推理[21-22],从字面意义推断出其中隐含的话语含意[23]。据此,有些话语甚至并不具有相同的命题内容,但其中隐含的语境意义、会话隐涵所传达的是同一个交际意图,如此构成“同义结构群”[24]。

基于上述认识,本文集中关注在真实交际中为传达同一语用意义所采用的不同的表达方式。因此,本文将从汉语母语者的复述文本及其原文中提取出复述句,以语用学的视角考察这些进入使用状态的复述现象,揭示它们与游离于语境之外的语言单位的差异,补充现有研究的不足,为自然语言信息处理中对复述句研究提供基于语言事实的参考和依据。

1 篇章语用中复述句的获取

1.1 复述文本的来源

从现有公开的复述数据集来看,每个句子仅有一个或几个复述句,且多是基于传统的同义词替换或句式变换,往往强调“语义丰富”,鲜见有考虑语用因素而凸显语用变化的复述句。因此,尤为需要通过复述任务,驱动说话人或写作者在真实的交际情境中产出复述句,然后观察此类受语用因素干扰的复述句的特征。

为此,我们在汉语母语者的两个群体——广州某中学初中二年级和某高校本科三年级中分别随机抽取两个班,每班总人数均超过40人。在这4个班级中分别采用4篇不同的原文(下称“母文本”,字数均在1 000字左右)进行复述测试。这4篇文章来自HSK六级考试中的写作测试——缩写(1)真题来自《新汉语水平考试真题集》2012版(HSK六级),国家汉办/孔子学院总部编。(表1)。这项“缩写”实质上是一项“读后脱稿笔头复述”,本文称其为“复述”。要求如下:①阅读下面这篇文章,时间为10分钟,阅读时不得抄写、记录。②10分钟后收回阅读材料。在35分钟内笔头复述原文,不少于400字。

测试结束后收回复述文本,从每班中随机选取出40份文本(下称“子文本”),共计160份。然后将手写的原始文本转写为电子文档(2)本文仅关注文本的语义内容,故转写时对文中存在的语病做适当的修正,即根据我们母语者的语感,尽量还原原作者的意图。。

1.2 复述文本的分析方法

要进行文本的比对,需要先将文本切分成一个个更小的单位,才能进行更精确的对应比对。为此,我们尝试了词语、句子、小句等为单位,最终选定以“小句”为切分和比对单位。然后确定了文本的分析步骤,具体如下:

步骤一:确定小句的切分标准

对于小句,在概念上我们采纳“小句是最小的具有表述性和独立性的语法单位”的界定[25]。在形式上主要以逗号、句号等标点符号为形式标记。在操作上,主要借鉴文献[26]的做法。

步骤二:切分子母文本的小句

确定了比对单位以后,按照上述切分标准,对子母文本逐一进行小句切分,结果如表1所示。

表1 复述母文本及子文本相关信息

步骤三:人工对齐子母文本的对应小句

将子文本中与母文本小句句意匹配的小句逐一对齐成近义句对,如表2所示。

表2 复述子母文本小句人工对齐比对示例(3)下文的样例将按此表的格式呈现,左边为母句编号,右边为对应子句编号,但做了简化,不以标准表格的形式呈现。

根据母文本的编号对每一个子文本进行编号,如上据母文本02产出的第一个子文本编号为02-1,依次类推。小句的编号如第二个母文本的第一个小句编号为0201,其对应的第一个子文本02-1中的第一个小句的编号则为0201-1,依次类推。

1.3 复述句的类别及其数量分布情况

按照上述方法,我们对160个复述文本逐一进行以小句为单位的对齐和比对,从中共提取出复述句6 484对。分析发现这些句对可以归纳为两大类(本文主要考察句对之间没有信息损耗的,其他类型句对将另文详述),具体如表3所示。

表3 篇章中复述句的类型总结

2 篇章中复述句的语用考察

以上我们从样本中提取到两大类共6 484个复述句构成一个数据集。下面将从语用视角对该数据中的样例进行分类分析。

2.1 改换词语

这类保持整句句式不变而替换局部个别词语的复述句,我们根据所替换的词语,将这类复述句分为四个小类。

第一,改换指称方式。在汉语中具有指称功能的语词主要包括名词、名词性成分、代词和零形式,称为“指称语”。进入篇章中的名词、名词性成分和代词往往具有具体的指称意义,但对同一个对象的指称表达,可以有不同的方式,这种现象称为“指同表达”[25]。

在子母文本的比对中发现,句间存在一些表达形式不同,但在具体篇章中具有相同指称意义的指称语,其中人称指称语最多,示例如表4所示。

表4 人称指称语示例

第二,替换语境下词义相同的词语。替换近义词是实现两个句子形成近义关系的常见手段,样本中也有大量这样的句对。但不同的是,有不少词语的替换,在脱离语境的情况下,其近义关系往往不能成立。示例如表5所示。

表5 近义词替换示例

母句0234说女儿喝咖啡,前文是父亲让她看看咖啡豆煮过之后发生了什么变化,所以她尝试喝了一口。子句0234-16的“尝”非常精准地表达了“喝”在此处最确切的词义信息。第二例母句0361是出租车司机对上了车的乘客“我”说“碰到您”,根据交际者的身份关系,司机“碰到”乘客就是要把乘客“接到”某地。根据其社会关系和此时的行为活动,此时“碰到”即“接到”。

当词语进入真实交际中之后,都会在其所在语境的制约下产生一个特定的“语用意义”,即“此人此时此地用此句是此意”[26]。而复述者在阅读理解的过程中通过认知加工,再现词语确切的语用意义,因而是该特定的语境促成了上述两词之间的近义关系。

第三,替换上下义词语。上下义关系是词汇系统中一种重要的语义聚合关系,但表6中的这些词对是在所在语境下的上下位词,词义有一定的信息差额,形成包孕关系。

表6 替换上下义词语示例

在没有语境制约的情况下,如“干”和“搬”等词对并不构成上下义关系,但在这一情景之下,说话人所说的“干”的具体所指即“搬”,复述者把该词的所指范围缩小、具体化。这种现象称为“语用收缩”[27-28]。这实际上也是一个推理过程,即寻求某一词汇或结构在特定条件下的精确意义[22]。

表7中的这一例与前面几种情况是一个相反的推导过程。

表7 推导过程相反的示例

第四,替换模糊量表达。有些句子中出现了精确的数量表达,但在其子句中往往被替换为约略笼统的含糊表达,如表8所示。

表8 替换模糊量表达示例

第一例母句是出租车司机谈及自己的工作时间长达12小时,用的是精确描写法。而对应的子句用了“十几个小时”这样的概数,虽流失了一些信息,但这样的表达方式甚至更能传达说话人此时想强调的工作时间长,与母句语用等同。而第二例句中父亲具体用了多长时间来煮并不重要,子句替换为“不久”同样能产生与母句等效的语用功能。

这种模糊语言现象是一个完整的语言理论中的一个组成部分,并且模糊语言对语境具有很强的依赖性[29]。这种现象是话语中的“语用松散”,即一个词汇或结构的四周分布着围绕其语义原型而出现的可能选项,构成一个待选集合,不同的成员与语义原型的接近度不同。这恰好体现在我们的子文本中,即对于一个原词、原句,不同的子文本有不同的再现方式,这些方式就形成了一个集合,但成员之间以及与词语、结构都具有一定的近似性[27]。

以上归纳了通过改换词语形成的复述句的4个子类。从样本中挖掘出来的语用中可以互相替换的词语甚至词集中,充分说明了语境是一个不可忽略的重要因素,即语境可以促进或限制语用中词语近义关系的建构。这验证了前人[30-32]研究结论——词汇的同义关系除了依靠简单的语义联系,还需要通过语用推理机制在动态语境中调整和选择而构建。因此,纯粹依赖以往的“同义词词林”等仅着眼于抽象词义的知识资源还远远不够。

可见,基于语言事实,挖掘语用中词义的相似性(多词一义)和词义的相关性(一义多词),并对此类词对近义关系形成的机制,以及如何形式化以实现机器的识别、表征和计算,对知识库的建设乃至与语义相似性相关的实践应用都有所裨益。

2.2 重铸整句

绝大多数传统语法学、修辞学等所考察的“同义形式”和汉语“复述句”相关的研究都没有考虑语境因素。而我们从复述文本中提取到大量句对恰恰高度依赖语境。我们将此类复述句归纳为以下三个子类。

第一,推导言语行为意义。“言语行为”是人类言语活动的行为性质和行事意义,是字面语力和间接的施为语力[33]。在实施言语行为的过程中,说话人通过其话语意义传达某一交际意图,完成某些功能,如拒绝、命令等,且这个用意是在字面意义的基础上结合语境推断出来的。

样本中出现一些在言语行为意义上构成一致的近义句对,如表9所示。

表9 言语行为意义近义句对示例

劝阻句0452是医生(说话人)劝阻病人(听话人)“担心”,这是医生的用意,即以言行事;子句0452-9“没什么大事”则是以言指事。这两个话语都是要在听话人身上达到一个效果——让病人不要担心,促使他们放松、不担心,即“以言成事”(又称言后行为),这就是说者言语行为的意义,即隐含的用意。

上述这些句对之间并不具有相同的字面意义,但都传达出同一个交际意图,达到了同一个交际目的。

此外,还有子文本将母句的言语行为进行抽象的,如表10所示。

表10 语言行为意义抽象示例

如上述前几例中分别用“不接受”和“让”抽象原直接引语句中的言语行为。

此外,评价也是一种言语行为,评价意义是说话人所传达的或褒或贬的意义[34]。在篇章中,作者通过评价事物或人物来表达某种主观倾向,这种倾向性也是一种言语行为意义。评价意义也是话语中隐含的用意[35]。

表11中的这些样例就是句对之间的评价倾向性一致。

表11 句对之间评价倾向性一致示例

续表

如母句0185“喜欢他”暗含着“我”对他持正面评价,也与0185-15“我认为司机很好”有相同的主观倾向性。

第二,通过语用充实。国内外越来越多的学者[36-38]发现词汇或结构的使用和理解的过程不是一个简单的信息编码—解码的过程,需要交际者根据特定的语境条件对其进行不同程度的语用加工。

据此,在语言运用中通过“语用充实”来确定和获取交际信息的过程,指的是听话人根据语境,“对它们(话语中的词汇)进行不同程度的语用加工,使其成为特定的语境化信息”,包括“语用收窄”和“语用扩充”两种类型[27]。本文借用“语用充实”这个术语来论述子文本通过语用加工来再现原意的现象。

以上的实例多是依赖上文内容推导的。除此之外,还有部分复述句需要借助下文信息推断获得,如表12所示。

表12 需要借助下文信息推导的示例

表12中,0181-38是从母文本后文“接过他名片的同时,他的手机铃声正好响起”获知他要了司机的“一张名片”。0110-23也是从后文得知他每天工作的具体时长是12个小时。

第三,推导修辞意义。会话中的合作原则及其四个准则,包括数量准则、质量准则、关联准则和方式准则;隐喻、反语、夸张等此类现象都是有意违反会话合作准则,认为违反会话准则时就会产生“特殊会话含意”[39]。这些喻意性结构的字面意义往往不是特定语境下说话人的交际意义;而是始于这个显性的字面意义推知隐含的信息[38]。比喻、拟人等修辞就是含意的运用,这些修辞性语句的非字面义就是含意[40-41]。

我们从样本中发现一些修辞性表达在子文本中被改写,如表13所示。

表13 修辞性表达在子文本中被改写示例

续表

总之,以上所罗列的复述句中,句对之间往往不具有相同逻辑语义真值,但在进入具体特定语境时,却能生成相同的会话隐涵或言外之意,传递同一个交际意图。这种现象在真实的口头话语、书面篇章中普遍存在,而我们交际者往往都能“心领神会”地理解,并准确地选用恰当的方式自如地表达,这是因为交际双方除了基本语言知识之外,还具备共知的背景知识和语境信息。

3 结语

本文的考察复述句都是进入具体篇章中为特定语用目的服务的语句,反过来语境又赋予了它们临时特定的语用意义。可以看到,在改换词语的这一类复述句中,有相当一部分近义词高度依赖语境,而且它们并不总是具有相近的静态词义。也即在特定语境下词义的差异可能缩小甚至消失,进而形成近义关系;也可能其差异得以凸显而限制了近义关系的建立。而传统语义学、词汇学等只限于对词汇的真值做静态观察和描写,而事实上进入使用状态中的词意是动态流变的,词汇本身的静态意义发生一定的伸缩,甚至变异。词语近义关系的成员词也会根据情境即时生成建构或即时消失。可见,交际语境共生是语用意义生成的根本途径,语用环境是解释进入使用状态的词语近义关系必不可少的一个重要因素。

而在重铸整句这类复述句中,很多情况下仅依赖抽象的句义无法判断它们的关系,其近义关系需要在特定语境的制约下才能成立,即语境对话语近义关系的形成有促进或限制的作用。这印证了一个说法——语言活动中出现的意义还包括环境给予的意义。可见,词语、话语作为语言的基本建筑材料,理解语篇首先是对词义、句义的理解,而语境是理解词义、句义不可忽略的因素。如果仅用语义学的意义观,则无法解释这些在真实交际中广泛存在的同义手段。

可见,在真实交际中形成的复述句,相比以往复述句、文本蕴含以及传统的“变换分析”、“同义形式”等更复杂多样,其主要特征可以归纳为三点:①需要基于句子本身静态抽象的语义和语法等语言学知识;②依赖上下文语用知识、语境信息和百科知识等非语言知识;③需要借助一定的语用推理和逻辑知识。

另一方面,从上述语用中的复述句分析可以看到,此类需要利用语用知识判断的复述句在真实交际中广泛存在且类型繁多,是实现机器准确理解语义,并进一步完成其他实践应用的关键环节。这就给我们一个更关键的启示:根据上文实例中发现的篇章语用中复述句的特征和类别,要实现计算机准确地识别此类复述句,相应地需要提供的知识库包括语义知识、同义词词林等语言学知识库、语境语用知识和百科知识,以及推理知识;且其中语用知识极为关键,是必不可少的背景知识。而知识库的建设作为自然语言理解中一项基础而关键的任务,虽已取得不小的成果,但已有的知识库主要集中在语义知识上,语用知识库的基础研究、构建和实践应用还十分薄弱。在这项巨大的系统工程中,包括知识获取的渠道、建构、表示和利用的难题,还有待在日后的研究中逐一攻破。

当然,本文作为一项初步尝试,样本量、语篇类型及构成的数据集仍十分有限。限于篇幅,也未能穷尽所有的类型并做详尽描写。但从本文有限的样本中仍能提取到相当数量的复述句,且有大量的复述句是难以基于前人总结的复述现象类型来解释的。这是与以往复述句研究最大的不同,也是未来复述研究中需引起关注的重要问题。

猜你喜欢

近义字面示例
近义成语
汉语非字面语言认知加工的“规约层级递进模型”
2019年高考上海卷作文示例
常见单位符号大小写混淆示例
金缕衣
常见单位符号大小写混淆示例
别误会这些英语
“全等三角形”错解示例
这山望着那山高
望尘莫及