名词短语、物体及知识组织

2017-09-15林允清

北京科技大学学报(社会科学版) 2017年4期

关键词：物体

林允清

〔摘要〕我们知识中的很大一部分是关于物体的知识。我们用名词短语来指代物体，它们在我们的语言交流过程中扮演着十分重要的角色。文章将探讨两个问题，即（1）名词短语与物体之间的关系，与（2）物体与知识组织之间的关系。此外，文章还将初步讨论量词问题以及用自然语言进行知识表现和推理方面的问题。

〔关键词〕名词短语；物体；知识组织

〔中图分类号〕H0〔文献标识码〕A〔文章编号〕1008-2689（2017）04-0014-06

引言

我們每个人都掌握着大量的知识，其中大部分知识都是关于物体的。文章所讲的“物体”是一个广泛的概念，它包括个体、机构、事件、集合以及类别等等。物体可为单数，如“一个人”、“这个学校”以及“那辆车”；也可以为复数，如“人们”、“这些学校”以及“那些车”；还可以为物质名词，如“水”以及“汽油”等等。我们脑海中有许许多多的物体，这些物体被称为脑海物体（mental objects）。①对这些物体我们都有一定的知识。对于每个物体我们在大脑中都备有一个档案袋[1]，这个档案袋的内容就是我们对该物体的知识。②在说话时，如果想要表达这些物体，我们就使用名词短语（NPs）。名词短语有各种形式：有定名词短语与无定名词短语；单数名词短语，复数名词短语或不可数名词短语；简单名词短语或复杂名词短语等等。我们用哪个类型的名词短语来指代脑海中的某个物体取决于多种因素，例如是否刚刚提及过该物体、听话者对该物体是否了解、我们与听话者的社会关系如何、我们希望达到什么效果等等[1][4][5]。我们根据物体在其档案袋中的信息对其进行讨论。然而，在听话的过程中，我们的角色是反过来的。在这种情况下，我们必须弄清楚讲话者在谈论哪个物体，同时还必须激活我们大脑中对应的档案袋，更新其内容，或者根据需要建立新的档案袋。尽管这并非获取知识的唯一方式（另一种方式是通过感知），但是通过这种方式，我们能获得越来越多的知识。

我们可能会认为每个名词短语都指代某个物体，但是我们必须对这种观点小心对待。我们不该认为每个名词短语都对应着一个物体（或对应着一个档案袋）。这有很多原因。一种原因是明显不同的名词短语事实上可能会指代同一物体。例如，我们可以用以下不同的形式来表达“狮子是一种高贵的动物”[6] （214）：

（1）a. A lion is a noble beast.

b. The lion is a noble beast.

c. Lions are noble beasts.

d. The lions are noble beasts.

以上四个句子中，四个斜体的名词短语都指代狮子这一类动物。在我们的脑海中，似乎应该只有一个档案袋来装关于狮子的信息，而不是四个相应的档案袋。

另一个原因则是同一个名词短语可能出现在不同的句子中，且每个场合可能都指代不同的物体。以例（2）为例：

（2）a. Many people love animals.

（很多人喜欢动物。）

b. Many people own houses.

（很多人拥有房子。）

c. Many people drive BMWs.

（很多人开宝马车。）

d. Many people smoke.

（很多人吸烟。）

在这里，每个句子中的名词短语“很多人”都指代不同集合的人。但是在我们的脑海中好像没有四种完全不同的物体（对这四种集合的人来说）；相反，我们似乎认为“人”是一个单数物体，并且对其有一个档案袋，而句子（2a-2d）是其内容的一部分。

或许有人可能就会从例子（2）中归纳出这样一个规则：包含无定名词短语（indefinite NPs）的句子应该被放在由光杆名词短语（bare NPs，即不含限定词的名词性短语[7]）所指代的物体档案袋中。但是情况并非总是如此。假设我们知道例句（3）：

（3）Many people came to the party.

（许多人来参加这次聚会。）

那么例句（3）表达的意思似乎不是关于“人”的信息，而是关于“这次聚会”。因此，在这种情况下，句（3）应当归属“这次聚会”的档案袋而不是“人”的档案袋。

或许又有人会从例子（2）中归纳出这个规则：无定名词短语根本不该有其自己的档案袋。但实际上这种观点是错误的。假设例句（2c）后面还有例句（4）：

（4）They are all rich and they are typically snobbish.

（他们都很富有，但是通常都很势力眼。）

那么，在这种情况下，“开宝马车的人”似乎应该有一个档案袋，并且应该将例句（2c）与例句（4）存入该档案袋——两个句子都是我们对该物体的（部分）理解。相似地，如果在例句（3）后补充一个例句（5），我们可能就需要一个存有“来参加这次聚会的人”的档案袋，其内容应该包含例句（3）和例句（5）。

（5）They drank and drank. By the time the party finished they were all virtually unconscious.

（他们喝呀喝呀，聚会结束时，他们几乎个个都失去了意识。）

物体在我们的知识构成中扮演着重要的角色。了解如何创造新物体，并将其相关信息输入到其档案袋中有助于我们获得知识、组织知识；此外，还能促进我们创建能模仿我们行为的智能系统。这些将在下文予以讨论。

一、名词短语的使用

语言是信息交流的工具。名词短语是语言的一部分，用来指代物体。名词短语可以有定也可以无定；无论有定还是无定，名词短语皆包括单数、复数、物质、简单及复杂等多种形式。这一节我们将从说话者的角度分析如何使用名词词组来指代物体。endprint

让我们先分析一下无定名词短语的使用问题。使用无定名词短语的一个通常方式是谈论光杆名词短语所指的物体。因此，例句（1a）和（1c）中的斜体名词短语指代“狮子”这一物体。两句皆谈到了“狮子”，指出“狮子”中的任意一员都是一种高贵的动物。事实上，并非所有这样的名词短语都能分布性地使用，即：适用于某一类也适用于其所有个体成员。例如，“在这些地区，狮子的数量很多”[6] （215）表示狮子这一类具有这个性质，而不是狮子中的每一个个体都具有这个性质。例子（2）与例子（1）相似，因为例句（2a-2d）中的斜体名词短语似乎都指代“人”这一物体，而且所有句子表达的信息好像都关于“人”。

下面介绍一下说话者使用无定名词短语的第二种形式。说话者脑海中有某种特定的物体，并对此物体有所了解（即相应的档案袋中有该物体的信息），然而说话者却认为听话者并不知道此物体，于是便使用无定名词短语来示意听话者必须建立一个新物体（以及一个新的档案袋）以供以后使用[1][6]。一个典型的例子便是例句（6）：

（6） I met a man this morning. He offered me a cigarette.

（今天早晨我遇见一个人，他递给我一支烟。）

另外两个例子是：例句（2c） +（4），以及例句（3）+（5）。

如果说话者脑海中有某个特定类型的物体（即一个人、一群人或一个抽象的物体），也可以使用无定名词短语，但是通常来说，其头脑中有这个类型但并没有具体的物体。这样的类型是由一系列条件确定的。例如，假设例句（7）是某人对一个汽车经销商所说的话：

（7） I am looking for a car.

（我在寻找某辆车。）

此处，说话者可能脑海里已经想好了想买车子的要求（例如，这辆车应该具备行车里程短，外形不太过时，价格不超过一万英镑等要求），但是却不知道该买哪辆车。

与无定名词词组相比，有定名词词组（definite NPs）可以以与其同样的方式发挥作用。我们在例子（1）中已经看到有定名词词组与无定名词词组扮演着同样的角色：两者都指代“狮子”这一类动物（物体）。下面是另外两个例子，这两个例子展示了有定名词词组与一些无定名词词组是功能对等的：

（8） The manager of a bank is the person who is responsible for running the bank.

（银行经理就是负责经营银行的人。）

（9） Mary is in love with the manager of a bank.

（瑪丽与一个银行经理相爱了。）

在这两个例子中，有定名词短语“the manager of a bank”都与无定名词短语“a manager of a bank”是等效的，而且他们还能互换使用。

然而，在其它地方使用有定名词词组更为重要。大多数情况下，说话者多用有定名词词组来指代那些他认为听话者能确定的唯一物体。这些物体或者可能在之前提到过，或者可能与听话者有关系，又或者可能处在说话者与听话者之间的关键位置上，或者存在于说话者与听话者可能具有共同的文化信条中等等。我们不再赘述这些细节，详细信息请参考[6][8]。

二、名词短语与物体

上一节主要从说话者的视角来探讨名词短语。这一节我们将集中阐述听话者在听到含有名词短语的句子时是如何反应的。

让我们再从无定名词短语开始讨论。根据上一节的阐述，我们知道无定名词短语可以指代某类物体，某个特定物体，或某一特定类型的某个物体，但是到底是指代哪个物体听话者还得去发现。因此听话者不需要在其听到或读到无定名词短语时就即刻在大脑中设定（或创造）某个物体。但是，这并不会阻止其为该无定名词短语设定一个指代它的暂时性物体。脑海物体与暂时性物体的一个不同点在于前者是大脑中固定的物体如果我们不会忘记的话，那么脑海物体将会永久地存在于我们的大脑中。这是一种理想化的情况，因为在现实中我们是会忘记事情的。如何忘记以及怎样忘记并不是本文的关切点。，有其自己的档案袋，而后者则是暂时的，其对应的脑海物体及其档案袋还未建立。另一个不同点则在于并非每个暂时性物体都有一个对应的脑海物体。详细信息请见下文。严格地讲，即使是我们大脑中建立的暂时性物体，也是大脑中的物体。为了方便阐述起见，我将不把暂时性物体称为脑海物体。

一些有定名词短语与无定名词短语相似，但是其余的则需要听话者完全确定意指对象（见前面部分）。因此，遇到某个有定名词短语时，听话者不能立刻知道该短语属于哪一范畴，因此也就不能（在不经进一步加工处理的前提下）立刻激活或建立正确的脑海物体。与无定名词短语一样，听话者也需要先设定一个暂时性物体与有定名词短语相对应。

并非所有的暂时性物体都有一个对应的脑海物体。例子（2）就阐明了这一点：有四种暂时性物体都与一个单数的脑海物体相对应。但是每个暂时性物体又可以转换成（并非乔姆斯基意义上的转换生成）脑海物体，也就是说，每个暂时性物体均有一个潜在的脑海物体与之相对应。这一点在（2d）+（4）以及（3）+（5）这两个例子中有所体现。但是这种转换何时发生呢？

我将对刚刚所讨论的两种类型的有定名词短语加以区分，将那些表面上像无定名词短语的称为虚假无定名词短语，其它的则称之为真实有定名词短语。为某个真实有定名词短语设定的暂时性物体总有一个脑海物体与之对应；而为某个无定名词短语设定的暂时性物体则不一定（见上一段），为虚假有定名词短语设定的暂时性物体也不一定（接下来我会举例说明）。我们之前看到，例句（1b）说的是狮子的特性，应放在“狮子”的档案袋中。但是下面列举的例子（10）说的是“我”，而非“狮子”。所以例句（10）似乎应放入“我”的档案袋，而不应放人“狮子”的档案袋。endprint

（10） I love the lion（suppose it means： I love lions）.

（我喜欢狮子）。（假设该句中的“the lion”指狮子这一类动物。）

但是如果例句（10）后还有例句，如例句（11）的话，这种情形将会改变。

（11） They are noble beasts.

（它们是高贵的动物。）

这里例句（10）中“the lion”的暂时性物体不得不转换成某种脑海物体，即“狮子”，同时例句（10）与（11）都需要放入到其档案袋中。

从上述例子中，我们可以得出以下结论：为无定名词短语或虚假有定名词短语所设定的暂时性物体，如果在后续的语篇中被提及，都需要将其转换成脑海物体。但这就出现一个问题，即如果此类暂时性物体以后不再提及，那么是否还应该将其转换成脑海物体呢？我们接下来探讨这一问题。

如果后面的语篇中没有提到暂时性物体，那么一些暂时性物体将依然是暂时的，而其它的暂时性物体将会转换成脑海物体。规律其实很简单，那就是：

物体转换规则：如果某句中存在为名词短语而设立的暂时性物体，且该句子并不包含任何显性或隐性脑海物体，那么该暂时性物体将会转换成由与之对应的光杆名词短语所指代的脑海物体。

为了阐明这一点，请看例句（2）。假设例句（2a-2d）中的暂时性物体之后不会再提及。由于这些句子中没有脑海物体，因此不得不将其转换成某个脑海物体，即“人”[该词的档案袋将包含（2a-2d）]。

我必须强调物体转换规则中的“显性或隐性”这两个词。许多句子并不包含任何显性脑海物体。下面列举的例句（12）就是这样的句子。但是它所提到的“人”我们并不认识[与（2）相比]，这是听话者所认识的某种特定物体。例如，例句（12）或许可以放在例句（13）之后，因此，事实上例句（12）是包含显性脑海物体“这次聚会”的例句（3）的省略；在这种情况下，如果以后不再提及“很多人”所代表的暂时性物体，那么其暂时性物体将不再改变。相似地，例句（14-16）皆包含某个隐性脑海物体。

（12）Many people came.

（来了很多人。）

（13）We held a party yesterday.

（昨天我们举行了一个聚会。）

（14）Most people got drunk （at the party）.

[（在聚会上）大多数人都喝醉了。]

（15）No one was hurt （in the explosion）.

[没有人受伤（在这次爆炸事故中）]。

（16）Few people were present （at the meeting）.

[（会议）现场仅有几个人]

三、物体与知识组织

说话者用名词短语向听话者谈及其脑海物体，在此过程中，向听话者传达了相关信息。听话者不得不为其所遇到的每个名词短语设定一个暂时性物体，但是并非任何暂时性物体都有相应的脑海物体。真实有定名词短语的暂时性物体都会有对应的脑海物体；以后会提及的虚假有定名词短语或虚假无定名词短语也有对应的脑海物体。对于余下的部分，有无相应的脑海物体是由物体转换规则决定的。

在详细描述了脑海物体与暂时性物体之后，让我们研究一下它们与知识组织之间的关系问题。我们认为我们所拥有的大量知识是从听到或读到的句子中获得的，这些知识也可以以句子的形式表达出来。我们认为，这些句子存储在脑海物体的档案袋中，也就是说，这些句子与脑海物体相连，而不是与暂时性物体相连。我们建议，一个含有几个脑海物体的句子应该与每一个脑海物体都相连。在谈到“将某个句子与某个物体相连”时，我们也指“将此句子放到那个物体的档案袋中”。这两种表达可以交换使用。

脑海物体彼此之间相互联系，这种联系是由其所属的句子建立的。我们所知道的句子中有相当重要的一部分是以这种形式存在的：NP1 be NP2，其中后者是无定的。这些句子反应了我们对世界本体的认识。例如：

（17） A dog is an animal.

（狗是一种动物。）

（18） My neighbours are lawyers.

（我的邻居是律师。）

（19） Animalloving people are people who love animals.

（爱动物的人是指那些喜爱动物的人。）

本体论这一概念已经困扰了许多哲学家和人工智能研究者，他们总是用一些人工的形式，如isa來阐述本体论。我们认为，本体论可以用自然的句子来表达，此观点对解决与其相关的理论与实践问题具有重要意义；但是讨论该问题会让我们偏离本文的主题。

无论名词短语指代的是单数个体、复数（即一组）个体、物质物体或者能否量化，本文以统一的形式对其进行了全面的阐述。这也是本文的主要贡献。哲学家、逻辑学家、语言学家以及人工智能研究人员经常将研究中心放在单数名词短语或非量化名词短语上，从而常常忽略了物质、复数或量化名词短语；或者他们往往割裂地处理这些名词短语，很少将其作为整体来一起研究。而我们则对名词短语做了统一的处理。为了明白这一点，读者只需要用其他量词，如“所有的”、“最多的”、“仅有的”、“几个没有”、“三百”等词来替代本文所举例子中的“很多”，或者用物质名词短语（加上一些相关的量词，如“很多”和“几乎没有”）来替代可数名词短语，这样读者就会相信，我们提供的分析都是可行的。

每个名词短语都能衍生出一个（暂时性）物体，这一观点非常重要，因为它能使我们以一种统一的、自然的方式来探讨量化问题。Iwanska[9]在探讨否定推理时，提出了相似的方法。endprint

文章对于建立智能系统也具有一定的理论和实践意义。理论上，文章指出，自然语言很可能是最好的知识表现形式，也就是说，知识最好以自然句子的形式（或者与其非常相近的形式）来呈现，因为目前存在的包括逻辑在内的所有知识表现形式均都是受限的，它们均无法表现用自然语言可表达的所有信息。推理也可以使用自然语言来实现，即通过来源于自然语言的某种自然逻辑来实现。关于这些论题，请见[2][9] [10][11] [12][13] [14]等等。文章探讨了知识库如何可以沿着这些途径进行建立的问题。实践上，文章对一个问题提供了解决方案，即如何区分暂时性物体与脑海物体。人们可能会认为每个名词短语均指代一个物体，然而如果在编码一个大型知识库系统时为每个名词短语都创建一个物体，就会很快发现面临着一个分配与控制物体的艰巨任务。其原因在于需要编码进知识库的句子包含大量的名词短语。文章表明，尽管每个名词短语均能衍生出一个暂时性物体，但并非所有的名词短语都能转换成脑海物体。脑海物体通常可以互相区分，因此在建立一个新脑海物体时，通常需要使其不同于现有物体（例如，使用某个不同的符号，如MO234，这里234之前就没有使用过）。但是并不是所有暂时性物体都要有所差别。例如，在遇见第一个暂时性物体时，可以使用TO1，如果以后再遇到其它的暂时性物体就可以使用TO2， TO3等。但是所需要的数量没有那么多，用完TOn以后就可以继续从TO1开始。我们认为，数字n与我们短期记忆能记住多少（暂时性）物体有关，而且数字n不会很大。

四、结语

文章对名词短语、物体以及知识组织进行了研究，取得了初步的成果。但还有几个问题需要继续研究。第一，听话者在听到某个真实有定名词短语时，是如何激活或建立某个脑海物体的。第二，听话者是如何发现句子中的隐性脑海物体的。第三，说话者是怎样用名词短语来进行指代的。此外，还有句子是如何根据其时间关系、因果关系以及其它类型的关系进行组织的问题。这些问题还需要更多的研究。

〔参考文献〕

[1] Schoorl， S. Opacity and transparency： a pragmatic view [A]. In van der Auwera， J. （ed.），The Semantics of Determiners [C]. London： University Park Press Baltimore，1980： 156-165.

[2] Seuren， P. A. M. Discourse Semantics [M]. Oxford： Basil Blackwell，1985.

[3] Habel， C. U. Inferences the base of semantics？ [A] In Buerle， R.， Schwarze， C. & von Stechow， A. （eds.） Meaning， Use， and Interpretation of Language [C]. Berlin： Walter de Gruyter， 1983： 147-163.

[4] Hovy， E. H. Generating Natural Language under Pragmatic Constraints [M]. Hillsdale， NJ： Lawrence Erlbaum Associates，1988.

[5] Dale， R. Generating Referring Expressions： Constructing Descriptions in a Domain of Objects and Process [M]. London： MIT Press， 1992.

[6] Hawkins， J. A. Definiteness and Indefiniteness [M]. London： Humanities Press， 1978.

[7] Carlson， G. N. A unified analysis of the English bare plural [J]. Linguistics and Philosophy， 1977， 1： 413-457.

[8] Young， D. J. Introducing English Grammar [M]. Routledge： London， 1991.

[9] Iwanska， L. A general semantic model of negation in natural language： representation and inference [A]. In Proceedings of the Third International Conference on the Principles of Knowledge Presentation and Reasoning [C]. San Francisco， CA： Morgan Kaufmann 1992： 357-368.

[10] McCawley， J. D. A program for logic [A]. In Davidson， D. and Harman， G. （eds.）. Semantics of Natural Language [C]. Dordrecht： D. Reidel， 1972： 498-545.

[11] Lakoff， G. Linguistics and natural logic [A]. In Davidson， D. and Harman， G. （eds.）. Semantics of Natural Language [C]. Dordrecht： D. Reidel， 1972： 545-666.

[12] Dik， S. C. Linguistically motivated knowledge representation [A]. In Nagao， M. （ed.）. Language and Artificial Intelligence [C]. Amsterdam： North Holland， 1987： 145-170.

[13] Mott， P. L. A grammar based approach to commonsense reasoning [A]. In Millican，P. J. R. and. Clark， A （eds.）. Machines and Thought： The Legacy of Alan Turing， Volume 1[C]. Oxford： Clarendon Press，1996： 233-254.

[14] Kowalski， R. English as a logic programming language [J]. New Generation Computing， 1990， 8： 91-93.

（責任编辑：高生文）endprint