APP下载

从助词标注看汉语分词软件的问题

2023-03-08郭康平

牡丹江大学学报 2023年2期
关键词:该软件助词量词

郭康平 冯 莉

(1.黑龙江大学文学院;2.黑龙江大学应用外语学院,黑龙江 哈尔滨 150080)

一、前言

CorpusWordParser是一款创建于2014年且免费使用的语料库分词和标注工具和该软件具有类似分词标注词性功能的软件“NLPIR-ICTCLAS”系统(也可直接称为“ICTCLAS”),都是由中国科学院计算技术研究所研制的,主要功能包括中文分词、词性标注、命名实体识别、新词识别等等。

首先运用语料分词标记软件CorpusWordParser对1954-2021年《政府工作报告》(部分年代有缺失)语料进行分词并标记词性。运用Antconc软件对历年助词词种以及出现的频次进行统计。发现CorpusWordParser对部分年份中助词词性标记错误。此外,ICTCLAS在与CorpusWordParser标注同一句子时,与CorpusWordParser软件具有共同的错误之处。

本文提出的词性标注错误主要依据词典、现代汉语教材和相关论文。词典主要有《现代汉语词典》(2016)[1]、《现代汉语八百词》(增订本1999)[2]、《现代汉语规范用法大词典》(2001)[3];《现代汉语》教材主要参考钱乃荣(2001)[4],兰宾汉、邢向东(2006)[5],郭锐、王理嘉、陆俭明(2012)[6],黄伯荣、廖旭东(2016)[7],邢福义、汪国胜(2019)[8]等等。其他著作主要参考:马彪(2002)[9],齐沪扬、张谊生、陈昌来(2002)[10]等等。

二、标注错误类型

就助词词性标注来看,其错误类型主要归为两大类。第一类是将实词性语素或词标记为助词;第二类是将助词标记为其他词性。

(一)将实词性语素标记为助词

第一类是将实词性语素或词标记为助词,有“动词标记为助词、名词标记为助词、量词标记为助词和介词、代词标记为助词”四小类。

1.动词标记为助词

动词标记为助词的有“得”和“着”。

(1)得

关于“得”的词性有三种看法。1)标记“得”是动词、助词、助动词三种词性的有《现代汉语词典》[1]、《现代汉语规范用法大词典》[3]。2)标记“得”是助词、动词两种词性的有《现代汉语八百词》[2]。3)仅仅提及“得”的助词用法的有黄伯荣、廖旭东(2016)[7]等。笔者认为上述词典以及教材对“得”的助词和动词用法释义基本相同,可以归结为:“得1”为动词词性,表示完成,得到义;“得2”为结构助词,用在中心词和补语中间,是补语的标志。至于表示“需要、允许”义的“得3”,究竟为助动词或助词,反映了学术意见的不同,不是软件自身的问题。因此,本文仅展示该软件将动词“得”标记为助词的例句。

该软件将动词“得”标记为助词。该软件将“得不到、少劳少得、得大头、得实惠”等结构中的动词“得”标记为助词。黄伯荣、廖旭东(2016)[7]等学者认为助词“得”是附着在实词、短语、句子后表示结构关系或动态等语法意义,是补语标志,而“得不到、少劳少得、得大头、得实惠”等结构中的“得”一般为中补结构,动宾结构,在句中作谓语或中心语成分,具有“得到”义,因此不是助词。《现代汉语词典》[1]、《现代汉语八百词》[2]等认为具有“得到”等意义的“得”是动词,因此本文认为应该将其判定为动词。

表1 动词“得”标记为助词的错误示例

(2)着

关于“着”的词性有两种看法。1)认为“着”有助词和动词两种词性的有《现代汉语词典》[1]、《现代汉语规范用法大词典》[3]、《现代汉语八百词》[2]。2)仅提及“着”的助词词性的有黄伯荣、廖旭东(2016)[7],郭锐、王理嘉、陆俭明(2012)[6]等。可见,“着”有两种词性:“着1”为助词,表示动作或状态的持续;“着2”为动词,表示强调义。

该软件将“着重地”“着重点”中的动词“着”错误地标记为助词。《现代汉语词典》[1]等均认为助词“着”表示动作或状态的持续,例如:他们正谈着话。“着重地”“着重点”中的“着”不表示动作或状态的持续,但具有“强调”义,因此不是助词词性。《现代汉语词典》[1]认为“着重”是动词,表示把重点放在某一方面,具有强调意义,因此“着重地”“着重点”中的“着”为动词。该软件误将“着重/地”“着重/点”判定“着/重地”“着/重点”,分词和标注均是错误的。

例句:(1)着/u重地/n发展/v了/u社会主义/n的/u国营经济/n和/c各种/r类型/n的/u合作社/n经济/n(1954)

(2)它/r的/u着/u重点/n,/w是/vl在/p坚持/v六/m项/q政治/n标准/n的/u前提/n下/nd(1978)

2.名词标记为助词

名词标记为助词的有“地”。

关于“地”的词性有两种看法。1)认为“地”有助词和名词两种词性的有《现代汉语词典》[1]、《现代汉语规范用法大词典》[3]。2)认为“地”为助词词性的有《现代汉语八百词》[2],邵敬敏(2001)[11],黄伯荣、廖旭东(2016)[7]等。可见,“地”有两个:“地1”为名词,表示土地,地级等;“地2”为结构助词,用在状语和中心语之间,是状语标志。

该软件将“……等地,因地制宜,因地施肥,地、市、县”等结构中的名词“地”错误地标注为助词词性。《现代汉语词典》[1]等认为“地”作为名词表示地球、陆地、地区、地方、路程等意义。“……等地”“因地制宜”“因地施肥”中“地”表示地区的意义,而“地、市、县”等结构中的“地”表示级别意义,因此以上语料中的“地”是名词。《现代汉语词典》[1],黄伯荣、廖旭东(2016)[7]认为助词“地”表示它前面的词或词组是状语,是状语标志,如“天渐渐地冷了”中“地”为助词。因此上述语料中的“地”为名词而非助词。

例如:(1)如/v变/v碱地/n和/c砂/n地/u为/p良田/n,/w变/v山坡/n地/u为/p梯田/n,(1955)

(2)研究/v因/c地/u改良/v、/w因/c地/u种植/v、/w因/c地/u施肥/v等/v项/q措施/n(1960)

(3)自治区/n以及/c地/u、/w市/n、/w县/n和/c基层/n组织/n(1982)

3.量词标记为助词和介词

量词标记为助词和介词的有“所”。

对于“所”的词性主要有四种看法。1)认为“所”有名词、量词、助词三种词性的有《现代汉语词典》[1]、《现代汉语规范用法大词典》[3]。2)认为“所”为助词词性的有《现代汉语八百词》[2]等词典,黄伯荣、廖旭东(2016)[7]等教材。3)认为“所”为介词的有钱乃荣(2001)[4]。4)认为“所”有代词词性的有文锋(1991)[12]。钱乃荣(2001)[4]、文锋(1991)[12]等认为“所”具有介词词性、代词词性的例子现均被认为是助词词性,如黄伯荣、廖旭东(2016)[7],邢福义、汪国胜(2019)[8]。可见“所”有三种词性:“所1”为名词,表示处所;“所2”为量词,用于房屋等建筑;“所3”为助词,帮助“所+动词”构成名词短语。该软件错误地将量词“所”标记为助词词性以及介词词性。

第一种错误是该软件将量词“所”标记为助词。其表现是将类似于“中央卫生部医院共有三千零六十八所”中的量词“所”标注为助词。《现代汉语词典》释义[1]及黄伯荣、廖旭东(2016)[7]等人认为助词“所”用在及物动词之前,使“所+动词”成为名词短语,如:“我所认识的人、所见所闻、各取所需”等结构中的“所”为助词,可见软件标准语料中的“所”不是助词词性。《现代汉语词典》[1]、《现代汉语规范用法大词典》[3]认为“一所学校”中的“所”是量词,“所”作为量词可用于房屋,学校等。因此可以判定“所”是量词而非助词。

第二种错误是该软件将量词“所”标记为介词。量词“所”标记为介词仅有1956年“全国设立的工人技术学校将达192所”这一例语料。而上述词典和著作中仅仅钱乃荣(2001)[4]认为“所”为介词,根据黄伯荣、廖旭东(2016)[7]对介词定义来判断,“所”不具有介引功能。因此,该句中的“所”不是介词而是量词。

表2 量词“所”标记的部分错误示例

4.代词标记为助词

代词标记为助词的是“之”。

对于“之”的词性主要有两种看法。1)认为“之”具有动词、代词、助词三种词性的有《现代汉语词典》[1]、《现代汉语规范用法大词典》[3]。2)认为“之”是结构助词的有黄伯荣、廖旭东(2016)[7]等。可见“之”有三种词性:“之1”为动词,表示到,该用法来源于古代汉语;“之2”为代词,代指人或事物;“之3”为助词,相当于“的”。软件是将代词“之”错误地标记为助词。

该软件将“本政府均愿与之建立外交关系”“辅之以必要的改革”等结构中的代词“之”错误地标记为助词。《现代汉语词典》[1]等认为助词“之”用在定语和中心词之间,组成偏正词组,例如:求之不得。黄伯荣、廖旭东(2016)[7]认为结构助词“之”相当于口语“的”,居定中短语中间,例如:光荣之家。语料中的“之”分别充当动词“辅”的宾语,代表某个政策,作介词“与”的宾语,代表某个国家,均具有指代意义,因此“之”不是结构助词。《现代汉语词典》[1]等认为代词“之”代替人或事物。所以,语料中的“之”均为代词。

例如:(1)本/n政府/n均/d愿/vu与/c之/u建立/v外交关系/n。(1954)

(2)使/v之/u逐步/d地/u转变/v为/p社会主义/n企业/n,(1955)

(3)辅/v之/u以/p必要/a的/u改革/v。(1981)

(二)将助词词性标记为其他词性

将助词词性标记为其他词性的有“助词标记为动词、助词标记为形容词”两小类。

1.助词标记为动词

助词标记为动词的有“等”。

对于“等”的词性主要有三种看法。1)认为“等”有名词、动词、量词、助词、介词五种词性的有《现代汉语词典》[1]。2)认为“等”具有动词和助词两种词性主要有《现代汉语八百词》[3]。3)认为“等”具有助词词性的有邵敬敏(2001)[11]、朱军(2008)[16]等。可见,“等”有五种词性:“等1”为名词,表示等级;“等2”为动词,表示等待,等候;“等3”为量词,表示类别,种类;“等4”为助词,用在人称代词后表示复数;“等5”为介词,表示等到。

该软件将“发展以粮食等农产品为原料的加工业、运用信息网络等现代技术”等句子中的助词“等”错误地标记为动词。《现代汉语词典》[1]认为动词“等”表示等候、等待,语料中的“等”不具有动词含义,但具有列举未尽之意,因此不是动词。《现代汉语词典》[1]、《现代汉语八百词》[2]、邵敬敏(2001)[11]等认为助词“等”表示列举未尽。语料中出现的“粮食等农产品”“网络等现代技术”中的“等”均表示列举未尽之意,因此均为助词词性。

例如:(1)运用/v信息/n网络/n等/v现代/nt技术/n,/w推动/v生产/v、/w管理/v和/c营销/v模式/n变革/v,/w加大/v对/a民生/n等/v薄弱/a环节/n的/u支持/v。(2016)

2.助词标记为形容词

助词标记为形容词的有“一样”。

一样

对于“一样”的词性大致有四种看法。1)认为“一样”具有形容词、助词两种词性的有《现代汉语规范用法大词典》[3]、邵敬敏(2001)[11]。2)认为“一样”只具有形容词性的有《现代汉语词典》[1]《现代汉语八百词》[2]。3)认为“一样”具有助词词性的有黄伯荣、廖旭东(2016)[7]等。4)认为“一样”具有形容词、数量词组、比况助词三种词性的有张谊生(2002)[13]、徐复岭(1980)[14]。可见,“一样”有三种词性:“一样1”为形容词,表示“相等”义;“一样2”和“似的”一样是助词,不能单独作句子成分;“一样3”是数量词组,例如:一样东西。

该软件将“年青的知识分子,正在像雨后春笋一样地生长起来”“把大田种得像菜园子一样”中的助词“一样”错误地标记为形容词。《现代汉语词典》[1]认为形容词“一样”表示没有差别,语料中“一样”不表示没有差别。根据《现代汉语规范用法大词典》[3],黄伯荣、廖旭东(2016)[7]等人的看法,本文认为,“正在像雨后春笋一样地生长起来”“把大田种得像菜园子一样”中的“一样”是助词而非形容词。

例如:(1)年青/a的/u知识分子/n,/w正在/d像/p雨后春笋/i一样/a地/u生长/v起来/vd。(1959)

(三)小结

该软件将实词性语素“着”“地”“之”“所”标记为助词,将助词“等”“一样”分别标记为动词和形容词等实词词性存在识别不清词性的问题。将“所、一样”等词错误地标记为介词、形容词等词性,这是由于该软件的词性标注参照没有统一的标准导致的。

三、两款软件分词标注结果的比较

本文为了探求此类软件在助词分词和标记词性方面是否一致,随机选择CorpusWordParser标记错误的16个例子,用同样具有汉语分词和标注词性功能的“ICTCLAS”系统进行重新分词和标记词性,两款软件测试结果对比如下:

表3 “CorpusWordParser”与“ICTCLAS”标记结果对比

通过对比发现,汉语分词和标注软件均存在词性标注错误的情况。“ICTCLAS”分词和标记词性的正确率高于“CorpusWordParser”。两款软件共同的错误之处共有五点。

(1)均将“得实惠”中的动词“得”标记为助词。

(2)均将“着重/点”划分为“着/重点”,将动词“着”标记为助词。

(3)均将“人多地少”“砂地”中的名词“地”标记为助词。

(4)均将“……高等学校已由五百九十八所增加到七百一十五所”中的第一个量词“所”标记为助词。

(5)均将“本政府均愿与之建立外交关系”中的代词“之”标记为助词。

以CorpusWordParser、ICTCLAS为关键词进行检索发现这两种软件一直被使用。因此,本文的意义之一是提醒使用此类软件时要加强人工检查,才能够提高词性标记的准确率。

四、结语

本文以CorpusWordParser为例总结该类软件存在的几点问题,并提出一些改进建议。

(1)从整体来看,汉语分词和标注软件对于兼类词的实词和虚词词性的识别准确性较低。将语料中实词性的“得”“着”“地”“之”“所”标记为虚词。将语料中虚词性的“一样”“等”标记为实词。

(2)词库不全。该软件不能将“砂地”“着重”“得实惠”等划分为词和短语,说明其所参照的词库不全面或词库中未涵盖这些词。将“我国人多地少”划分为“我/r国人/n多/a地/u少/a”,可以说明,该软件的词库中没有“我国”一词,只有“国人”,或者其所参照的词库中“国人”的统计数据高于“我国”。以上均显示出该软件所参考的语料不全面,词库不全的缺点。

(3)判断标准不一致。第一,分词标准不一致。该软件将“人多地少”“少劳少得”等结构分开标记。将“少劳少得”标记为“少/a劳/v少/a得/u”,而与之结构相同的“多劳多得”却被标记为“多劳多得/i”。第二,词性标注标准不一致。将“中央卫生部医院共有三千零六十八所”中的量词“所”标注为助词,将“全国设立的工人技术学校将达192所”中量词“所”标记为介词。可见,该软件对于分词和词性标注缺乏统一的标准。

对于上述问题,本文给出如下建议。

(1)加强计算机识别实词和虚词的能力。可以根据现代汉语助词的内在规律建立汉语助词库,将助词出现的所有用法全部用例句描述出来。

(2)拓展语料空间。解决词库不全问题需要参照比现阶段范围更全面,数量更大的数据库和语料库,弥补涵盖词组不全问题。

(3)提供一致的判断标准。具体来说,对于“少劳少得”和“多劳多得”判断标准应该达成一致,或均整体标注为“i”(i代表习用语)或均分开标注。

判断标准主要依照权威词典等工具书、学术著作。所以,对于词典来说,要求词性概括全面,对于学术著作要求给出有说服力的理由,能在词性以及用法上给出更具体的解释。

总的来说,解决上述问题必须要训练计算机区分兼类词的实词和虚词词性,依据词典以及数据库分词和判定词性,参考更丰富的数据库以弥补词库不全的问题。在使用分词标记软件标记语篇时,人工检查仍然是必要的,这应当引起对汉语分词标记软件标注使用正确性的注意。

最后,本文赞同徐复岭(1980)[14]、张谊生(2002)[13]所认为的“一样”具有助词、形容词、数量词组三种词性。“一样”作为形容词,表示相同,同样。“一样”作助词,表示“像……一样”。“一样”作为数量词组,修饰限定事物,例如:一样东西。王自强(1998)《现代汉语虚词词典》[15]、《现代汉语规范用法大词典》[3]均认为“一样”是助词。《现代汉语词典》(第7版)[1]认为“一样”仅为形容词词性,未收录其助词词性及数量词组。因此,本文建议《现代汉语词典》(第8版)应该将“一样”的助词词性以及数量词收录进该词典。

猜你喜欢

该软件助词量词
韩国语助词的连续构成与复合助词的区分
简单灵活 控制Windows 10更新更方便
集合、充要条件、量词
十二生肖议量词
量词大集合
日语中间投助词さ的考察
日语中“间投助词”与“终助词”在句中适用位置的对比考察
Flashfxp Password Decryptor
江永桃川土话的助词
量词歌