APP下载

留学生离合词学习系统应用研究

2016-02-20郑美平

合肥学院学报(综合版) 2016年6期
关键词:偏误例句语料

郑美平

(福建江夏学院 设计与创意学院,福州 350108)



留学生离合词学习系统应用研究

郑美平

(福建江夏学院 设计与创意学院,福州 350108)

利用现有的汉语语料库和语言学知识总结离合词分离规则和偏误规则,设计一套留学生离合词学习训练系统,实现离合词的计算机自动处理,一方面可以让留学生灵活安排时间练习,使其更快地掌握和运用离合词;另一方面也有利于教师开展更多的离合词研究,进而改进教学方法,使离合词教与学互相促进,良性循环。

离合词;分离形式;学习系统

离合词作为现代汉语中一类特殊的语言现象,一直是对外汉语教学的难点和重点。留学生在使用离合词时存在较多偏误,偏误常集中在两类问题上:一类是离合词应分离使用时却合着使用,如“我只能省你一次挑水而已”;另一类是分离形式错误,如“我早上见了面一个朋友”。从偏误情况来看,留学生并未掌握好离合词的分离形式,究其原因与对外汉语教材呈现的离合词合多离少以及教学训练时间不足等有着密切关系。因此,设计一套留学生离合词学习系统辅助离合词教学,为留学生展示离合词的离析形式,使留学生能够自行安排更多的时间用于离合词的学习训练,将有助于兼顾离合词的“合”与“离”教学,提高留学生学习离合词的整体效果。

1 本文研究范围与离合词的判定

1.1 研究范围

离合词是指现代汉语中一类双音结构词,它具有凝固的意义, 使用时可以在结构中间插入其它成分,形式上可离可合。如:“上课”“跳舞”“见面”等。目前语言学界对离合词的性质并没有统一的认识,主要有:“词”说、“短语”说、“介于词与短语的中间状态”说、“合为词离为短语”说等四类观点。[1]从表达单一意义凝固的特征来看,目前在对外汉语教学过程中大都采用“词说”的观点来解释,即离合词是一类特殊的词,可有限地分离,本研究亦采用此观点。为提高研究的有效性,本研究从动宾型离合词入手进行分析,结合对外汉语教学词汇大纲选取训练用离合词,选取那些同时出现在《新汉语水平大纲》与《现代汉语词典》(第六版)中拼音加“//”的词语,最终确定动宾式双音节结构的离合词为180个。将选取的离合词及其在《大纲》中对应的等级,在《词典》中对应的释义、拼音等信息,作为本研究的离合词词库。

1.2 离合词的判定

离合词的判定取决于对离合词性质的认识。如前所说,学界对离合词的性质尚存异议,因而离合词的判定至今亦无统一标准。大部分学者(如华玉山,王海峰,范晓等)认为离合词是一类特殊复合词,其意义和形式与一般的复合词有明显的界线,即所表达意义具有黏合性,不是构成词的各语素意义的简单加合,且其形式上可分离但这种分离是有限扩展,即结构上相对稳定,且扩展后词义保持不变。[2]其与一般复合词及短语的判定概括如下:

词义单一 + 形式可分离 = 离合词 (如:跳舞,道歉等)

词义单一 + 结构凝固 = 复合词 (如:抱歉,出版等)

意义加合 + 结构松散 = 短语 (如:买书、吃药等)

事实上,有一类词既是短语又是离合词,其判定需根据其具体的使用义。比如“吃饭”,或用为:“我中午只吃了一碗饭。”表达的是进食米饭,其意义是“吃”与“饭”的加合,结构上可扩展为“吃了一碗饭”,因此为短语。或用为:“我是吃教师饭的。”表达的则是一种职业,其意义非“吃”与“饭”的加合,而是“吃饭”的引申义,具有黏合性,且结构上亦可扩展,因此判定为离合词。

1.3 离合词的分离形式

离合词作为一类内部能插入某些词语的特殊复合词,其分离形式有着较稳定的规则,通过总结这些规则并转化成计算机算法,可以实现计算机自动识别。离合词分离形式如下:

(1)在离合词的语素间插入“了/着/过”。

这种形式可具体表达为:“V + 动态助词 + N”。若插入的动态助词为“了”,则表示动作已经完成(如:抽了烟);若插入的动态助词为“着”,则表示动作持续进行(如:生着病);若插入的动态助词为“过”,则表示动作曾经经历(如:洗过澡)。

(2)在离合词的语素间插入“[了/过/上] + [数量] + [形容词]”([]表示可以省略,下同)。

这种形式可具体表达为:“V + 动态助词 + [数词 + 量词] + [形容词] + N”。此时的“了/过”与上一形式表示同一意义。此形式的“数量”可以有“名量”、“时量”、“动量”等。如:“投过两张票,帮了一个忙”表示“名量”,若数词为“一”时,有时可以省略,如“帮了一个忙”可以省略为“帮了个忙”;再如:“读过一年书,请了半天假”表示“时量”;又如:“洗过三次澡”表示“动量”。

(3)在离合词的语素间插入“什么”。

这种形式可具体表达为:“V + 什么 + N”。此形式的“什么”有两种表示,其一表示疑问,句中一般有“?”,如“她生什么病?”;其二表示否定、不满语气,句中一般有“!”,如“你安什么心!”等。

(4)在离合词的语素间插入“[了/过] + 人名或人称 + [的] + [数量]”。

这种形式可具体表达为:“V + 动态助词 + N + [的] + [数量] + N”。此形式表示某一行为的交接。如“见了他的面,帮过你的忙”,表示把受事交接给与事;如“碍了他大事,送过你重礼”,表示从与事那里获得某种受事。

(5)“介词 + 人名或人称”接插入“[了/过]”离合词。

这种形式可具体表达为:“P + N + V + 动态助词 + N”。此形式表示与事施加某动作给受事。如“跟他说了谎,给你送过礼”。

(6)在离合词的语素间插入“不/得 + 着/了/上/下”。

这种形式可具体表达为:“V + 不/得 + 着/了/上/下 + N”。此形式“不/得”表动作“能否”态,“着/了/上/下”表示动作的结果。如“他吃不了亏,结得上婚,见得着面”。

(7)离合词倒置。

这类离合出于突出离合词中名素需要,而在句子中进行特殊的变形。其具体形式有以下几种:

a.离合词倒置后接“了/过”。

这种形式可具体表达为:“N + V + 动态助词”。此形式表示强调发出某动作。如“澡洗了,活干过”。

b.离合词倒置后插入“[还/都/也] + 没/不”。

这种形式可具体表达为:“N + [还/都/也] + 没/不 + V”。此形式表示带“语气”的否定某动作。如“字都没签,活也不干”。

c.离合词倒置后插入“[都/也/该]”后接补语 。

这种形式可具体表达为:“N + [都/也/该] + V + 补语”。此形式表示带“语气”的表达某结果。如“觉也睡了,字都签了”。

d.离合词倒置后接“得 + 补语”。

这种形式可具体表达为:“N + V + 得+ 补语”。此形式表示动作发生的情状。如“歌唱得好,事闹得太大”。

(8)离合词重叠。

离合词重叠主要以下几种形式:

a.重复动语素。

这种形式可具体表达为:“V + V + N”。此形式表示动作的重复。如“跳跳舞,散散步”。

b.重复动语素,并在动语素间插入“一/了”。

这种形式可具体表达为:“V + 一/了+ V + N”。此形式表示强调动作。如“见一见面,理一理发”。

c.重复动语素,并在动语素间插入“没/不”。

这种形式可具体表达为:“V + 没/不 + V + N”。此形式表示质问语气。如“帮没帮忙,结不结婚”。

1.4 离合词分离形式的计算机判定规则

为实现计算机自动识别离合词的分离形式,需将上述分离形式转化为计算机可读的布尔表达式(用于判断离合词分离属于何种形式)及正则表达式(用于从语料库中检索符合分离形式语料)。[3]具体转化规则如下表1:

表1 离合词分离形式的计算机判定规则表

续表1

2 留学生使用离合词常见的偏误形式及计算机判定规则

2.1 常见的偏误形式与规则

本系统偏误例句主要来源于HSK动态作文语料库及留学生日常交际常见错句整理。通过分析这些偏误形式并进行分类,为计算机自动识别偏误类型提供必不可少的基础数据。偏误分类主要借鉴《外国人学汉语语法偏误分析》(鲁健骥)中的四个分类,即“成分多余、成分缺失、成分误代、成分错位”。[4]具体分类如下:

(1)离合词接宾语偏误。

大多数离合词不能接宾语,只有小部分能接,如“担心,放心”等。这类偏误有两种处理,一种是“介词 + 宾语 + 离合词”;另一种是将宾语插入离合词。

例如:我每个星期一见面女朋友。(应为:我每个星期一与女朋友见面。)

(2)插入成分偏误。

a.“了/着/过”直接放在离合词后。

离合词若要表示动作的完成情况,需将时态助词插入离合词,而留学生往往把离合词当作动词,直接在离合词跟时态助词。

例如:我的朋友们每一个都结婚过。(应为:我的朋友们每一个都结过婚。)

b.数量直接放在离合词前或后。

离合词若要表示动作的“数量”情况,需将“数量词”插入离合词,有的留学生习惯把数量放离合词前,有的则放离合词后。

例如:都知道这样的结果,不过一次抽烟以后他们就不能停止抽烟。(应为:都知道这样的结果,不过抽一次烟以后他们就不能停止抽烟。)

c.补语位置偏误。

留学生经常弄错“完,好”等这些表示动作补语的词的位置。[5]

例如:等考试完,我要准备写论文了。(应为:等考完试,我要准备写论文了)

d.“什么”位置偏误。

例如:你生气什么?我没做错啊!(应为:你生什么气?我没做错啊!)

e.形容词位置偏误。

留学生常把形容词放在离合词的前或后。

例如:早上热水洗澡完以后,再去上课特别精神。(应为:早上洗完热水澡以后,再去上课特别精神。)

(3)离合词的重叠偏误。

离合词一般可重叠,如“散步,点头”等,留学生在使用时常与双音节动词混淆(如“考虑,研究”等)。

例如:我要去操场散步散步。(应为:我要去操场散散步。)

(4)位移偏误。

留学生学习离合词倒装时,经常该倒不倒,不该倒时出现倒装。

例如:这次考试,他连报名也没。(应为:这次考试,他连名也没报。)

2.2 偏误形式的计算机判定规则

上述偏误形式转化为计算机可读的布尔表达式(用于判断语料中偏误属于何种偏误)、正则表达式(用于从语料库中检索符合偏误形式的语料)及语料更正规则(自动将偏误语料按规则转化成正确语料)的具体形式如表2:

表2 偏误形式的计算机判定规则表

3 留学生离合词学习训练系统的功能设计

3.1 系统的网络架构设计

系统采用三层架构模式设计,留学生用户端可以使用HTTP协议通过Internet或Intranet与服务端交互数据。教师可以直接使用浏览器在WEB服务器上管理“云存储”数据。网络架构如图1:

图1 离合词学习系统网络架构图

3.2 基础数据库设计

系统的数据库采用关系数据库模型创建。数据库的核心数据表如下:

(1)离合词表。

用于存储系统的离合词字典,数据结构如表3:

表3 离合词表

(2)离合词例句表。

用于存储系统的离合词例句库,数据结构如表4:

表4 离合词例句表

(3)用户语料表。

用于存储系统用户所录入的语料,数据结构如表5:

表5 用户语料表

(4)用户学习情况表。

用于存储用户的学习信息,数据结构如表6:

表6 用户学习情况表

(5)用户信息表。

用于存储用户的个人信息,数据结构如表7:

表7 用户信息表

3.3 留学生离合词学习模块

根据用户所选取的离合词,按分离形式自动从“离合词例句表”中抽取例句,并从“离合词表”中抽取字典信息,将抽取的“分离形式,词义解析,例句”展示在用户界面上。本模块能自动从CCL语料库(北京大学中国语言学研究中心)和语料库在线(教育部语言文字应用研究所)自动按离合词表及分离规则抽取符合条件的现代汉语语料并存储于“离合词例句表”。若分离形式没有现成的例句,则根据分离规则自动生成例句。

3.4 留学生离合词的训练模块

根据用户所选取的离合词,按用户设置的提示内容,将提示信息展示在用户界面上,并提供可录入编辑框用于用户输入信息。根据分离规则及偏误规则自动判定用户录入信息正误,若发现偏误则自动进行纠错,并提示偏误位置及发生原因。将用户所录入信息自动存储于“用户语料表”,将“偏误次数、学习时间、训练时间”等相关信息存储于“用户学习情况表”,便于用户及时了解自身学习情况,并为后期研究存储基础数据。

3.5 学习情况统计与分析模块

自动提取“用户学习情况表”的数据进行统计与分析,为用户展示自身的学习规律,便于用户自行设计学习计划。

3.6 云处理模块

自动将用户自定义抽取的例句、“用户语料表”、“用户学习情况表”等用户数据上传至远程服务器。远程服务器的例句库也能根据需要自动反馈回本地用户端。本地用户端若发生数据丢失也可以从远程服务器下载已存储于服务器的基础数据。教师可以连接远程服务器下载所需的留学生学习数据,并进行统计与分析,以便于留学生离合词习得研究以及制定教学计划。

4 留学生离合词学习训练系统的实现

系统的本地用户端的功能实现使用Visual Foxpro 9.0工具开发,本地用户端的数据库采用VFP自带的数据库。远程服务端的功能实现使用ASP.NET开发,远程服务端的数据库使用MicroSoft SQL Server 2008存储。用户端与服务端数据交换采用XML格式传递数据。

4.1 基础数据建设

系统的建设离不开基础数据。这些基础数据不仅可直接用于系统建设过程中算法验证和模块的可靠性测试,是系统投入使用必不可少的基石。

(1)离合词表的数据建设。

系统使用筛选法选取同时出现在《新汉语水平大纲》与《现代汉语词典》(第六版)中拼音加“//”的词语,再利用离合词的判定规则化算法进行二次筛选。并将选取的离合词在《大纲》中匹配出对应的等级,在《词典》中匹配出对应的释义、拼音等信息,编完号后,将信息存储于离合词表。

(2)例句建设。

目前系统的例句来源于三个语料库:HSK动态作文语料库、CCL语料库和语料库在线。HSK动态作文语料库为中介语语料库,较适合留学生使用,但例句较少,只提取了85句。CCL语料库和语料库在线中的现代汉语语料库例句较多,系统能自动通过网络连接查找下载所需例句语料,所使用提取规则为文中第三部分的分离规则,现已累计提取15815条例句。

(3)分词和词性标注。

由于CCL语料库、HSK动态作文语料库和自定义语料库等例句语料未经分词和词性标注,为使语料标注统一,所提取的语料系统均自动调用语料库在线网站的分词和词性标注功能进行标注。

4.2 主要功能模块界面

(1)离合词学习界面,见图2。

图2 离合词学习界面图

用户需先设置所要学习的离合词,进入本界面后系统将自动逐一展示离合词的拼音、等级、词义解析、分离形式、分离例句等信息。点击“下一词”自动刷新到下一个离合词,点击“朗读词语”发出离合词的朗读声音,点击“下一例句”自动刷新例句的显示。进入本界面后系统会自动记忆每个离合词学习时间并将数据存储在“用户学习情况表”。

(2)离合词训练界面,见图3。

图3 离合词训练界面图

用户需先设置所要训练的离合词,进入本界面后系统只显示离合词的拼音、等级等信息。用户输入句子后点击“检查句子”,系统自动判断离合词分离形式是否有误,如有误提示具体的偏误信息,并自动将纠错后的句子显示在“正确句子”框里。输入出现偏误后点击“查找例句”,系统将筛选该类分离形式对应的例句并弹出显示。点击“清空”,则自动清空用户输入的内容。在此界面系统会自动记忆训练时间、输入语料等信息。

(3)学习情况分析界面,见图4。

图4 离合词学习情况分析界面图

用户需先选择统计日期,点击“数据分析”,系统自动对存储在 “用户学习情况表”里该期间用户的学习数据进行统计,并在表格上显示统计表。点击“数据导出”,可以将统计表以EXCEL格式导出。

(4)云处理界面,见图5。

图5 云处理界面图

用户若勾选“自动同步数据”,则每次进入系统将自动从远程服务器上下载本地用户端没有的例句,退出系统时将自动把当前用户端新增的数据上传至服务器。点击“上传数据”,将自动上传新增的用户数据,点击“下载数据”,将从远程服务器上下载本地用户端没有的例句,点击“修复数据”,将从远程服务器上下载本地用户端所上传的所有数据。

5 结 语

该系统是根据语料库和语言学知识总结出离合词的分离规则和偏误规则,用于实现离合词的计算机自动处理,辅助留学生进行离合词的学习。然而,由于语料库的离合词分离例句较少,分类判断规则里一些特殊情况未予以考虑,一定程度上影响软件的用户体验。目前系统已进行一个多月的测试,自动处理的正确率在80%左右。希望今后能通过系统设计的“云存储”功能获得源源不断的例句,促进系统的进一步研究和完善。

[1] 王洁.汉语中介语偏误的计算机处理方法研究[D].北京:北京语言大学博士研究生论文,2008.

[2] 范晓.动宾离合词及其构成的语式[J].山西大学学报:哲学社会科学版,2014(6):41-49.

[3] Jen-Tzung Chien,Meng-Sung Wu and Hua-Jui Peng.Latent Semantic Language Modeling and Smoothing[J].Computational Linguistics and Chinese Language Processing,2004,9(2):29-44.

[4] 任海波,王刚.基于语料库的现代汉语离合词形式分析[J].语言科学,2015(6):75-86.

[5] 杨泉.基于HSK作文语料库的留学生离合词偏误计算机自动纠错系统初探[J].语言文字应用,2011(2):116-124.

[责任编辑:王玉宝]

On the Foreign Students Learning System on Separable Words

ZHENG Mei-ping

(Fujian Jiangxia College ,College of Design and Innovation,Fuzhou 350108, China)

This paper tries to summarize the existing Chinese corpus linguistics and knowledge about separate rules and bias rules of separable words, so as to design a separable words learning system for students, implement separable words computer automated processing. It on the one hand allows students to arrange time to practice flexibly so that they can quickly grasp and apply separable words, on the other hand will be more helpful for teachers to have research on separable words so as to improve their teaching methods and make the separable words teaching and learning better.

separable word; separable form; learning system

2016-03-10

2016-05-01

福建省中青年教师教育科研一般项目(JA13331S)。

郑美平(1981— ),女,福建宁德人,福建江夏学院设计与创意学院讲师,文学硕士;研究方向:语言学及应用语言学。

H08;H95.3

A

2096-2371(2016)06-0074-08

猜你喜欢

偏误例句语料
“一……就……”句式偏误研究
新HSK六级缩写常见偏误及对策
基于语料调查的“连……都(也)……”出现的语义背景分析
好词好句
好词好句
好词好句
好词好句
关于《突厥语大词典》汉字译写偏误研究
《苗防备览》中的湘西语料
国内外语用学实证研究比较:语料类型与收集方法