单句汉译英评分量表探索

2012-01-22马漪云

山西农业大学学报（社会科学版） 2012年4期

马漪云

（山西农业大学文理学院，山西太谷030801）

翻译的评分当属主观性评分，因此设计一个可靠的翻译评分量表是一项相当艰巨但又非常重要的任务。翻译的任务类型可以分为：文本翻译和句子翻译两种。文本翻译的评分量表在TEM8和NAETL（全国口、笔译考试）中都有权威的表述。在研究生入学考试中，也很早就出现了单句英译汉极其评分标准。2006年，大学英语CET4进行改革后，一个新型的翻译任务类型出现了——半句英文已经给出，考生只需译出半句英文。CET4考试委员会也相应给出了这一新任务的评分量表。然而，单句汉译英在平时的大学英语测试中经常使用，却从未在大规模的考试中出现，因而也没有相应的较为权威的评分量表，给单句汉译英的研究带来了很多困难。在翻译评估中，一个可执行的、合理的评分量表会降低翻译评分过程中的评分员效应，因为Linacre［1］认为2／3的分数差异是由评分员效应引起的。因此，本文欲对单句汉译英翻译评分过程中的重要因素进行研究，从而制定出一个较为合理的单句汉译英评分量表，并对其有效性进行测试。

一、翻译评分的方法

刘润清［2］指出由于翻译测试的主观性较强，因此翻译的评分相当困难，然而其评分方法可借鉴写作的评分方法，他认为以下写作的评分方法亦可用于翻译评分。

1）机械式评分方法，即数错法。数出文章中的错误个数，按错误数目扣分。但这种方法的致命弱点是，只注重文章缺点，忽视了最根本的东西——思想表达。

2）印象法。凭阅卷者的个人印象给等级分。

3）分析法。把一篇作文分成若干项目，按照事先集体规定的评分标准，对每项分别评分，最后统计总分，给等级分或百分。

Waddington［3］总结了两种翻译的评分方法。

1）按照译文错误的严重性扣分，如果错误严重扣2分，如果不严重扣1分；同时，按照译文质量加分，如果译文较好加1分，如果译文优异加2分。

2）按照译文错误的性质扣分，如果错误属于翻译错误影响信息传递，扣2分，如果错误属于语言错误，不影响信息传递，扣1分。

显而易见，他们的评分方法都侧重于文本翻译。刘润清［4］认为单句测试和文本测试的功能并不一致，单句测试仅在与测试翻译能力的基础层次——即语言运用能力。那么，文本翻译的评分方法显然不适合应用于单句翻译。

二、翻译评分的信度及效度

既然翻译评分主观性较强，翻译评分在翻译测试中遇到的麻烦最多，特别是在评分过程中想保持评分的客观性和一致性。穆雷［5］提出翻译测试的信度问题是一个亟待解决的问题，因为国内学术界对翻译测试缺少系统的研究。虽然翻译测试的评分方法可以部分借鉴作文评分，但二者在测试目的和标准上存在不少差异。文慧［6］用有声思维研究了单句英译汉的评分差异，其研究结果表明翻译评估是一个复杂的心理过程，即使有经验的评分员也会存在评分差异。

评分员的评分行为对语言能力评估的效验的影响越来越被人们重视。Weir和Bachman认为评分员的主观行为会威胁到翻译测试的效度。［7，8］江进林，文秋芳［9］用多面Rasch模型从考生、评分员、评分项目三个角度研究了文本翻译的测试效度，发现尽管评分员的宽、严度存在显著差异，但评分存在较好内部自我一致。他们同时认为多面Rasch模型提出“拟合效度”的概念，可以考察考生的答题行为、评分员的评分行为、试题的难度、评分量表的合理性等多种因素对测试效度的影响。

随着语言测试的发展，主观测试的信度和效度得到了很大的完善，分项式评分在写作测试中得到了广泛的使用，但却极少应用于翻译测试中。虽然TEM 8也分别考虑了文本翻译中的信、达、雅，但都按整体给出五个档次进行评分。文秋芳等［10］在TEM 8的口译中采用了分项式评分。该量表分别给出英译汉和汉译英的25个语义点，译文如果正确得4分，部分正确得2分，错误得0分，然后对每个语义点的得分进行相加。王金铨，文秋芳［11］设计了一个汉译英的分项式评分量表，该量表分别从语言形式、语义内容方面给出了评分点，并用三个有经验的评分员进行了评分，研究结果表明三位评分员的内部一致性较高，语言形式、语义内容的内部一致性相关系数均超过了0.95。

但是与整体评分相比较，一个分项式评分量表仅适合于一个特定的文本译文，这也是分项式评分在翻译中很难得到广泛应用的原因。因此，国内研究者王雷等人［12，13］开始致力于机助评分模型的研究，但其研究主要是针对文本翻译进行的，而刘润清［4］指出单句翻译也是翻译的题型之一，像CET4翻译题型一样，它可以测试学生基本的翻译能力，即语言运用能力，这一题型在平时的翻译教学中经常运用。因此，为之设计一个合理、可执行的评分量表也就迫在眉睫。

三、评分量表设计

（一）实验过程

本实验将2009年12月CET4的5道翻译题，由两位翻译老师共同改编为5道单句汉译英题，于2010年4月在山西农业大学经贸院2008级随机抽取了40名学生进行了测试，收回有效试卷37份，并邀请6位有经验的评分员（6位评分员的背景见表1）用有声思维的方法对其进行评分。

本实验借鉴了Ling Shi［14］有声思维的方法，在整个评分过程中按要求记录6位评分员的思维。由于有声思维比较复杂，在评分前抽取5份试卷让评分员熟悉有声思维的评分过程。因为6位评分员有非常丰富的教学经验，在评分前，并没有给具体的评分量表，只提供了一些具体的评分点，比如语言表达中词汇的错译、漏译，词汇搭配、词汇选择，句子结构等；信息传递中的忠实、通顺等。其目的是发现这些教师在单句汉译英评分中的标准及侧重点。此外，要求这些教师给每个句子评分时，要在句子翻译不合适的地方划线，并按照评分依据，给出三个评分的理由，并按重要程度排序。由于预先没有评分量表，每个教师必须根据自己的评分经验去权衡哪个标准在汉译英评分中更为重要，因此可以避免评分量表设计中的个人偏见。然后，收集有声思维的数据，另外邀请2位教师对有声思维数据进行整理、归类。在此过程中当2位教师归类有异议时，通过商议取得一致结果。

表1 6位评分员的背景

最终根据有声思维的数据将翻译评分的标准分为4类：词汇和短语、语法、句子结构、信息表述，这些类别与TEM 8和NAETI评分量表的标准一致。经过数据分析后，整理每个评分员的评分规律，并设计评分量表。

（二）实验结果与分析

为了保证评分量表的有效性，用克伦巴赫系数计算了6位评分员的评分信度系数，如表2。从表2可以看出，6位评分员的评分信度都在可接受范围，他们的评分信度系数为0.941。他们的评分一致性较高，可以用来设计评分量表。

表2 6位评分员的评分信度

6位评分员分别为37位考生的5个句子评分，每个评分员分别应对185个句子进行评分，并对每个句子给出三个评分理由。为了设计评分标准，在编码后，笔者统计了所有满分的句子和所有三个评价都是正面评价的句子。6位评分员有声思维收集的数据如表3。

表3 6位评分员影响评分因素的排序表

评分员1有50个句子都给出了正面评价，在这50个句子的评分中，她认为最重要的评分因素中有32个是信息表述、17个是句子结构、只有1个是词汇；排第二位的评分因素中有29个是句子结构、9个是信息表述、8个是词汇、4个是语法；排第三位的评分因素中有27个是语法、16个是词汇、5个是信息表述、2个是结构。评分员2有44个句子都给出了正面评价，在这44个句子的评分中，她认为最重要的评分因素有33个是结构、6个是信息表达的忠实、5个是信息表述的通顺；排第二位的评分因素中有18个是信息表达的通顺、11个是词汇、8个是信息表达的忠实、7个是结构；排第三位的评分因素中有20个是信息表达的忠实、14个是词汇、5个是结构、3个是语法、2个是信息表达的忠实。评分员3有46个句子都给出了正面评价，在这46个句子的评分中，她认为最重要的评分因素有38个是结构、8个是语法；排第二位的评分因素中有40个是信息表述的忠实、6个是语法；排第三位的评分因素中有17个是信息表达的通顺、12个是词汇、8个是信息表达的忠实、7个是结构、2个是语法。评分员4有50个句子都给出了正面评价，在这50个句子的评分中，她认为最重要的评分因素有45个是句子结构、5个是信息表述；排第二位的评分因素中有43是信息表述、5个是结构、2个是语法；排第三位的评分因素中有29个是词汇、11个是信息表述、7个是结构、3个是语法。评分员5有 54个句子都给出了正面评价，在这54个句子的评分中，她认为最重要的评分因素有34个是信息表述、14个是句子结构、5个是语法、只有1个是词汇；排第二位的评分因素中有35个是句子结构、10个是信息表述、6个是语法、3个是词汇；排第三位的评分因素中有39个是词汇、7个是信息表述、7个是语法、只有1个是结构。评分员6有37个句子都给出了正面评价，在这37个句子的评分中，她认为最重要的评分因素有18个是句子结构、8个是语法、8个是词汇、3个是信息表述；排第二位的评分因素中有15个是信息表达的忠实、11个是语法、8个是词汇、3个是结构；排第三位的评分因素中有17个是信息表达的通顺、11个是词汇、8个是语法、只有1个是结构。

按照有声思维报导的数据，每位评分员的评分规律（见表4）如下：评分员1认为信息表述是最重要的因素、其次是句子结构、第三是语法；评分员2认为句子结构是最重要的因素、其次是信息表述的通顺、第三是信息表述的忠实；评分员3认为句子结构是最重要的因素、其次是信息表述的忠实、第三是信息表述的通顺；评分员4认为句子结构是最重要的因素、其次是信息表述的忠实、第三是词汇和短语使用；评分员5认为信息表述是最重要的因素、其次是句子结构、第三是词汇和短语使用；评分员6认为句子结构是最重要的因素、其次是语法和信息表述的忠实、第三是信息表述的通顺。

总结以上规律，其中有4位评分员认为句子结构是影响评分最重要的因素、信息表述位居第二，有3位评分员认为第三个影响评分因素的仍然是信息表述，而另三位评分员认为是词汇、短语使用和语法。

（三）对教师、学生的访谈

在测试和评分后，分别对学生和教师进行了访谈。大部分被采访的学生认为句子结构、语法、短语和词汇的使用是汉译英的重点和难点。由于大学英语教学不再讲授语法，以及他们自己没有记住大学应掌握的大量的词汇、短语的用法，使得他们在英语测试的表现中有所下降。大部分评分员认为在评分过程中，有些语法内容他们归入了句子结构、有些语法认为错误太小可以忽略，除非遇到虚拟语气、特殊时态表述、被动语态、比较级等语法，他们才会有所警觉。而这些语法测试点，在句子翻译，尤其是CET4翻译中，只会出现一个或两个，但在评分中，他们确实应列入被考虑因素之列。另外非谓语动词在汉译英中，学生可以用从句进行代替，因此，很少作为考点进行测试。

综合评分员的评分规律和访谈结果发现，在单句汉译英评分过程中，句子结构、信息表述、词汇语法都是应该考虑的重要因素，这一点和TEM8、NAETI III提供的评分标准近似，因此，制定了单句汉译英的评分量表，见表5。

表5 单句汉译英评分量表

四、评分量表有效性测试

为了测量该评分量表的有效性，本实验又从汪开虎编的CET4预测题［15］中抽取20道翻译题，由那两位翻译老师共同改编为20道单句汉译英题，于2010年6月在山西农业大学经贸院2008级随机抽取了100名学生进行了测试，收回有效试卷60份，并另邀请3位评分员进行评分，测试他们的评分一致性系数，评分结果详见表6。

结果表明评分员单句汉译英得分间的相关系数及评分员间的Alpha系数，评分员间的相关系数在统计学上具有显著性意义，且评分员20个句子的Alpha系数均大于0.7，说明了评分结果的内部一致性较为满意。将20个句子的总分相加为每一位受试的总分，统计结果显示，三位评分员的相关系数最小值为0.776，相关性较好，且他们评分的Alpha系数为0.920，内部一致性非常好。

表7显示了三位评分员对60位受试评分的均分和标准差，评分员间的均值和标准差都比较接近，也反映了评分员之间的评分一致性良好。

表7 总分的均值和标准差

五、结论

通过对评分员评分过程中有声思维的研究，发现在单句汉译英的评分标准中，评分员关注译文的句子结构、信息表述、语法及词汇、短语使用，因而制定了相应评分量表。接着，对100位受试进行了单句汉译英测试，并利用该评分量表，另外邀请三位评分员，对其进行评分。从三位评分员20个单句评分及总分的相关系数和Alpha系数，发现用该评分量表进行评分，三位评分员的内部一致性较好，而他们评分的均值和标准差也证明了这一点。从而，证明了该评分量表是有效的。当然，翻译的评分是非常复杂的，三位评分员每个句子的评分相关性和一致性并不是特别高，只是较为满意。因此量表的研究还有待提高，量表的使用还有待在日常的教学测试中进行验证。

［1］Linacre J M.Many-faceted Rasch Measurement［M］.Chicage：MESA Press，1989：17-20.

［2］刘润清.语言测试和它的方法［M］.北京：外语教学与研究出版社，1991：86-87.

［3］Waddington Christopher.Different Methods of Evaluating Student Translations：The Question of Validity［J］.Coden Metacl，2001，46（2）：311-325.

［4］刘润清，韩宝成.语言测试和它的方法（修订版）［M］.北京：外语教学与研究出版社，2000：197-199.

［5］穆雷.翻译测试及其评分问题［J］.外语教学与研究，2006，38（6）：466-471.

［6］文慧.单句英译汉测试评估中的评分员差异研究［J］.太原科技大学学报2009，30（2）：143-145.

［7］Weir C J.Language Testing and Validation：An Evidence-based Approach［M］.Houndmills：Palgrave Macmillan，2004：226-229.｀

［8］Bachman L F.Statistical Analyses for Language Assessment［M］.Cambridge：Cambridge University Press，2004：309-312.

［9］江进林，文秋芳.基于Rasch模型的翻译测试效度研究［J］.外语电化教学，2010，131（1）：14-18.

［10］文秋芳，王文宇，周丹丹，等.全国英语专业八级口试体系的研究与实施［J］.外语界，2005，109（5）：53-58.

［11］王金铨，文秋芳.学习者汉英翻译分析性评分细则的制定［J］.外语教学，2009，30（4）：96-112.

［12］王雷，常宝宝.大学英语翻译考试人工辅助计算机评分初探［J］外语电化教学，2009，128（4）：17-21.