基于语料库的初高中英语教材词汇衔接度的研究

2015-06-30广东省广州市第十三中学李咏欣

卫星电视与宽带多媒体 2015年3期

广东省广州市第十三中学李咏欣

一、引言

2015年1月，广州地区初中学段英语教材全部改版完毕，全套更新为上海教育出版社出版的《初中英语(牛津版)》(Oxford English for Shanghai，以下简称OESH)。高中学段使用的是人民教育出版社出版的《普通高中课程标准实验教科书· 英语》(New Senior English for China，以下简称NSEC)。2015年9月，OESH的第一批使用者将要升学到高中学段，新版的初中教材与现行高中教材的衔接情况，是一个未知的领域，更是一个急待研究的领域。笔者把本实证研究的切入点落在对初高中教材词汇衔接度的研究之上。

二、文献综述

i+1理论是Stephen Krashen(1982)在第二语言习得理论中提出的“语言输入假说”的精髓。i表示语言学习者目前水平，1表示略高于语言学习者现有水平的语言知识。如果学习者现有的水平为i，则输入的内容应有一个小跳跃，即i+1。因此，可理解的输入既不是0 (低于或接近于习得者的现有水平)，也不是i+2(远远超过习得者的现有水平)。

语料库语言学是一种全新研究技术和方法，它开辟了一个新的研究领域，它的数据不同于以往研究中采用的直觉数据，而是对实际使用的语言事实进行定性定量的描写和概括，使研究更科学和准确。

基于前人的研究，本文旨在研究广州地区初中学段教材OESH和高中学段高一年级NSEC词汇的衔接情况。具体的研究问题有如下两个。

第一，从广度来看，高中学段NSEC高一年级和初中学段OESH的词汇输入量、词汇密度、常见度和平均词长以及高一年级对初中词汇的覆盖率如何？

第二，从深度来看，高中学段NSEC高一年级对初中学段OESH覆盖的词汇是否以他们最常用的词形、语义、最典型的使用范式和搭配衔接？

三、研究发现与分析

笔者使用Range和AntConc作为检索工具；SPSS作为数据统计分析工具。

（一）广度分析

1.输入量

以下为初中、高中两个学段词汇输入量表(表1)。

在词频基数方面，笔者采用卡方检验，结果表明，高一年级与初中九年级词汇输入量双尾显著水平P值为0.000 (sig.＜0.05)。因此初高中学段在词汇输入量差异显著。

在词形基数方面，高一年级与初中九年级词汇输入量双尾显著水平P值为0.000(sig.＜0.05)，词汇输入量差异显著。

2.词汇密度

Ure (1971)提到词汇密度是衡量单位篇章信息含量的尺度，因此可以体现语篇的难易程度。她采用公式standardized type/token ratio(STTR)=词形数/频数（types/token）×1000来测算语篇的词汇密度，如表2所示。

使用单样本，结果表明，高一年级与初中各个年级词汇密度双尾显著水平P值为0.000 (sig.＜0.05)，存在显著差别。该量表说明高中学段NSEC高一年级英语文章的难度和词汇量明显高于初中学段。

3常见度

以下为初中、高中两个学段的词汇常见度表（表3），该表能够从广度上反映两个不同学段的词汇常见度情况，通过进一步的分析，能够探究英语词汇在两个不同学段的常见度衔接情况。

语料中分布在基础词表一和基础词表二的词形数在两个学段词形数总输入量中占的百分比总体呈下降趋势，但幅度不大。

语料中分布在基础词表三的词形数在两个学段词形数总输入量中占的百分比总体呈上升趋势。这说明基础词表三单词的增加幅度中初中到高一的增加幅度虽然差距不大，但有稳定量的学术词汇的增加。

4.平均词长

平均词长是决定语篇难度和复杂性的一个重要因素。笔者用两种方法计算平均词长可以更全面地比较初中学段和高一学段高一年级的平均词长。结果如表4、表5所示。

由表4可知，高中学段高一词汇量平均词长(6.16)大于初中平均词长（5.89）。通过卡方检测2个样本库平均词长差异，结果表明，双尾显著水平P值为0.000 (sig.＜0.05)。因此初中学段OESH与高中学段NESC高一年级两个样本库词汇量的平均词长存在着显著的差异。

由表5可知，高中学段高一年级所有单词的平均词长(4.42)大于初中学段的平均词长(4.39)。通过卡方检验两个样本库平均词长差异，结果表明，双尾显著水平P值为0.000(sig.＜0.05)，与表4检测结果相似。因此初中学段与高中学段高一两个样本库所有单词的平均词长差异显著。

5.覆盖率

高中学段高一教材NSEC词汇对初中学段教材OESH词汇覆盖率的高低直接影响着高一学生英语词汇学习的难易程度。高中对初中学段、初中学段中九年级对七八年级、八年级对七年级词汇的覆盖率如表6所示。

高中学段高一词汇对初中学段的覆盖率为65.99%，相对上述两个年级而言最低。词汇覆盖率高低的波动，有可能增加了学生在适应高一词汇学习的困难。

（二）深度分析

对于研究问题2，笔者将研究目标缩小，取样初中学段和高中学段高一年级频数最高的动词use、 go、make、 like。对这4个词簇词形呈现状况作进一步对比分析，结果见表7。

表7显示，初中学段OESH和高中学段NSEC高一年级对这4个高频动词的最常用词形的呈现不但种类大部分趋向一致，而且频数的排序也很接近。

针对研究问题2，本研究进一步以like为例，展示笔者如何研究前文提及的抽样动词在OESH和NSEC中使用的范式和搭配，并从频数的角度观察其衔接的情况(见表8)。

通过对like的语义进行分析，发现该词在初中学段的OESH和高中学段高一NSEC中作v.时候其首要义“喜欢、喜爱”和“希望、想”能够合理衔接，且在样本库呈现的顺序也一致。其意思“愿意、想要(只用于否定句)”有一个常用语义在教材中缺失，就是只用于否定句时表示“愿意、想要”。

当like用作prep.时，无论OESH还是NSEC均没有按照其首要义的排序呈现，其首要义“照（如同）……一样”和“符合…特点，像…才会”在初高中学段的教材中能合理衔接，其余常用语义在初高中学段呈现的排序均各有差异。

初中学段OESH缺失了其作为conj.和n.的语义呈现，在高中各有一次呈现的频率，增加了同一词汇词性种类的丰富性，但由于频数各只有1，被视为呈现频数上的低频，不利于学生掌握其语义与范式。笔者追踪检索模块一和四的单词表，均没有出现like作为生词的条目，其作为conj.和n.的语义没有在生词表中得到呈现。

like作为v.时，其第二首要语义“愿意，想要(只用于否定句)”没有在初中、高中学段呈现，故不作讨论。

从表9可以看出，在like这个词的使用上，OESH和NSEC在搭配词的多样性和主要用法的呈现上比较接近，初高中的衔接基本合理。OESH和NSEC中like的最典型范式like +to -v和n.+like+n.两种范式排列在前两位，而且两项合计使用的频数占所有范式频数的一半以上。在初中学段OESH教材中like的9种范式中有5种的频数低于10%以下；在高中学段NSEC高一教材中like的11种范式中有8种频数低于10%以下。情况类似，趋于低频呈现，故两个学段的教材对词汇语义呈现有一定的倾向性，一些词性的语义呈现不足，甚至只呈现了一次。

四、结论

研究发现，在词汇广度上，高中词汇的输入量、词汇密度、平均词长与初中相比具有显著的差异。词汇的常见度稳中有降；在词汇深度上，在初高中教材覆盖的词汇当中，抽样词汇常用词形频率的排序基本相互吻合。词汇首要语义呈现的排序基本上能合理衔接，但初高中学段均有首要语义缺失的情况或初中学段首要语义缺失，但在高中学段以非生词、偏低频数的形式得到呈现。同一词汇各种词性第一首要语义的频数也基本排列第一，也有个别以轻微的差别排列于其他位置。初高中学段同一词汇在最典型范式和搭配中，频数的比例也比较接近，基本相互吻合。两个学段因过于集中呈现词汇的某一词形、语义或范式而致使该词汇其他同样重要的词形、语义或范式缺失或呈现频率过低。