研究生招考中综合审核何以实现<br/>——来自美国的经验

研究生招考中综合审核何以实现
——来自美国的经验

2019-07-30杨佳乐王传毅

研究生教育研究 2019年4期

杨佳乐，王传毅

(清华大学教育研究院，北京 100084)

研究生教育质量是一个多维立体的概念，一般可分为入口阶段的生源质量、过程阶段的培养质量和出口阶段的发展质量。在“以学为中心”的理念驱动下，美国围绕研究生在学经历展开了多项调查，如加州大学伯克利分校高等教育研究中心SERU(Student Experience in the Research University)团队开展的研究生学习经历调查、[1]麻省理工学院开展的博士生离校调查[2]等。研究生职业发展也是美国重点关注的质量监测点，典型调查包括华盛顿大学研究生创新研究中心(Center for Innovation & Research in Graduate Education , CIRGE)开展的哲学博士毕业十年后调查、艺术史博士毕业十年后调查和社会科学博士毕业五年后调查。[3]这些调查为提升研究生培养质量和发展质量提供了必要的数据支撑，但对入口阶段的生源质量却关注较少，致使招生环节对后续培养、职业发展环节的影响仍处于“黑箱”之中，难以形成研究生教育质量保障闭环。故优化招生改革，提高生源质量成为美国研究生教育改革中的重要一环，而“综合审核”(Holistic Review)是主导改革的重要理念。

与此同时，中国也开始强调改革研究生招生制度。《学位与研究生教育发展“十三五”规划》中提出要“加强能力考查，注重综合评价，建立健全更加科学有效、公平公正的考核选拔体系”。《关于高等学校加快“双一流”建设的指导意见》也提到要“完善以提高招生选拔质量为核心、科学公正的研究生招生选拔机制”。在此背景下，诸多中国高校开始试点博士生申请考核制，不以入学考试成绩“论英雄”，更加看重申请者的综合素质。但目前申请考核制仍处于高校自主探索阶段，如何科学有效地考察申请者的综合素质成为我国研究生招生制度改革亟待解决的重要问题。基于此，本研究通过梳理美国研究生招生的综合审核经验，期冀为中国的相关改革提供参考借鉴。

一、什么是综合审核

在美国，综合审核这一术语最早应用于本科生招生实践，之后逐步扩散至研究生教育领域，但尚未形成统一意见，不同机构和个人都尝试定义研究生招生过程中的综合审核。例如，研究生院理事会(Council of Graduate Schools, CGS)在20世纪90年代就提醒各招生单位不宜仅凭录取分数线就决定录取与否，[4]这可以视为综合审核的萌芽，但当时并未给出明确定义或是界定与此相关的实践，直到2016年才以报告的形式将其倡导的综合审核表述为：学位点在审核研究生申请材料时应考虑广义特征集，传统的认知能力、非认知能力以及其他个人特质均需有所涉及。[5]美国医学院协会(Association of American Medical Colleges, AAMC)对综合审核的定义是使用灵活、个性化的方式综合评估申请者的经历、特质和学术水平，以及今后可能的贡献，并构建起实施综合审核的经历—特质—成绩(Experiences-Attributes-Metrics)模型。[6]美国教育考试服务中心发布的《GRE使用指南》将综合审核理解为在招生过程中使用包括研究生入学考试成绩在内的多元信息衡量申请人个人潜力。[7]格里芬(Griffin)等认为综合审核意味着在研究生招生中要跳出过往注重申请人GRE成绩和本科院校背景的窠臼。[8]

综上所述，本研究认为综合审核是指全面考察申请者的个人经历、学术能力、非认知能力和科研潜力。换言之，录取与否不仅取决于当下的考试成绩，而且取决于过去的学习经历和未来的个人潜力。那么，需要进一步回答的问题是，为什么要实施综合审核？以及如何有效衡量个人经历、非认知能力和科研潜力等，以落实综合审核？

二、为什么要实施综合审核

(一)以学为标方式单一、效果有限

传统的研究生招生考核方式过于倚重科研成果和考试成绩。CGS2015年研究生就读周期调查结果表明，学术成果证明材料和GRE、GMAT、LSAT等标准化考试成绩在硕士、博士申请材料初筛阶段均占有60%左右的比重(见表1)，但已有研究证实研究生入学前的科研经历、标准化考试成绩、学分绩点等与其日后的科研生产力的关联并不显著，反而是专家推荐信能够有效预测学生的科研产出。[9]Liane等的研究发现，GRE成绩既无法有效预测博士生是否能顺利通过资格考试或获得学位，也无法有效预测其科研生产力。[10]美国教育考试中心(Educational Testing Service, ETS)主导的“地平线”项目[11]以及Kuncel等开展的元分析[12]均表明，要提高GRE考试对研究生学业成就的预测效度还必须加入对非认知能力的考量。相比传统招考方式，综合审核通过加大对申请者非认知能力的考察能够很大程度上克服以学习成绩为核心筛选标准导致的无效预测和选择偏差，因而受到推崇。

表1 各申请材料在研究生招生初筛阶段的重要性

资料来源：2015 CGS Graduate Student Life Cycle Survey.

(二)唯分而论扼杀多样性，抑制创新力

学生群体的多样性是创新力的重要来源，生源多样已成为研究生招生环节的普遍诉求。而女性、少数族裔、[13]以及大龄学生[14]等在标准化考试中往往处于劣势地位，如ETS公布的数据显示，白人的GRE考试成绩通常比黑人高18%～32%，[15]即唯分数论英雄的传统招考方式容易造成对上述弱势群体的“隐性歧视”，从而损害生源多样性，给创新力的激发带来负面影响。除GRE等标准化考试成绩外，美国研究生招生还要求取得一定水平的语言成绩，如TOEFL等。对母语为非英语的研究生而言，差强人意的语言成绩则会致使招生委员会成员错误地将其排除在录取名单之外，而不论其是否具备其他天赋，[16]这也从一个侧面扼杀了生源多样性。

(三)综合审核可提高培养效率、降低教育成本

过高的流失率和过长的就读年限一直是美国研究生教育，特别是博士生教育的痛点。为此，仅CGS就曾发布四本专题报告集中探讨博士学位流失率问题，[17-20]这些研究发现：博士生与培养单位的匹配度、博士生的非认知能力特征以及双方信息的对称性等是影响培养效率的重要因素。综合审核的实施恰好能够更好地将此类因素纳入到考察的范围中，从而筛选出更加胜任博士学习的候选人，在培养之初的招生环节就为培养效率的提高和教育成本的降低奠定良好的基础。

三、如何实施综合审核

平权运动的兴起使得在研究生招生中推进综合审核这一倡议得到了国家法律层面的支持。1978年巴克(Bakke)起诉加利福尼亚大学戴维斯医学院案、2003年格鲁特尔(Grutter)起诉密歇根大学法学院案和2013年费舍(Fisher)起诉德克萨斯大学奥斯汀分校案不断警示院校要保留充分详实的材料记录招生过程，采用综合审核的方式体现种族中立原则。第三方组织也通过发布报告、开展培训等方式推促院校开展综合审核。AAMC相继发布《通往多样性的路线图：医学院招生过程中融入综合审核原则》、《通往卓越的路线图：衡量医学院综合审核招生的关键概念》和《通往多样性和教育卓越的路线图：影响医学院的若干法律和教育政策》三份研究报告。CGS形成《研究生招生过程中的综合审核》和《硕士招生：透明性、指导和培训》两份专题研究报告。国家科学基金会(NSF)资助设立包容性研究生教育网络(Inclusive Graduate Education Network)项目，所举办的工作坊主题之一即为“招生中的综合审核”。在此背景下，院校逐步开始实施综合审核，并在制定综合审核的观测维度、建立综合审核的计分标准、创新对非认知能力的评价以及加强对申请者与院系培养项目匹配度考察等方面取得了有益的经验。

(一)制定科学系统的观测维度

综合考核能否有效实施，首先取决于招生单位是否建立了一套科学系统的观测维度，并将维度细化为可操作的指标体系。如密歇根大学拉克哈姆研究生院(Rackham Graduate School)所实施的综合审核涵盖申请者的学术表现、科研潜力和个人特质三个一级维度，以及相应的若干二级维度(见表2)。华盛顿大学生物工程系的综合审核涵盖学术评价和个人特质两个一级维度，其中学术评价包括：①GPA成绩的变化趋势及课程难度；②GRE成绩；③论文质量；④科研项目参与情况。个人特质包括：①所克服的教育、经济及个人困难(教育困难如属于第一代大学生；经济困难如在校期间的工作经历；个人困难如遭遇家庭变故、存在生理/心理疾病等)；②提升多样性的能力；③对社区、培养单位或家庭的重要贡献；④推荐信。[18]

表2 密歇根大学拉克哈姆研究生院综合审核的指标体系

资料来源：https://rackham.umich.edu/faculty-and-staff/resources-for-directors/holistic-review-of-applications/.

(二)建立明晰准确的计分标准

在不同的观测维度上，招生单位能否建立明晰准确的计分标准对申请人的能力素质进行评判是保证综合审核结果科学性和可比性的核心步骤。韦恩州立大学(Wayne State University)提供了如何使用综合审核评价申请者的评估标准模板，主要包括写作沟通能力、学术准备、科研基本能力、学术恒心与学术热情、贡献创新观点的能力五个方面，权重各占20%(见表3)[19]。

西德克萨斯农工大学(West Texas A&M University)的综合审核评估标准分为GPA、推荐信、写作能力和面试表达四大部分，GPA成绩与评估得分存在转换标准，如GPA3.8～4.00对应4分，3.6～3.79对应3分。写作能力的评价为写作内容、写作风格、写作结构和语法规范四维度的得分加总，每个维度最高得分2分(见表4)。面试表达重点考察申请人所展现出的对学习的强烈热情、领导力、有条理地交流沟通能力、对多样性的贡献力、恰当的肢体语言表现力、克服学习困难的能力以及简明扼要陈述观点的能力，最高得分10分。

表3 韦恩州立大学综合审核标准制定模板

资料来源：https://gradschool.wayne.edu/faculty/portfolio-review.

表4 西德克萨斯农工大学写作能力评估标准

资料来源：West Texas A&M University GRADUATE ADMISSION RUBRIC.

(三)创新非认知能力的评价方法

在综合审核中，非认知能力的评价不仅是非常重要的部分，更是亟待加强的部分。鉴于非认知能力方面数据的结构化程度较低，其评价方法较之于认知能力的评价还不够成熟。但在理论层面，已基本建立非认知能力测量的理论模型。根据Sedlacek的研究成果，调查问卷、面试、档案袋等技术都可用于评价非认知能力。[20]马里兰大学(The University of Maryland)使用Sedlacek等开发的调查问卷评价申请人的以下特征：(1)自信；(2)现实的自我评估；(3)处理种族主义；(4)着眼长远目标；(5)强有力的个人支持网络；(6)成功的领导力经历；(7)社区服务；(8)取得某一领域的专业知识。[21]路易斯安那州立大学医学院(Louisiana State University Medical School)则更加偏好于通过结构化的面试对非认知能力进行考察，在十年的探索实施中，成功地促进了学生群体的多样性，非白人学生的入学比例增长一倍，保留率也提升至87%。北卡罗莱纳州立大学设计学院(The School of Design at North Carolina State University)要求申请者提供装有其设计作品相关材料的档案袋，借此评价申请者克服困难、自我评价、目标设定等非认知能力。除上述方式外，招考环节也在尝试采用标准化推荐信、传记式数据、[22]情境判断测验、[23]内隐联想测验[24]和条件式推理[25]等评价申请者的非认知能力。

(四)加强对匹配度的考察

申请人与培养项目的匹配有助于学生顺利完成专业社会化，推进本学科领域的知识边界；也有助于院系培育和谐的组织文化，保持组织系统顺畅运行。因为选拔研究生某种意义上和聘任教师的本质类似，都属于学术共同体评价筛选未来同行的过程，[26]需要特别关注研究生与培养项目的双向匹配。CGS2018年面向各成员单位硕士项目主管的调查结果显示(如图1)，可以从以下六个方面衡量匹配度，分别为：①和申请人匹配的科研导师的可得性；②和申请人匹配的实践导师的可得性；③申请人适应项目文化的潜力；④申请人遵守专业规范和伦理的潜力；⑤申请人和多元群体合作的潜力；⑥申请人提升项目多元性的潜力。其中，学术型硕士项目最看重申请人与科研导师的匹配，专业型硕士项目则更侧重申请人符合本专业规范和伦理。[27]

图1 不同硕士项目对匹配性的关注点(认为“非常重要”)

匹配度的考察要求院校首先要反思自身的培养目标及培养条件，在此前提下明确审核的标准，包括招生简章中列明重点考察的认知及非认知特质、制定相对结构化的面试审核标准等，同时也要求培养单位加强院校数据的积累与分析。如加州大学2019年新上线的博士项目数据库详细呈现了申请、录取、资助、学位完成和校友就业等情况，[28]为该校改进招生方式，更准确地判断申请者与培养项目的匹配度提供了数据支持。

四、对加强我国研究生招考中综合考核的思考

(一)国家层面：宏观引导，加强监督

我国研究生招考制度结构分为国家和院校两个层次，规模与结构、选拔方式与考察内容、录取标准与工作程序三个方面，[29]综合审核属于其中的环节之一，可以此为着力点实现招生制度的系统变革。美国的经验表明，研究生招考具有鲜明的“底部厚重”特征，国家和第三方机构构成招考质量的保障者和招生考改革的推动者，但院校始终是招考主体，能够根据生源情况和自身办学实际自下而上推进综合审核。为此国家主要是为综合考核的实施提供的制度空间，即在保有考试优势的同时，通过制度创新弱化考试在招考录取中的决定性作用，为综合考核的实施提供条件。从操作层面而言，我国研究生招考制度改革可探索“一考多次，申请考核；一考多类，替代选择”的方法，降低学生考试负担，鼓励灵活申请。

“一考多次，申请考核”指引入标准化测试，一年两次，考试成绩2～3年有效，有效期内该成绩可多次使用，招考流程大致为国家完成制度供给，拟定标准化考试大纲与监督保障条例，第三方专业机构负责组织实施标准化测试，申请者向院校递交考试成绩单及其他申请材料，院校经过综合审核或进行必要考核后自主决定录取与否。美国的标准化测试共分为三类，即研究生入学考试(GRE)，专业测试如商学院看重的“经企管理研究生入学考试”(GMAT)、法学院看重的“法学院入学考试”(LSAT)、医学院看重的“医学院入学考试”(MCAT)、心理学专业看重的“米勒类推测验”(MAT)，以及语言能力测试(如TOEFL)，均由第三方专业机构命题实施。我国可参考此体系，加快构建符合中国国情的、“通用+专业+语言”三位一体的研究生标准化测试系统。其中通用型标准化测试主要考察逻辑推理、批判分析等非认知能力；专业型标准化测试根据不同专业特色设计，主要考察各专业基础知识和认知能力，专业学位研究生招考可加大此项考试成绩所占比重；语言测试分中文及外语两大类，分别面向国际生源和本土生源。

“一考多类，替代选择”指强化研究生招生考试与职业资格认证的衔接，即职业资格考试成绩在某些专业可替代标准化测试成绩用于研究生入学申请，如法律、会计等。衔接方式包括完全衔接和部分衔接两种，完全衔接是指通过职业资格考试的考生不必再参加额外的标准化测试，职业资格考试成绩能够完全等同于专业型标准化测试成绩；部分衔接是指职业资格考试成绩可按照规定比例折算为标准化测试成绩，但考生仍需参加专业型标准化测试，为招生工作组综合审核申请人特质提供多样参考。

(二)院校层面：自主探索，改进完善

招考分离后，院校的工作重心在于自主探索高效科学的研究生招生方式，形成适用于中国本土的综合审核标准与程序。借鉴美国高校的经验，中国高校需重点改进完善以下三个方面。其一，试点面向不同院校类型、不同学科门类的研究生招生综合审核的观测维度与计分标准。综合审核要求至少但不限于考察申请人过去的学习经历、当下的考试成绩和未来的发展潜力，并且规定各个观测维度的分数转换标准，其中的难点在于面试环节，个人陈述、专家推荐信等申请材料的结构化测量评价。美国高校多重视申请人的考试成绩与写作沟通能力，目前已建立相对完善的计分标准体系，但面试环节仍高度依赖面试组专家的主观判断，结构化程度有待提升。计分标准的结构化取决于问题设置的结构化，因此我国高校可以面试问题设置为突破口，对于知识性问题依据答案是否正确给出评价分数，对于开放性问题依据专业共识评分。同时不容忽视的是，不同院校和不同学科的生源需求及培养特色存在巨大差异，因此探索分层分类的多元观测维度与计分标准至关重要。

其二，加快开发衡量申请人非认知能力的评价工具。中国对于研究生非认知能力的考察以面试为主，手段较为单一且信效度不佳。因此国内招生单位首先要开展非认知能力的相关研究，通过对国内著名导师、优秀研究生的访谈、调查，进一步确定影响中国研究生学业成就的非认知能力；其次，实行量表测验，纳入情景式、案例式的题目，增强非认知测量的科学性；此外，试点采用标准化推荐信，并依据推荐人的评分宽严程度、对研究生学业成就预测效度实行评分校正等。[30]

最后，为院系招生工作组成员提供综合审核的培训服务与参考资料，保证申请人与培养项目的双向匹配。实施综合审核在赋予院系更大招生自主权的同时也对其人才选拔水平提出更高要求，校级研究生招生部门作为招考流程中承上启下的协调组织，可定期组织综合审核相关工作坊，一方面帮助院系招生工作的具体实施人员提高对申请材料的甄别筛选能力，结合不同培养项目的培养目标、师资队伍、文化氛围、专业规范和学生群体特征，在入口阶段选拔最适切的生源进入培养序列。另一方面，结合培养过程及毕业生发展追踪数据构建质量反馈机制，持续改进申请人与培养项目的匹配度。