美国STAR METRICS 项目的实施与评价<br/>——兼论对我国科技政策与科研评估的启示

美国STAR METRICS 项目的实施与评价
——兼论对我国科技政策与科研评估的启示

2020-12-22马千淳

科技管理研究 2020年21期

马千淳，王楠

（首都师范大学教育学院，北京 100037）

STAR METRICS 是“美国再投资中的科学与技术：测量研究工作在创新、竞争力与科学上的影响”（Science and Technology for America's Reinvestment:Measuring the Effects of Research on Innovation,Competitiveness and Science）项目的简称。该项目是近年来美国联邦政府实施的最具代表性的国家层面的科研评估框架之一。STAR METRICS 项目旨在建立一个基于计量指标及数据分析的评估模型，通过设计一系列评估指标，整合现有但分散的数据集，测量并评估美国联邦政府公共研发投入为社会带来的广泛非学术影响。

本研究聚焦STAR METRICS 项目的评估内容与评估流程，并对该项目目前的最新实施情况进行讨论，为我国科研评估政策与评估实践的改革提供了有益的启示。

1 STAR METRICS 评估项目的相关研究

目前关于STAR METRICS 项目的相关研究主要集中于项目意义、实施原则、项目第一阶段的运行过程、存在问题及改进策略等方面。

如美国学者Mark 等［1］提出，在美国面临因缺少足够的数据为政府政策决策提供支撑的困境下，实施STAR METRICS 项目并为政府提供更多决策信息的必要性。美国国家科学院（National Academy of Science）［2］基于该项目第一阶段运行过程中存在的问题，提出项目的第二阶段应重点关注数据收集与传输过程中的质量保障工作以及数据保密工作。欧洲兰德公司（RAND）于2013 年出版了针对全球14 个科研评价框架进行的评估报告，其中针对STAR METRICS 项目第一阶段的六个评估步骤以及五类数据指标开展了追踪和评估［3］。德国的独立非营利机构劳动力研究中心（The Institute for the Study of Labor，简称IZA）以STAR METRICS 项目的数据模型及初步结果为基础，就如何创新管理数据以描述和分析科技人力资源展开讨论［4］。我国学者李攀等［5］提出在构建我国科技评估框架的过程中，应借鉴STAR METRICS 项目的评估理念和方法，注重科研投资的非学术影响以及构建跨部门的数据共享平台，从而满足政府决策的信息需求以及公众对于履行知情权和监督权的要求。杨国梁等人［6］也基于该项目第一阶段的运行情况，提出我国今后应重点关注科研投资所产生的实际影响、关注科技政策及科技评价的学科发展，并构建跨部门的科研活动全过程的数据平台与数据分析工具。

总体而言，STAR METRICS 项目作为美国促进科技政策科学发展的重要评估项目，对其开展研究具有重要的理论和现实意义，因此国内外学界和政策领域对其关注度较高，但系统研究相对较少，且存在一些不足：第一，STAR METRICS 项目是一项基于数据模型而开发的定量评估项目，但目前大多数研究是针对该项目的设立缘起、运行原则、实施流程等方面进行的概览与介绍，并未深入细致地梳理项目具体的评估指标、数据分析方法等。第二，现有研究主要聚焦于STAR METRICS 项目第一阶段的实施，对第二阶段的系统研究较少。该项目在开发和试点运行之初获得了学界的密切关注，但伴随项目推进，学界的研究热度也随之渐弱。目前项目已稳步进入第二阶段，而相关研究亟待加强。

本研究通过在STAR METRICS 官网以及与该项目有关的美国政府部门网站上收集了大量的第一手数据和资料，对项目进行了长期追踪，并展开了系统研究。一方面，通过追踪该项目的前沿发展动向，对项目第一阶段和第二阶段的实施分别进行了梳理，呈现了该项目的最新动态；另一方面，对项目开展评估的核心——数据收集指标及评估指标进行了全面、多维的分析，力求从内容广度和研究深度方面丰富相关研究，以期通过本研究为我国科技政策与科研评估改革提供可资借鉴之处。

2 STAR METRICS 评估项目的缘起

伴随科学技术在社会发展中发挥着越来越重要的作用，如何保证国家的科研投资能够发挥最有效的作用，如何了解科学技术的进步与社会发展之间的联系，成为了各国科技政策研究者们所关心的问题。而美国的科技政策发展进程中也面临着同样的难题。作为美国科研经费的主要支持者，美国联邦政府每年会拨付巨额经费用于科学研究，但由于缺少完备的数据分析模型，缺乏精确的数据作为支撑，美国联邦政府一度难以获知其科技研发投入所产生的效益，对投资结果的错误判断也导致了严重的决策失灵，引发了公众的不满。这诸多矛盾背后，存在着一系列与科技政策决策密切相关的问题。

首先，政府缺少完备的数据分析模型作为决策支撑。美国联邦政府对于科研投资所产生的外部影响的绝大部分分析来源于美国经济分析局的一个比较过时的数据分析模型［7］，美国联邦政府在进行科研投资的政策决定时，由于缺少科学化的数据分析模型及精确的数据作为支撑，通常只能凭借经验甚至是猜测来制定政策，这极有可能使决策者做出错误的判断，使得一些科研投资无法发挥其应有的作用，甚至导致公共资源的浪费。因此，美国联邦政府需要更加与时俱进的数据分析模型以便为科研投资以及科技政策决策提供坚实的数据基础［7］。

其次，科研投资产生的收益难以得到准确测量。在大多数的政策领域，数据通常能够提供决策和结果之间的某种联系。但由于缺少数据分析模型，美国联邦政府无法精确地计算出某一笔投资所产出的具体收益，无法对投资的效益——即某项科研投资所产生的价值进行正确的分析，也因此难以得知本次投资的收益与相关的影响。

再次，公众的知情权难以得到充分保障。《2009美国复苏与再投资法案》要求联邦政府向美国纳税人提供他们的投资是有价值的切实证据［3］。但由于无法计算科研投资所产生的效益，政府无法向公众进行信息公开，社会公众也无法获知相关的信息以及其自身的受益程度，进而也导致了美国联邦政府的科研决策难以更好的被公众所理解和支持。

在这样的背景下，社会对科技政策决策科学化的呼声不断高涨，科技政策科学作为一门科学应运而生［8］。2005 年，美国政府倡议发展科技政策学，提出将科技政策研究作为一门新兴交叉学科发展，并要重点开展定量化、可视化、逻辑化的方法和工具的研究［6］。STAR METRICS 项目也因此诞生。

STAR MTERICS 项目主要由美国的科技政策办公室（Office of Science and Technology Policy，简称OSTP）、国家卫生研究院(National Institute of Health，简称NIH）以及国家科学基金会（National Science Foundation，简称NSF）合作负责。同时，美国的国家能源部（Department of Energy，简称DOE）,农业部（US Department of Agriculture，简称USDA) 与环境保护局（Environmental Protection Agency，简称EPA)也为该项目提供了必要的支持［3］。

该项目旨在开发一种全新的数据分析模型，来评估美国联邦政府的科研投资对社会各方面所产生的影响，并以此来完善美国联邦政府在科技研发方面的政策制定，明确其在科研投资上的责任与作用，保证并增强公众对于科研投资的知情权。2009 年，该项目开始试点，提出了两个阶段性目标。第一个阶段性目标是开发一个统一的、可更新的、标准化的数据分析模型，利用全美的研究机构拥有的数据记录，测量科研投资对就业岗位的影响［7］。第二个阶段性目标是利用该模型测量联邦政府科研投资在科学知识（scientific knowledge）、社会产出（social outcomes）、劳动力产出（workforce outcomes）以及经济增长（economic growth）［3］四方面对社会所产生的更为广泛的影响。

3 STAR METRICS 项目的实施

STAR METRCS 项目分两个阶段实施，其总体目标是开发一套基于计量学的，同时包含研发投入与产出指标的评估模型，测量公共研发经费的投入产出比，进而观测并评估科研投资为社会带来的积极影响。

3.1 第一阶段：聚焦对就业岗位的影响

STAR METRICS 项目第一阶段的重点是测量美国联邦政府的科研投资对就业岗位产生的影响。该阶段旨在开发一个数据分型模型，构建包括科研经费投入及其流向的指标体系，收集相应数据，计算科研投资与产出比（特指劳动力产出方面），进而评估科研经费对就业岗位的影响。目前，该阶段的目标基本完成，数据收集工作也于2016 年1 月1 日停止。

3.1.1 实施步骤

STAR METRICS 团队在官网上公布了该项目第一阶段的六大具体步骤［9］。

第一步：初步沟通。STAR METRICS 项目团队会首先以网络研讨会或是视频会议的形式，为参与该项目的科研机构安排介绍会议。在会议上团队会对STAR METRICS 项目的内容、规划以及实施步骤等进行简要的介绍，与科研机构进行初步的沟通。有意参与的科研机构会安排IT 人员、合同财务人员和人力资源代表以及部门领导参加会议。

第二步：签署协议。在双方初次会晤之后，科研机构需要与国家卫生研究院之间签署一份“谅解备忘录协议”。在签署谅解备忘录并将其送交国立卫生研究院之前，科研机构与STAR METRICS 团队之间尚不得进行数据的传输。

第三步：科研机构发送样本数据。协议生效之后，科研机构即开始为STAR METRICS 团队提供他们所接受的联邦政府经费的相关信息、间接成本信息、科研机构中的人员信息、供应商信息以及子经费的相关信息。

第四步：STAR METRICS 团队提供反馈报告。在接收到科研机构的原始样本数据后，STAR METRICS 团队会对这些数据进行初步的分析，并且就其对就业岗位所产生的影响以及就业岗位发生的变化撰写相关的报告。

第五步：研究机构发送近期和历史数据。在STAR METRICS 项目团队确认科研机构所提交的数据符合要求之后，就会要求科研机构继续发送近期数据与历史数据，即开始双方的正式合作。

第六步：STAR METIRCS 团队撰写季度报告。在接收到科研机构的正式数据后，STAR METRICS项目团队会继续对数据进行分析，根据这些数据的分析结果撰写相关的季度报告，并将其结果送交回科研机构供其参考。

3.1.2 评估指标

STAR METRICS 项目第一阶段设计的指标体系包括投入指标（科研经费信息、子经费信息、间接成本信息）和产出指标（具体人员信息、供应商信息）两个一级指标及若干二级指标，STAR METRICS项目团队通过收集这些指标下的数据，将科研经费的投入与产出相关联，并通过数据模型来计算和评估科研投资对于科研岗位和社会岗位的就业所产生的影响，见表1。

表1（续）

具体而言，美国联邦政府的每一笔科研经费都拥有唯一的经费编号，因此可以通过追踪某一经费编号获悉该笔经费的相关信息。当一笔科研经费由美国联邦政府拨付给科研机构后，该笔经费将会以分解成若干笔子经费的形式拨付给更微观的组织或个人，或将会以购买服务的形式支付给供应商，进而完成经费的使用。STAR METRICS 项目团队以上述经费的投入和产出流向作为抓手，分别针对科研人员以及社会人员两个不同的就业群体开展评估。

首先，STAR METRICS 团队评估了科研投资对科研就业岗位的支持和影响。团队将科研机构中相关科研岗位进行了明确的分类，分为（1）技术人员/工作人员专家（2）教师（3）研究分析师（4）研究生（在读）（5）本科生（6）研究生（7）临床医生（8）研究支持者八个类型［10］。通过分析经费的走向以及科研机构中接受资金的具体人员信息，便可以获知和评估政府的科研投资对科研人员就业岗位产生的影响。

其次，STAR METRICS 团队评估了科研投资对社会就业岗位的支持和影响［3］。美国联邦政府将科研资金拨付给科研机构有利于间接增强科研机构的服务购买力。在科研机构购买社会服务的同时，供应商方面的社会就业岗位也将在一定程度上有所增加。基于此，STAR METRICS 团队通过分析科研投资的信息以及供应商方面的信息，便可以获知和评估政府的科研投资对社会人员就业岗位带来的积极的影响。

3.2 第二阶段：聚焦更广泛的影响

STAR METRICS 项目在第二阶段的重点是测量美国联邦政府科研投资对科学知识（scientific knowledge）、社会产出（social outcomes）、劳动力产出（workforce outcomes）以及经济增长（economic growth）［3］四方面产生的影响。与第一阶段相同，STAR METRICS团队在第二阶段通过制定评估指标，收集数据并建立分析模型，将投入与产出相关联，测量科研投资在上述四方面的影响。

3.2.1 实施步骤

STAR METRICS 项目第二阶段主要包括三大步骤：设计指标体系、提交数据以及进行数据的分析与公开。

第一步：设计指标体系。STAR METRICS 项目团队分别面向大学、科研机构以及项目负责人三方主体，有针对性地设计了能够测度与衡量美国联邦政府的科研资金对科学知识、社会产出、劳动力产出与经济增长四个方面产生积极影响的产出指标体系（见表2）［11］。

第二步：填报数据信息。STAR METRICS 团队要求大学、科研机构以及项目负责人尽可能多地根据已经确立的指标体系，填报指标下的具体数据信息，并进行提交。这些数据是STAR METRICS 团队推进项目研究的重要基础。同时，团队还希望大学、科研机构以及项目负责人能够对数据收集的方式提出具有参考价值的建议，进而完善数据采集过程［11］。

第三步：分析数据并公开发布。STAR METRICS团队将对收集的相关数据进行整合，同时通过网页技术手段以及行政手段收集美国联邦政府科研投资信息，并将投入指标与产出指标进行关联，进而评估联邦科研投资在上述四方面发挥的积极作用。最后，STAR METRICS 团队会将评估报告公开发布在data.gov 数据库（美国政府公开数据库）上［11］，以增加公众的参与度，保障公民的知情权。

3.2.2 评估指标

在该项目的第二阶段，STAR METRICS 团队继续搭建测量投入与产出的指标框架，其中，投入指标依旧是美国联邦政府所提供的科研资金的相关信息，而产出指标将面向大学（National Science Foundation，2014）、科研机构（Nation-al Science Foundation，2014）以及项目负责人（National Science Foundation，2014）分别设计关于科学知识、社会产出、劳动力产出与经济增长四个方面的指标体系，相比第一阶段而言，第二阶段的指标体系更加复杂，而针对不同的主体所关注的核心指标也各有侧重，见表2。

表2 STAR METRICS 项目第二阶段指标体系

通过上述的指标体系，可以看出，STAR METRICS项目在第二阶段，针对不同的主体——大学、科研机构以及项目负责人，分别设定了不同的指标体系，同时所关注的核心数据也存在较大的差异。

在科学知识方面，面向大学的指标主要关注教师在科学知识生产与创新方面获得的成果，如教师的出版物、文献被引情况等［12］。面向科研机构的指标一方面关注科研人员的知识的生产与创新情况，另一方面更加关注所生产的知识在社会中被吸纳、使用与传播的程度。如某一科学研究成果的下载率或在教育、司法等多领域被应用的情况等［11］。面向项目负责人的指标则更多关注科学知识通过网络、讲座等方式，在社会上被公众所认知与了解的程度［13］。在社会产出方面，面向三方主体的指标体系所关注的内容大致相同，均为健康、公平、安全、治安、基础设施以及环境六大指标。在劳动力产出方面，面向大学与科研机构的指标主要聚焦于接受STEM 教育的本科生与研究生学生数量的变动以及其就业和职业生涯轨迹的发展变动信息。而面向项目负责人则关注本科生与研究生参与某一项目的工作时间以及该项目合作者的相关信息［13］。在经济增长方面，面向大学与科研机构的指标均主要聚焦于就业岗位变动情况。而科研机构还需关注诸如专利创新、公司创业及上市等影响经济发展的指标［11］。

STAR METRICS 团队将对收集的上述相关数据进行整合，计算和评估美国联邦政府对不同机构所进行的科研投资在科学知识、社会产出、劳动力产出以及经济增长四方面的影响，并以此为未来的政府科技政策的制定与评价提供数据支撑。

4 关于STAR METRICS 项目的讨论

4.1 STAR METRICS 项目优势

STAR METRICS 作为一个评估美国联邦政府科研投资与科技政策效益与成果的项目，发挥着其特有的优势。

4.1.1 创建了大规模的数据源

STAR METRICS 项目是世界上第一个能够在全美范围内通过微观的指标对学术科研组织和基金进行横向收集的数据库。宏观上，该项目可以覆盖全美各州，进行不同州之间的横向的数据比较；微观上，该项目可以针对某一个学术机构中的个体的相关信息进行数据的收集和分析。目前，世界上能够与其相提并论的庞大数据源并不多见［2］。

4.1.2 可实时监测经费的流向

STAR METRICS 数据库可以对科研资金的分配与使用进行全方位的监测。该项目通过收集某一笔资金在学术机构中如何进行分配和使用的相关数据信息，可以了解该笔资金的使用情况，并进行相关的研究和分析。如通过收集公立大学和私立大学支付给教师工资的数据，可观测和比较不同类型的大学支付给教师的工资占总经费的比例的差异［2］。据此，可以研究不同类型的大学、或是某一类型的大学所接受资金的分配与使用方式的差异，或对其科研成果的生产情况所产生的影响的差异等。这些相关的研究对于政府进行下一步的科研投资决策发挥着重大的作用。

4.1.3 绘制可视化学术网络地图

STAR METRICS 项目所收集的部分数据带有地理位置的相关信息，通过这些信息，STAR METRICS项目人员可绘制出可视化的学术网络地图。如通过收集上述数据中的DUNS 编码，可以实现地理位置的追踪，并依据相关信息绘制出可视化的学术网络地图。通过可视化的学术网络地图，公众可以清晰地了解到在不同地区的学者所集中研究的学术领域，或者通过学术网络地图追踪经费的去向，从而获知美国联邦政府拨付经费的集中地等情况。

4.1.4 具备可拓展的数据潜力

单一的STAR METRICS 项目数据库能够发挥的作用仍然是有限的，但是在未来，如果STAR METRICS 项目的数据库能够与其他机构的数据库相关联，将会拓展其数据收集与分析研究的领域，从而有可能在更广泛的领域发挥更大的作用［2］。例如，对大学或联邦机构的投资组合以及跨学科研究组织的特定研究领域的生产力进行更细致的分析；再如，联邦政府投资之后，对相关的经济市场所起到的作用进行评估（如联邦政府将一笔经费拨付给一所大学后，该所大学可利用这笔经费购买商品，促进经济市场的变动）；再如，针对不同学科所吸引的经费的差异，从而进行不同学科领域间的比较研究；又如，可以对教育、研究、大学的职能开展相关的研究［2］。

4.2 STAR METRICS 项目面临的挑战

虽然STAR METRICS 项目为政策评估者们提供了很多支持，但是随着该项目的运行，STAR METRICS 在数据收集与评估范围、数据管理水平以及数据保密与共享问题等几个方面都面临着质疑与挑战。

4.2.1 数据范围仍需扩大

目前，从学科领域方面来看，STAR METRICS项目的评估领域主要集中于自然科学，缺乏对人文社会科学的相关研究［1］。从其关注的地理位置信息来看，STAR METRICS 项目的数据收集范围仅局限于美国国内。在未来，STAR METRICS 项目需拓展其数据收集和评估领域，比如，若能打破国家的界限，并将其数据收集领域扩展到全球范围和多个学科领域，相信将会更加有利于在各学科领域内的国际科技政策制定及评估的发展。

4.2.2 数据管理水平尚待加强

通过观测STAR METRICS 项目运行至今的数据收集和分析情况，可以看出该项目还需继续提升数据的管理水平。首先，STAR METRICS 项目的数据收集属于静态数据收集，无法进行动态追踪，导致无法实现对其后续情况的持续调查。其次，学术机构所提供的数据无法细化到学科、部门。目前STAR METRICS 项目的的运行仍停留在较为宏观的层面，而无法深入到某一学科或机构部门内部进行精确的评估［2］。另外，该项目在数据传输、合并的过程中曾出现过错误。在以往进行研究时曾发现，STAR METRICS 项目曾有过源数据出现错误、季度数据过渡到年度数据时出现错误等情况，因此，STAR METRICS 项目仍需完善数据的管理，提升数据质量。

4.2.3 数据保密与共享问题仍需商榷

STAR METRICS 项目是基于合作与共享的原则创立的，因此在研究过程中，评估人员有机会得到STAR METRICS 项目所收集的精确数据，以此作为研究的数据支撑。然而，在该项目运行过程中，一方面强调数据的共享原则，但另一方面也涉及到数据的保密问题。STAR METRICS 项目组致力于在不违反数据隐私原则或遵循数据提交机构的保密要求的前提下，尽可能多地开发数据访问协议，但相关政策在短期内还不能够出台［2］。因此，数据的共享与保密问题仍存在冲突。

5 STAR MTERICS 项目的启示

近十年来，美国的科技政策学发展迅速，得到了其他国家的广泛关注，已经成为新的科技政策研究的风向标［14］。而美国联邦政府所实施的STAR METRICS 项目，表明未来美国的科技政策将会朝着更加系统化、科学化、标准化的方向发展，这也为我国的科技政策的发展带来了一些启示。

5.1 关注并开展科研成果的非学术影响评估

开展科研成果的非学术影响评估，一方面顺应了科研活动在知识生产模式现代转型时需要拥有跨学科领域、多研究主体、多服务对象、多形态特征等特点的趋势［15］，另一方面，也可以有效评估研究产出为外部社会所带来的积极改变与影响。而STAR METRICS 项目正是通过评估科研活动成果的广泛的非学术影响，为美国联邦政府科技政策的制定与评价提供了充足的证据基础。因此，关注并开展科研成果的非学术影响评估，已成为世界各国促进科技政策与科研活动发展的一个重要议题。

5.2 构筑并完善机构数据共享网络

STAR METRICS 项目的一个最大的亮点在于它的数据共享性。目前，该项目已建立以自身数据库为核心，联结科研机构、大学等学术组织的数据共享网络，通过收集并整合科研机构与大学等组织所上传的数据，从而为科技政策决策与评估提供了充足的数据基础。因此，在对科技政策决策制定与评估方面进行完善时，应重视机构之间的数据共享网络在科研评价等工作中的重要性，在保证数据安全的前提下，建立以数据为基础的广泛的机构交流网络，发挥其服务科技政策决定的重要作用。

5.3 提升科技政策决策科学化水平

STAR METRICS 项目在数据分析与结果呈现的过程中，采用了严谨的计量统计、数据挖掘、可视化地图绘制等方法，为科技政策决策提供了坚实可靠的、标准化、直观化的数据支撑，为其他国家的科技政策的决策发展与改革提供了一个优秀的范本。因此，在制定政策和评估结果时必须要采用更加科学严谨的决策程序与评估方法，将政策建立在事实和证据的基础上［16］，从而保障政策制定的科学性以及政策评估的准确性。