科技政策效果评价及其发展趋势*

2021-04-19李广建

图书与情报 2021年6期

陈瑜李广建

（1.北京大学信息管理系北京 100871）

科技政策是政府支持科学、技术和创新产生和传播的公共措施。近年来，世界主要发达经济体的科技创新政策都处于加速转型和体系重构中，以科技政策为重要手段的创新环境竞争日趋激烈。各国普遍通过选择优先区域，制定发展规划与路线图，出台配套措施来保障科技战略的有效实施。在此背景下，对科技政策效果的评价就变得非常重要和迫切，同时也更具挑战。当前，各国对于科技创新政策的效果评价都处于摸索状态，还没有形成统一的理论和方法，以及公认的评价体系，各国都在投入力量加强研究和实践探索。我国从2012 年左右开始就持续增加用于科技政策评价的资金预算，科技政策效果评价迎来了新的重要发展契机。

科技政策效果评价是科技评价的重要组成部分，是政策效果评价的延伸。政策效果也称政策影响，指的是由政策作用因素所引起的政策对象及社会环境的状态改变，政策效果评价（评估）也称影响评价。在政策评价中，效果是一个广义的概念，在有些研究中也称“绩效”“效益”“效率”“产出”“成效”等。不同学者使用不一样的词汇，通常是出于语言习惯和上下文的需要，但实质上都属于政策效果评价的范畴。因此，本文不对上述词汇进行细化区分，统一称作“效果”。

科技政策效果评价是情报学的重要研究内容。一方面，情报学长期关注科技发展监测、关注创新知识增长与流动规律，相关理论与方法已经在政策效果评价中得到了应用，特别是文献计量指标已成为评价实践中公认的有效指标，情报学中相关的理论和方法已经成为政策评价研究的重要组成部分；另一方面，科技政策评价目前遇到了诸如文本信息量大、评价信息来源复杂多样、难以从海量数据中挖掘政策效果产生机制与规律等难题，因此需要借鉴和使用情报学的理论和方法。本文旨在总结科技政策效果评价的主要流派和主流方法，分析科技政策效果评价的发展趋势，以期为情报学领域的相关研究提供参考借鉴。

1 科技政策效果评价的主要流派

回顾既往研究与实践，根据评价过程在理念和方法路径上的差异，本文将政策效果评价划分为三个主要流派，分别是以计算效益为重点的评价流派、以结果为重点的评价流派和以内容为重点的评价流派。需要说明的是，这些流派并不是泾渭分明的，因此，在分析某项评价工作属于哪一个流派时，主要依据是其主流理念和方法以及研究人员或评价人员自身对评价过程解释的倾向。

1.1 以计算效益为重点的科技政策效果评价

以计算效益为重点的科技政策效果评价在20世纪70 年代中期到90 年代初期最为盛行。效益流派认为，提高全人类的社会福利和生活质量是科技政策的主要目标，提升社会福祉的具体化方式是通过社会经济影响实现的，也就是说，政策效益或效率是政策效果的一种表达方法。效益流派的主要理念及核心特征包括：（1）侧重于定量衡量科技政策的社会经济影响，影响可以分为宏观和微观两个分析层次，前者关注科技研发支出所带来的宏观经济效应，后者关注对企业绩效的影响；（2）效益派的评价与经济学原理和计量方法关联紧密，强调计算政策的投入产出比，要求评价方法是可量化和可计算的；（3）评价指标以货币量化为主要形式，以便计算投资回报率和经济贡献。效益派评价的局限性主要在于关注投入和主要经济结果之间的总体关系，隐含地假定了所有经济行为都有统一的影响机制，对理解创新过程的帮助甚少。

效益派的代表人物之一是美国公共政策学家托马斯·戴伊，他从技术理性的角度提出了系统评估政策效果的方法。戴伊认为政策影响就是它对现实世界产生的所有效果，政策效果等于所有收益之和减去所有成本之和。其中，成本的构成包括“所有当前和未来的政策目标群体、非目标群体成本”收益的构成包括“所有当前和未来的政策目标群体、非目标群体收益”。确定成本效益构成时除了要考虑政策作用对象范围和时间因素，还应区分直接成本（即政策实施时直接消耗的资源）和间接成本（也称机会成本，即为执行当前政策实施方案而放弃的其他活动所能带来的收益）。经济合作与发展组织（OECD）在效益派的评价当中具有很强的影响力，他们从效率的角度定义了政策效果评价，即政策在多大程度上能够或可能以经济且及时的方式实现结果。其中，“经济”是指以尽可能最具成本效果的方式将政策投入（资金、专业知识、自然资源、时间等）转化为政策结果（产出、成果和影响等）。OECD 还指出，计算政策的投入产出比只是效益派评价中的一个方面，科技政策效果最终要汇总到对宏观经济的影响上面来，据此，OECD 定义了效益派评价需要回答的关键问题：（1）科技政策对国家经济增长的影响，需要回答科技政策能够提高经济绩效吗？（2）科技政策能够提高产业竞争优势吗？（3）科技政策是否会影响生产过程，能否提高生产率？等。

1.2 以结果为重点的科技政策效果评价

与效益派不同的是，以结果为重点的政策效果评价不是依靠计算投入产出来衡量科技政策效果的，而是通过对比政策实施后特定结果指标的变化来判断效果。以结果为重点的评价是国际组织开展政策效果评价的主要方法，很多国际组织在对一些欠发达国家进行发展援助后，需要评估相关干预措施的效果，以促进可持续发展。以结果为重点的政策效果评价的特点是注重政策结果，强调对政策结果的测度，既可以用经济指标来测度，也可以用非经济指标来测度，具体地说，以结果为重点的政策效果评价的核心特征包括：（1）强调通过实验或统计的方法帮助构建“反事实”对照组，反事实的作用是回答如果没有政策，结果会有什么不同？从而将政策的效果与非政策的效果分离开来；（2）不完全依靠对投入产出的计算，避开了科技政策的投入和产出难以货币量化的难题；（3）解决政策效果定量计算问题的核心方法是统计学中的回归分析法，通过形式化表达将政策效果与其影响因素之间的复杂关系进行了简化，使效果计算逻辑简明清晰。结果派的主要挑战是并不总是能够找到合适的对照。

世界银行是结果派的典型代表之一，他们认为效果评价就是将影响和改变归因于特定政策，并提出了计算政策效果的形式化表达，即“效果等于有政策干预（Y1）和无政策干预（Y0）的结果指标之差。也就是说，效果=Y1-Y0”。他们强调要采用实验或准实验方法，获得结果指标的反事实值Y0，并加以严格的统计学检验，从而解决政策归因的问题。要想证明政策效果评价指标与政策干预之间存在因果关系，最严格的方式是实施随机对照试验（RCT）。但是，随机构建证伪试验有很大的难度，在政策评价领域几乎是不可行的。鉴于此，OECD 在最新版的《科技创新活动测度指南（2018）》（也称《奥斯陆手册》）中提出了一种解决科技政策效果归因的方法（见图1），该手册以企业创新政策为例，按照有无科技政策的干预和结果是否可以进行观察，将企业创新结果划分为四个象限，其中一、二象限的内容和三、四象限的内容互为反事实，由于一、三象限中的数据在实践中几乎无法观察，因此，可以比较二、四象限的内容（见图1 中的对角箭头），也就是说，理论上只需计算或说明当政策干预组和未干预组二者结果指标的数值之差（或存在不同表现）即可得到政策的效果，这种比较是实践中可行的政策效果评价方案。

图1 可观察的政策效果和不可观察的反事实——以企业创新支持政策为例

1.3 以内容为重点的科技政策效果评价

近年来，受到科技发展环境变化、评价理念转变、大数据技术普及等因素的影响，兴起了以内容分析为重点的政策效果评价。内容分析的核心是将要研究的信息内容进行编码，通过对直接显示的内容的量化处理来判别其间接的、潜在的动机和效果。内容派的理念是将文本内容分析的方法应用于科技政策效果评价问题，其主要特征包括：（1）强调政策内容的扩散以及与政策内容相关的科研成果在数量和质量上的增长和提高；（2）不仅要研究科技成果本身的“量”与“质”，还要强调其“溢出”科技界之外的社会影响；（3）评价过程当中，除了要分析政策本身的文本内容以外，还要分析与政策相关的内容，如论文、专利、专业新闻这些反映科技成果和发展动态的文本中的内容以及它们的内容与政策文本变化之间的关联；（4）以定量分析为主，定性分析为辅，采用计算机辅助的定量分析手段，以更为智能化的方式进行内容分析。

欧盟委员会是内容派的主要代表，他们认为，随着研究和创新的新范式转向更广泛的社会参与，需要转变以往一直以科学研究的卓越程度作为衡量政策成功与否的做法，要进一步衡量科学对创新、经济和社会的溢出效应。鉴于此，欧盟通过Data4Impact项目首次将基于文本内容的分析方法引入了欧盟科技政策评价体系中，并探索方法在应用场景上的普适性。以内容为重点的方法既可以评价政策对基础研究的影响，也可以用于评价靠近市场端的政策效果。在分析靠近基础研究端的政策效果时，传统评价通常使用论文数量指标和/或引文指标，而以内容为重点的评价则还进一步挖掘政策优先布局领域与科学研究主题之间的关联，以获得比传统方法更为丰富的分析结果。在评价靠近市场端的政策效果时，一旦学术研究成果在新产品中得到应用，就表示创新知识具备了有用性和适用性，而通过分析企业新闻中对新产品的描述信息（如企业新闻中创新产品公告的数量、新技术术语出现的频次以及其他文本特征），可以快速捕捉技术应用所处的阶段和企业创新产出情况，从而揭示政策在促进创新知识向现实生产力转化方面的效果。此外，内容派在分析方法上更容易与大数据和自动化文本分析技术相结合。Data4Impact 中大量使用了文本挖掘、主题建模、机器学习等方法实现自动文本分类和主题分析，通过对文本型评价资源的长期跟踪和快速分析，及时了解欧盟科技政策对社会发展的实际贡献和长期影响。

2 科技政策效果评价的主流方法

近年来，科技政策效果评价方法呈现多元发展趋势，不断有新方法加入。本文结合政策效果评价方法研究的最新进展以及各效果评价流派当中所使用的方法取向，将科技政策效果评价的主流方法分为面向经济影响的评价方法、基于反事实的因果推断方法以及智能化定量分析方法，并从方法的原理、实施过程、应用效果、优点与局限性方面进行简要介绍。需要说明的是，科技政策效果往往是多方面的，通常需要在一个评价任务中综合运用上述方法，形成方法的“组合拳”。

2.1 面向经济影响的评价方法

面向经济影响的评价方法将效果评价转化为衡量政策引导下的科技活动对社会经济的影响问题，此类方法有两个基本类型：第一类旨在将科技研发活动的价值货币化并计算回报率，常用计算方法是成本效益分析法；第二类旨在分析政府科技研发投入对宏观经济数据的影响，生产函数法是其典型代表。

2.1.1 成本效益分析法

成本效益分析（Cost-Benefit analysis，CBA）旨在对政策实施的投入成本与政策效果的产出作比较。该方法的核心是将科技创新活动的价值货币化，用于表达整体货币效应的典型经济指标包括净现值、年值、效益成本比和内部收益率等，原则上能够实现对政策投入产出比的计算。进行成本效益分析的主要实施步骤包括：（1）确定受到政策影响的群体，用投入产出表量化每个群体的经济与非经济、直接与间接影响；（2）利用折现法获得成本和收益的现值，对于无法量化的成本和收益要借助评分和加权等手段；（3）政策的净收益总值等于各个会计期间的成本和收益相减后的年度净收益现值的代数和。

在分析政策的投入产出时，首先需要明确受到政策影响的群体，政策影响群体因具体评价对象而异。OECD 厘清了公共资助研究中的五类利益相关者和对应的成本收益表现形式，提供了政府科技研发成本效益分析的一般性框架。美国先进技术计划（ATP）和澳大利亚联邦科学与工业研究组织（CSIRO）常使用成本效益法分析研发活动所产生的经济影响。如CSIRO 委托第三方评估机构ACIL Allen 对其2017 年的部分研发活动价值进行的评估发现，根据7%的实际贴现率计算，CSIRO 支持的研发活动收益约为每年12.7 亿澳元，远超联邦政府提供的每年7.935 亿澳元的研发投入，这意味着CSIRO 每年的整体研究收益估值将达到26 亿澳元左右，收益成本比约为2:1。开展成本效益分析需要较大的时间和资源投入，因此出于成本方面的考虑，只能用于评价有限的政策或项目。

2.1.2 生产函数法

生产函数法（the production-function approach，PFA）是反映生产要素投入量的组合与产出量之间依存关系的方法，可以表明在给定政策发挥作用时，最有可能发生什么样的经济效应，如产出、收入、就业等的增加或上涨。宏观经济学新古典增长理论的奠基人索洛提出了改进的柯布—道格拉斯生产函数（简称“C-D 生产函数”），其基本假设是在规模收益不变的情况下，全要素生产率（TFP）增长的根源在于技术进步。改进的C-D 生产函数可以用于估算政府研发投入对宏观经济指标的影响，其一般形式为Y=A（t）LK，其中L 代表劳动投入数量，K 代表资本投入数量，A（t）的常见形式为A（t）=A0e，式中的λ 即为技术进步率。

生产函数有很多变体，如知识生产函数、创新生产函数等。由Guellec D 等主导的一项在政策领域极具影响力的研究就采用生产函数法对非平稳时间序列数据建模，分析了1990-1998 年间15 个经合组织国家的面板数据，发现公共研发支出对全要素生产率的弹性为0.171，也就是说，政府每增加1%的公共研发投入，可使生产力水平提高约0.17%。国内学者赵立雨也利用生产函数评价了我国政府研发投入对国内生产总值（GDP）的贡献。该研究收集了1987-2008 年间的国内经济数据，以GDP 作为产出变量，研发经费投入（RDK）及研发人员投入（RDL）作为投入变量，构建了如下生产函数模型的对数形式：lnGDP=lnA+λt+αlnRDK+βlnRDL+μ，式中，α 和β 分别为研发资本和劳动的弹性系数，为μ 为随机误差项。回归分析结果显示参数α 的估计值为0.8761，意味着我国每增加1%的研发投入，就会产生0.87%的GDP 贡献。生产函数法的局限性在于难以处理多维投入产出指标，此时可以结合数据包络分析法（data envelopment analysis, DEA）计算基于多维指标的科技政策投入效率。

2.2 基于反事实的因果推断方法

反事实因果推断是一种统计学方法，用于量化某一特定政策是否在某些预先确定的结果方面产生了预期的效果。其核心是利用实验法或准实验法构建合理的反事实对照组，反事实既可以是真实的也可以是数学模拟的，在此基础上，计算政策实施组与反事实组的差异，即为政策的效果。反事实因果推断是以结果为重点的科技政策效果评价所使用的主要方法，其中以基于匹配的方法和双重差分法最为常见，在实践中，前者常用来构建反事实对照组，后者则是准确量化政策效果的核心方法。

2.2.1 基于匹配的反事实构建方法

基于匹配的方法（matching approach）是政策效果评价中的常用方法。该方法旨在利用统计学方法，找到与政策干预组具有相同特征的个体，匹配为反事实对照组。如要为有政策支持的一组企业T 匹配一个反事实对照组C，考虑以营业额作为匹配因素（在统计学中称为协变量），那么，只要找到一组与T 在同一时间点营业额相同的企业C，C 即为T 的反事实对照组。但是，当协变量数量较多时，就不太可能实现基于原始协变量的匹配。Rosenbaum 和Rubin提出了一种倾向评分匹配方法（Propensity Score Matching，PSM），旨在将多维协变量降至一维，从而降低匹配难度，具体实施步骤包括：（1）确定协变量X，即找到匹配对照组的关键特征指标，这一步可以参考既往研究的结果来选择协变量；（2）计算倾向分数，通常采用logistic 回归分析模型计算倾向分值，记作e（X）=Pr（z=1|X），e（X）为个体受到政策干预的倾向概率；（3）选择匹配算法，基于（2）计算得到的倾向分数，选择适当的算法（如最邻近匹配、核匹配等），为干预组匹配倾向得分相近的个体作为对照组；（4）根据两组之间的差异计算政策效果以及标准误差。

Guo D 等采用倾向得分匹配法结合固定效应回归模型，分析了中国的企业研发支持政策能否使企业在商业化创新（以新产品销售额和出口情况衡量）和技术创新（以专利数量衡量）上实现更多产出，该研究也是首个面向我国最大的政府支持企业研发政策——中小企业创新基金的效果评价研究。研究者在构建对照组时，将政策实施前的企业绩效作为匹配的重点，选择标准行业分类代码、位置、规模、杠杆率、新产品销售额、出口和专利存量作为协变量，以企业获得政策支持的预测概率表示倾向分数，最后得到从1999-2007 年间，2638 家政策支持企业的18224 个观察结果，以及10739 家非政策支持企业的64991 个观察结果。研究者利用上述数据构建了多个固定效应面板数据回归模型，在模型中引入了政策虚拟变量InnoAftit，分析结果显示，与未得到政策支持的企业相比，政策支持企业销售额提高的概率增加了7.88%，产品出口的概率提高了2.41%，发明专利授权量的增长率提高了8.6%，表明我国企业研发支持政策产生了实质性的效果。

2.2.2 基于差异对比的效果计算方法

双重差分法（Difference in difference analysis，DID）是计算政策效果的主要方法之一，DID 方法的基本原理是分别计算政策干预组与非干预组随时间推移发生变化的两个差异。我们假设政策实施前后，干预组的结果指标测量值分别是Y和Y；政策实施前后，非干预组的结果指标测量值分别是Y和Y，那么，政策效果等于（Y-Y）-（Y-Y）。基于上述思路，政策结果计算的回归模型可以表达为：Y=α+βT+γt+δ（Tt）+ε。式中，i 表示政策干预对象个体，因变量Y为政策结果指标，（Ti·t）是以乘法方式引入的虚拟变量，其中T 和t 的取值为0 或1，T=1 代表i 有政策干预，T=0 代表i 没有政策干预；t=0 代表政策实施前的情况，t=1 代表政策实施后的情况，交互项系数δ 的估计值即为政策效果。双重差分法的特点是适用于面板数据，并且要求政策干预组和非干预组在起点时具有相同的发展趋势。

2017 年，英国研究与创新署（UKRI）首次对其研发与创新支持政策的效果进行了全面评价，着重分析了公共研发投入对提升企业业绩的影响。该评价是一项典型的以结果为重点的评价，采用倾向评分匹配法结合双重差分法作为解决效果计算问题的核心方法。评价的过程主要分为两个步骤：首先，采用倾向评分匹配筛选出了近6000 家获得政府研发资金支持的英国企业作为政策干预组，以及同样数量的未得到政府研发资金支持的企业作为对照组。在效果计算阶段，该研究将企业员工数量和营业额的年平均增长率作为结果指标，再基于DID 的原理分别构建以员工数量和营业额增长率为因变量的线性回归模型。结果显示，与没有政策的情况相比，有政策支持的企业短期就业增长提高了4.8%，短期营业额增长约为7.6%。总体来看，在政策实施后的第5年，有政策扶持的企业多创造了约150 个新就业岗位，营业额增加近4500 万英镑，表明政策对提高英国企业生产率具有显著的积极影响。

2.3 智能化定量分析方法

智能化定量分析方法是内容派的核心评价方法，它旨在实现政策效果评价的自动化，其特点是采用文献计量、文本挖掘、自然语言处理和机器学习等方法，对文本类型评价资源的内、外部特征进行量化计算，分析科技创新过程、产出及影响与科技政策的关联。智能化定量分析方法主要包括两种类型，分别是智能化的知识计量方法和智能化的文本分析方法。

2.3.1 基于知识计量的方法

基于知识计量的方法是以知识和科学活动作为研究对象，以论文和专利为代表的文献为主要载体，采用计量学方法对知识活动及其影响等进行定量研究的一类方法。在科技政策效果的因果传递中，知识溢出和流动扮演了重要的角色。借助知识计量的方法，能够将创新知识流动过程显性化、定量化，因此也是目前公认的衡量政策目标实现程度、产出是否符合预期、政策带来的短期和中长期影响的主要依据和有效方法。

基于知识计量的科技政策效果评价方法有三种基本实施途径：（1）数量分析，即对知识出版物的数量特征进行统计分析，根据出版物的数量特征及其变化趋势，解释科技政策在促进创新知识增长方面的效果。如以学术论文为例，论文一方面是科学知识的主要载体，科学知识的创造、传播和应用是技术活动的重要基础；另一方面，论文代表着基础研究的水平，基础研究是创新的动力和源泉，在技术发展中起着重要作用。因此，在科技政策效果评价中，论文数量（特别是高质量论文数量）被用作衡量早期创新活动和科学实力的指标，反映了科技政策对基础研究的影响，也是衡量科技政策产出的基础性指标；（2）引文分析，即通过分析论文和专利等的引证和被引证现象揭示科技政策效果。如专利引文为分析知识溢出效应创造了条件，论文中的内容被专利引用提示了基础研究成果已经开始向应用端转移，引用数量、内容、时间效率等指标均能够反映政策对加速科技成果转化的催化作用；（3）基于共现与合著的网络分析，如论文、专利和项目报告等反映科技成果的文献中所包含的主题词共现、作者机构共现等现象可以作为揭示知识流动、创新协同和学科交叉融合的重要提示。如通过计算产学研项目合作网络强度，可以定量地分析政策对促进知识流动与共享以及整合研发与创新能力方面的效果。

2.3.2 智能化文本分析方法

在数字化转型的背景下，研究与创新领域的数字化程度也在不断提高，产生的非结构化数据的种类和数量持续增加，越来越多的非结构化文本信息可以作为反映政策目标、内容、效果和影响的直接或间接依据。很多数据类型（如文本）无法用传统方法进行分析，需要采用适应新数据类型的定量分析方法。智能化文本分析方法旨在自动化地分析处理海量的非结构化文本信息，包括智能主题建模、文本相似度计算和情感分析等。

智能主题建模是文本挖掘领域最重要的分析手段之一。主题模型中最重要的方法是概率隐性语义索引（LSI）以及隐含狄利克雷分布（LDA）等，主题可以看成是词项的概率分布，主题模型通过词项在文档级的共现信息抽取出语义相关的主题集合，并能够将词项空间中的文档变换到主题空间，得到文档在低维空间中的表达。主题模型在科技政策效果评价中的应用场景之一是针对政策文本本身的分析，通过政策文本主题建模，可以快速掌握政策内容及其演化情况，作为后续与效果指标进行关联分析的基础。主题模型的另一个重要应用场景是以论文、专利、科技新闻、企业公告等一系列反映科技成果和发展动态的科技情报源作为分析对象，将研究主题作为反映政策效果的指标，从内容层面捕捉政策对研发过程的影响。如欧盟的Data4Impact 项目是国际上最早将智能主题建模和情感分析技术应用于科技政策效果评价的研究之一。该评价将政策效果分为投入、产出、学术影响、经济影响和社会/健康影响5 个维度，共29 项指标。其中，基于智能主题建模的指标有11 项，如政策实施前后健康领域中的研究主题强度变化、各研究主题下的研究团队数量分布、政策支持的研究主题在新闻文章、博客、帖子、推文中的讨论热度排名等。以政策的学术影响维度下的“健康领域中的研究主题强度”这一指标为例，其计算过程如下：（1）输入数据，为从Pubmed 等数据库获取的框架计划资助的出版物全文及相关元数据；（2）数据分析，使用的方法主要包括概率主题模型、语义标注以及实体识别；（3）输出结果，通常是基于文本主题的定性和定量分析结果，如每篇文档/专利包含的主题数量等。分析结果显示，在2004-2018 年间，以非小细胞肺癌、胰腺癌为代表的研究主题呈逐年增长趋势，表明欧盟框架计划促进了癌症研究的发展。

文本相似度计算旨在量化文本之间的共性和差异，共性越大、差异越小，则相似度越高，也就是说，相似度与文本共性成正相关。相似度一般可用[0，1]之间的实数表示, 该实数可通过语义距离计算获得。在政策效果评价中，文本相似度计算的主要应用场景是进行主题耦合，即通过主题相似度建立文本之间的联系，从而揭示政策对研究主题演化以及知识流动和转移的影响。如匡奕臣提出了基于主题模型与证据链生成的科技政策效果评价模型，该研究主要采用了基于时间序列的论文主题指标分析论文主题演化与政策内容之间的关联。研究首先使用LDA 主题模型识别我国学者在国际期刊上发表的癌症领域论文的Top10 主题；然后，根据语义相似度与余弦相似度的综合相似度建立相邻时间窗口的主题之间的关联；最后，按照设定的主题相似度阈值筛选出具有延续性的主题演化路径，定性分析了论文主题变化与政策导向作用的联系。

3 科技政策效果评价的发展趋势

在数字化高速发展和大数据技术普及的背景下，政策评价领域迎来了重要的发展契机，在积极采纳新的技术手段的同时，推动了评价理论、方法与实践的快速发展。政策效果评价作为政策评价研究的重点和难点，其在大数据环境下的新发展引起了人们的格外关注，具体来看，主要呈现出以下发展趋势：

3.1 效果评价将在政策评价中占据主要的地位

政策评价的基本内容包括政策方案评估、执行评价、过程评估、效果评估等，以往，效果评价仅被看作是各类政策评价活动的一个组成部分，和其他评价类型处于同等地位。但是从发展趋势上来看，随着科技政策的作用及影响面的不断扩大，政策效果评价的作用也将越来越重要。据国家科技评估中心的一项研究统计，我国近四十年的科技政策评价论文可以概括为六个主题，以政策效果、效益评价为题的论文占比达到了22%，属于集中度较高的主题，且发表时间多集中在近十五年左右，充分说明效果评价未来将在政策评价和决策过程中占据主导地位。这主要是因为对政策方案和过程的评价固然重要，但人们也越来越关注政策的结果和长期影响，反过来，政策结果本身又会对政策的制定和规划起到积极的促进作用，因此，几乎所有的政策评价活动都离不开对政策结果的评价。此外，由于政策的过程与结果存在不确定性，导致政策的实施效果并不一定总是能对实现目标起到正向的促进作用，这就要求我们时刻关注政策的效果，及时调整政策内容和方向。

事实上，在政策评价的发展历程中，人们本就十分重视对政策效果的评价。但是受到评价手段、方法、时间等方面的限制，对于效果的研究一直没有取得突破性进展，学者们的注意力也分散在对其他相关问题的研究上。在大数据环境下，政策效果评价的条件已经发生了根本性的变化，政策所带来的影响以及给政策目标和非目标群体带来的行为改变等都会暴露于泛在信息环境中，这就为政策效果评价，既带来了机遇也带来了挑战。挑战在于需要我们进一步的开发更符合大数据环境的评价方法，机遇在于，效果评价将会成为政策评价中的领头羊，在推动政策评价整体发展中起到关键的带头作用。

3.2 采纳自动化的方法和技术手段，提升评价质量与效率

大数据环境下，评价数据来源和数据类型复杂多样、效果评价时效要求严格，决定了手工评价的效率不能满足现实要求，而利用大数据技术能够做到政策效果的自动化评价，满足政策效果评价对质量和效率的要求。

一方面，科技政策的体量庞大、体系复杂，解决效果评价问题需要考虑整个科技创新数据价值链，从保障决策信息全面性的角度提高评价质量。创新过程中产生的数据是分散异构的，首要工作是把科技创新过程中产生的多元数据链接起来，因此需要利用多源信息融合的理念和方法综合开发利用各类数据。如欧盟“地平线2020”资助的IntelComp 项目就构建了一个基于多源信息融合的科技创新政策决策竞争情报高性能计算（HPC）平台。该平台汇聚了对科技政策效果分析至关重要的大型科学技术和创新（STI）数据集，囊括了所有欧盟国家和组织层面的公共行政、科技创新利益相关者和社会公众产生的大量动态、跨语言的异构数据，涵盖了国家科技创新战略、计划和工作方案、项目、报告、科学出版物、专利、媒体新闻等科技情报资源，并在欧洲开放科学云（EOSC）的高性能计算模拟环境进行分析处理。IntelComp 的目标是提供一个平台和工具来协助STI政策的全过程（包括议程设置、实施、监测和评估），并通过建立协作、可视化、交互式及共享的模式实现创新主体的共同参与。目前，IntelComp 已经在“地平线欧洲”计划重点关注的人工智能、气候变化和健康三大领域开展了试点。

另一方面，政策效果评价正在从以定性分析为主转变为以定量评价为主导、定量和定性分析相结合的方式，并越来越多地与大数据技术（网络爬虫、自然语言处理和机器学习等）相结合，以实现非结构化文本的自动分析，与传统的基于调查的方法相比，改善了评价效率和客观性。近期，英国国家科技艺术基金会（NESTA）发表的一份工作报告指出，在产业政策效果评价中，传统评价方法难以及时捕捉到新兴技术企业的创新活动，因为经典的创新调查方法通常是基于比较严格的行业分类来进行的，对传统科技行业更为有效。而利用大数据技术，可以实现对互联网上的非结构化企业信息进行大规模数据收集和机器爬取，再利用机器学习方法对企业所属行业进行自动分类，则打破了传统行业分类标准对创新统计的限制，展现了自动化技术手段在灵活性和效率方面的优势。

3.3 充分运用大数据资源，拓展评价的信息来源

在数字化的社会环境下，社会媒体、大众创新、人员流动性等因素在科技政策扩散过程中扮演着越来越重要的角色，可利用的评价资源越来越丰富，包括项目申请书、研究报告、专业文章、新闻报道、企业信息、社交媒体讨论和产品评论等在内的多源异构数据都已成为评价信息的重要来源。

传统的科技政策评价往往是以政策文本作为分析对象，或仅对某项政策的产出情况进行评价，不能涵盖政策组合的整体效果和更广泛的社会效应，以及影响政策结果的其他关键因素。如社会媒体能够及时捕捉从复杂的人际和知识网络中涌现出来的新事物（如新思想、新技术和新行业等），具有很强的感知社会热点和发展趋势的能力，应用十分广泛。当与政策密切相关的内容在社交媒体或新闻报道中频繁出现时，往往代表政策产生了一定的社会影响，反之则说明政策的社会影响和效果尚不显著。也就是说，可以进一步从社会媒体讨论的数量、主题、实体关系、情感倾向等多种视角出发，探索将社会大数据应用于科技政策效果评价的具体途径。可以说，利用社会媒体大数据已成为政策效果评价的重要趋势。

此外，大数据的运用还能够有效改善传统评价数据存在的一些不足。如专利数据在内容范围、分析粒度、及时性和数据获取成本方面都有局限性，尤其是用于评价政策对企业创新进程的影响时，专利并不能直接反映某些关键技术是否进入了市场应用阶段。而从Web 大数据中则可以识别出与创新成果应用有关的信息，其中，企业网站是创新研究的一个特别重要的数据源。因为企业网站经常发布有关潜在创新产品、服务以及与其他公司合作的信息，分析网站内容并从中提取与创新相关的信息，有可能为研究人员和政策制定者提供一种经济且高效的方式来调查数百万计的科技企业，并深入了解他们的创新活动、合作和技术应用情况。NESTA 支持的一项研究以石墨烯行业的政策效果评价为例，从中小企业的网站上提取了石墨烯技术和产品方面的信息，以捕捉这些企业的创新活动和经济活动，充分证明了大数据资源在政策效果评价过程中的价值与优势。

3.4 不断开发新的评价指标，评价的范围更加广泛

随着科技创新的不断发展，科技政策效果评价的数据、指标和分析领域正在不断扩展，传统和经典的评价指标已经无法满足当前科技政策效果评价的要求，也无法充分利用信息技术发展所带来的便捷优势，因此，亟待开发新的科技政策效果评价指标，扩展评价的视野和范围，以适应不断扩大的科技政策影响面、揭示更为复杂的政策影响路径，从而为科技政策制定提供坚实的基础。

2019 年，德国联邦教育与研究部（BMBF）资助的一项政府高科技战略效果评价研究提出了社会创新指标（IndiSI）的概念，他们认为通过分析与社会挑战相关的社会媒体内容，可以识别创新的传播模式、感知和追溯社会需求与创新概念形成的早期阶段，该研究总结了基于社会媒体数据的四类评价指标，分别是：（1）主题指标；（2）参与者和网络指标；（3）时空动态指标；（4）事件和资源指标。此外，基于大数据的指标可以作为传统指标的补充和替代已成为专家学者的共识，因为大数据指标能够提供更为详细的分析数据和更加精准的测量结果，提升捕捉政策效果变化方面的洞察能力。如BMBF 委托欧洲经济研究中心（ZEW）开展的一项研究在评价中小型科技创新企业的创新产出时，采用了一系列基于企业大数据的创新指标。该研究发现，企业网站的可用性和网站特征（如文本内容、子页面和超链接的数量、文本规模、使用的语言）因企业规模、年龄和所属行业而异，而且，这些特征与企业创新能力有着密切的关联。基于此，该研究提出了将企业网站特征转化为有价值的创新指标的几种方法，包括：（1）基于文本特征的指标；（2）基于网站元信息的指标；（3）基于网络超链接的指标等。实证结果显示，基于文本内容的指标（如主题流行度指数、英语的使用和网页上的总字符数量）以及网站的子页面数量等是分析企业创新产出的有效指标。

4 结语

综上所述，科技政策效果评价的重要性与日俱增，从理论、方法到实践都在经历变化转型，但相关研究仍在持续探索之中，在评价理念、评价方法、评价对象等方面仍有待做进一步的研究。本文只是相关研究的初步总结，以起到抛砖引玉之效果，进一步提升科技政策效果评价的相关研究。

图书与情报

2021年6期