经济学实证研究中的稳健性检验方法<br/>——基于检验逻辑视角的阐释

经济学实证研究中的稳健性检验方法
——基于检验逻辑视角的阐释

2023-07-10宋彦玲

统计与决策 2023年12期

刘明，宋彦玲

（兰州财经大学a.统计学院；b.甘肃经济发展数量分析研究中心，兰州 730020）

1 问题的提出

实证分析是经济学两大基本分析方法之一，因具有客观性等优点长期受到多数主流经济学家的推崇和关注。“帕累托最优”理论被看作是完全的实证经济学理论，瓦尔拉斯、莱昂内尔·罗宾斯以及米尔顿·弗里德曼也认为经济学的构建应该遵循实证科学的方向前进。但早期的经济学实证研究并没有讨论稳健性问题，因此也受到了批评，学者们探讨的焦点集中于其结果的可靠性：一方面实证研究甚少识别和理解变量间的因果关系，另一方面，实证研究中的计量推断在附设模型及其误差分布上不够稳健。直观来看，基于回归分析的计量模型绝大多数是对样本数据考察的结果，但研究结论往往被推广到总体，这就要求样本对总体必须具有足够的代表性；另外，回归模型参数估计量的无偏性、有效性及相合性分析结果必须建立在模型正确设定的基础之上，而现实中这些理想状态难以实现。针对这些问题，后续的研究开始逐渐关注和讨论计量经济模型的稳健性。查阅当前国内外经济学实证研究的文献，几乎在每一项完备的研究中都能看到关于稳健性讨论的内容[1—4]，但同时也发现一些问题：一是许多研究中将稳健性检验过程概述为“对文章设定模型变化，发现模型确实稳健，研究结果可靠”，而极少有学者能够从根源上阐明进行稳健性检验的原因、内涵及方法逻辑，检验选择的随意性比较明显；二是稳健性检验方法较多，但缺乏具体的分类，因此在使用时容易产生混淆，甚至出现同一类方法重复使用的情况；三是人们对如何进行稳健性检验没有形成统一、合理的认识和框架体系，对于一项定量研究，后续研究者仍然难以找到考察模型稳健性的切入点，从而导致基准模型研究推断结果难以令人信服。本文在梳理相关研究文献的基础上，阐明进行稳健性检验的原因与方法逻辑，并对检验方法进行梳理归类，为经济学实证研究提供科学的参考基准。

2 进行稳健性检验的原因、必要性与基本环节

2.1 进行稳健性检验的原因

（1）从经济学的角度看，作为研究对象的经济问题自身具有复杂性，梳理经济变量间的复杂关系是正确设定模型的基础，因此,计量模型的设定直接受到经济问题复杂性的影响。其中，因果关系的复杂性是最核心的体现，具体表现在四个方面：一是人类经济行为中几乎所有的因果对应关系都是一个概率事件，识别难度较大；二是存在条件因果关系和异质性因果关系，即变量x对变量y的影响依赖另一变量z、不同个体下的x对y的影响存在差异；三是因和果不在同一时间发生，可能存在一定的时滞，例如投资对经济增长的影响，结果也可能先于原因，再如经济活动中预期的自我调整等；四是有时处理行为往往会影响未被处理事件，例如一个人的储蓄或消费行为可能会受周围人的影响，经济现象存在空间相关关系等。从理论角度识别和解释这些复杂的因果关系，理论模型必须简化，相应的实证模型也必须简化，本质上经济理论无法提供精确的变量测量、模型设计，也无法精确考虑个体之间的时间异质性、动态性及空间依存关系等。也就是说，用于指导模型设定的经济学理论框架可能因为复杂性的存在（例如因果关系）而和客观事实相悖，进行稳健性检验的实质是检验经济学理论框架是否完备。

（2）从统计学的角度看，统计学或计量经济学方法本身具有一定的局限性。一是研究对象总体样本的获取几乎不可能实现，实证研究中往往是以样本推断总体。一方面，即使样本具有足够的代表性，基于总体样本的推断在划分不同类别样本后是否具有普遍性也难以确定；另一方面，样本奇异值的存在是否对推断结果造成了影响往往都需要进行进一步检验。二是为得到核心解释变量影响的净效应，通常会在实证模型中引入控制变量来构造类似科学实验的环境，但构造的科学环境是否完全正确，本身也存在一定的不确定性。更换一组控制变量重新构造这个实验环境，研究结果是否依然成立也有待进行进一步检验。三是实证分析过程中所能运用的模型很难与经济理论完全对应。例如不论是基于H-O 理论还是新贸易理论，都可以利用引力模型作为实证分析的基准模型，在此情形下基于统计数据的模型估计与检验结果都难以确认经济理论是否可靠。

基于上述原因，实证模型能否客观反映理论事实存在着不确定性，即模型的估计或因果推断可能无效，或有效性不确定，这是进行稳健性检验的主要原因。基于多个合理的模型设定进行估计，如果稳健性检验模型能够发现相同或相近的估计，即使稳健性检验会增加多重模型估计的不确定性，但也会在总体上增加基准模型推断结果的可信度。

2.2 进行稳健性检验的必要性

（1）模型设定检验包含相对检验、模型拟合检验和分析残差结构的模型拟合检验共三大类。其中，相对检验有Hausman 检验、AIC 检验、BIC 检验等，主要用于评判在两个或多个理论无法判别“好”“坏”的模型中，哪个在统计意义上具有更好的估计效果。不论是遗漏解释变量还是误设动态性，Hausman 检验总是将一个模型设为固定效应，将另一个模型设为随机效应，在比较二者参数估计的差异之后进行选择。AIC和BIC检验通过加入模型复杂程度的惩罚项来避免过度拟合问题，通常AIC和BIC值越小的模型过度拟合程度越低，越具有吸引力。模型拟合检验的主要作用在于判断和评估模型质量，有t 检验、R2、F 检验等。t检验是关于模型估计系数有效性的检验，t检验的绝对值越大，估计系数的P值将越小、显著性越强；R2、F检验均是以回归平方和与残差平方和为基础构造的检验统计量，一般而言R2越大表明模型拟合效果越好，F 检验的显著性越强，表明模型整体解释变量的有效性越强，当R2越大时，F检验值也会越大。分析残差结构的模型拟合检验包括White 检验、DW 检验等一系列异方差和序列相关检验方法。这类检验通过检查残差项与解释变量及残差项之间的相关性来评估模型设定的质量，也是研究者比较推崇的模型设定质量评估方法。本质上模型设定检验提供了基准模型在统计意义上没有误设的证据，但从稳健性角度来看，模型设定检验存在两个方面的问题：一是不论何种模型设定检验方法，都只能显示存在的问题，而无法识别存在问题的原因；二是能通过模型设定检验的模型（“合理的”模型）通常不止一个，对于这些没有被明显误设的模型，很难在他们之间做出决定性区分。因此，为提高检验推断有效性，必须对“合理的”模型估计结果进一步执行稳健性检验。

（2）模型选择算法是机器学习中模型选择的一种方法，其主要思想是：在大量“合理的”模型中选择最优模型，包括交叉验证、特征选择等。交叉验证是对大量模型中的每一个模型在样本集上进行训练，选择具有最小误差的模型。特征选择是通过前向搜索、后向搜索等方法对变量进行筛选，一方面选择在特定样本集上更具解释力的模型，另一方面防止过度拟合。从稳健性角度来看依然存在以下缺陷：模型选择算法通常将推断建立在选定的模型基础上，没有且不可能同时对所有函数形式、变量等条件不同的模型进行筛选检验，这会导致遗失有用的信息；对观测数据比较敏感，观测数据较小的变动就可能导致选择不同的模型，估计结果变化较大。因此，模型选择算法亦不能解决模型不确定性所有维度的问题，也需要通过稳健性检验来进一步论证其估计结果的可靠性。

（3）模型平均法认为，较为科学合理的预测方法是将多个模型结果通过科学的权重选择进行组合，最大化利用可得到的信息，以保证分析结果的可靠性。然而，模型平均法可能在一个包含数以千、万甚至亿计的模型空间中处理问题，其中也包含大量几乎完全不合理的模型；同时，模型平均法也依赖诸如模型函数形式、样本来源于总体等一系列假设，因此，模型平均法仍然需要通过稳健性检验来进一步验证其结果是否可靠。

（4）案例研究是研究者根据研究问题背景、属性等细致挑选案例，系统搜集数据资料，进而探讨经济现象问题的一种方法，一般适用于现象与实际环境边界不清晰且不容易区分，或研究者无法设计准确、直接、系统性控制变量的情形。考虑稳健性，案例研究一方面会增加分析案例的同质性，容易剔除混淆因素，做出有效推断；另一方面，挑选案例会减少样本所包含案例的数量和类型，在因果异质性和环境条件性的现实世界，这种挑选将使得样本属性与总体属性发生偏差，从而导致案例研究结果难以推广到总体。同时，除异质性影响之外，案例研究也会受到其他模型不确定性的影响，包括概念有效性、测量误差和空间依存等。因此，案例研究亦需要稳健性检验来衡量估计效果的推广程度。合成控制法是案例研究中出现的一种较新的方法，当前应用较为广泛，值得注意的是，仅有基于真实模型的案例匹配才会估计出一个无偏的结果，若匹配算法排除了真实模型中的一个或多个变量，匹配估计就会存在偏差。因此，对于合成控制法的研究结果，为提高其可信度亦需要进行稳健性检验。

（5）社会科学实验可以用实验数据代替观测数据，解决了因观测数据杂乱无章引起的模型估计偏误，但仍然存在三个方面的不确定性:一是社会科学实验通常是基于小样本进行的，此时潜在混淆变量的影响是否能被明确分辨存在不确定性，若实验组和对照组中混淆因素较为稀有，则在小样本下能够较为准确地分辨混淆因素；反之，若实验组和对照组中混淆因素较为密集，则此时分辨混淆因素的难度大幅增加，实验结果的可信度会降低。二是实验处理和设计不同于真实世界的处理和设计，组织实验者不一定知道实验发现代表了真实世界的何种行为，这使得实验处理概念的有效性具有不确定性。三是实验通常从预先选定的样本中抽取实验组，不论用何种方法进行挑选，预选样本的分布都很难与总体样本分布完全相同，存在一定的选择偏差，而实验组内部的随机化处理无法消除这种偏差。同时，社会科学实验还可能发生在特定环境之中，此时得出的结论对总体无效，因此，社会科学实验本身也需要进行稳健性检验。

综上所述，常见的模型设定检验、模型选择算法、案例研究以及社会科学实验等方法本身也存在诸多设定不确定性问题，他们不仅不能够替代稳健性检验，而且需要进一步的稳健性检验来探索其估计效应是否稳健，即弄清估计效应对模型设定和理论要求的依赖。因此，稳健性检验是实证研究中的必要内容，不能被其他具有类似功能的方法替代。

2.3 稳健性检验的基本环节

一项可靠的稳健性检验是有因有果、前后对应、自成体系的，例如韦倩等（2014）[2]在研究市场力量对中国沿海地区崛起的作用时，从四个方面进行了稳健性检验：一是考虑地理因素的影响，采用了某地区是否为沿海地区虚拟变量和省会城市离上海和香港的距离两种方法对地理因素进行度量。二是考虑内生因果关系对模型估计造成的影响，将原始数据划分为五个时间段，对被解释变量和一部分解释变量计算该时间段内的均值形成新的变量；另一部分解释变量取不同时间段内的初始值，打乱其内在的因果联系对模型进行了重新估计。三是考虑研究中自设市场因素变量本身也会存在概念有效性偏误，用普遍认可的市场化指数代替，对模型进行了重新估计。四是将研究样本的时间序列进行扩展，加入1956—1978 年计划经济时代市场机制“天然”缺失机会，设置虚拟变量进一步进行了稳健性检验。再如申广军等（2016）[1]利用2009 年增值税改革政策冲击，基于微观层面数据分析增值税率下降影响企业生产，进一步影响宏观经济增长的作用时，从四个方面进行了稳健性检验：一是考虑采用企业实际缴纳增值税这一核心解释变量面临的测量误差风险，采用备选指标增值税应缴纳税率替代核心解释变量进行分析；二是考虑企业进入和退出的影响，保留了连续三年存在的企业为子样本，利用平衡面板数据解决样本选择问题；三是考虑了增值税改革自身的内生性问题；四是考虑除企业层面异质性外，其他随时间变动的因素对企业行为和绩效的影响，包括行业、省份及税收优惠三种异质性趋势下增值税降低对企业行为和绩效的影响。这类研究对样本选取、模型设计和变量指标选择中存在不确定性或较为主观的方面有着明确的说明，基于对核心解释变量主观性和测量误差的考虑，进一步对为何从这些方面出发进行稳健性检验有全面、明确的原因阐述；与此同时，对稳健性检验方法的选择均结合所研究的问题进行了严谨论述，可以从中清晰地探测到研究者的逻辑思考和方法选择过程。Neumayer 和Plümper（2017）[3]将这种稳健性检验逻辑步骤概括为“四步法”：第一步，根据研究理论及研究问题需要，确定基准模型；第二步，识别基准模型中所包含的假设；第三步，以改变基准模型假设的方式发展模型，这些模型就是备选稳健性检验模型；第四步，比较每一个稳健性检验模型和基准模型的估计效应，对稳健性进行分析。第一步是实证研究的必要步骤，也存在较多争议，由理论模型逐步演化而来的实证基准模型往往更具说服力，设计构建基于讨论、叙述型理论分析的实证基准模型则更多以“借鉴已有研究”来反驳质疑。当然，基准模型的设定并不仅限于此，通常研究者还应对基准模型进行一系列模型设定检验。例如基于残差结构进行的检验，要保证基准模型在统计意义上不是已知被误设或一开始不会被质疑，若基准模型的设定不合理，则后续的稳健性检验便没有任何意义。第二步是对可能造成基准模型不稳健的原因展开分析，需要识别的假设就是基准模型设定中存在不确定性而研究者假设其合理的地方。这些地方可以是基于经济意义的思考，比如核心解释变量的选择、样本的选择，尤其是微观数据研究中的样本选择，也可以是基于统计思想的考虑，比如内生性、遗漏重要解释变量等，这也正是为什么“如此”进行稳健性检验的原因。许多研究者在文章中会省略对这一过程的论述，但这恰巧也是让读者产生质疑、造成稳健性检验选择随意等不良错觉的根本所在。因此，本文认为在进行稳健性检验时，研究者有必要对基准模型包含的假设或为何如此进行稳健性检验进行阐释，尽可能排除所用模型不正确的可能性。第三步通过改变模型的基准假设，对被检验的模型进行改变，以此作为基准模型的对比形式。这是第二步内容的进一步实践，同时也是第四步的开端。第四步是稳健性检验结果的分析，现有研究普遍认为，若稳健性检验模型结果在系数大小、方向及显著性（尤其是方向和显著性）上没有较大的改变，则可认为基准模型研究结果稳健可靠，方向和显著性“较大的变化”容易理解，但“较大的变化”所表示的范围如何似乎没有严格的标准。为严格定义结果的稳健性，Neumayer和Plümper（2017）[3]提出了稳健度（ρ）的概念，即稳健性检验模型的概率密度函数落入基准模型概率密度函数95%置信区间的份额或百分比，如式（1）所示：

考虑简单情况，可令基准模型估计系数βb的概率密度函数为

其中，和分别为稳健性模型和基准模型参数估计值，和分别为稳健性检验模型和基准模型变量标准误。

“四步法”逻辑从“识别”到“实践”的逻辑思路呈现了一个较为完整的稳健性检验分析、思考过程，也阐明了实证研究的研究设计需要包含的重要环节，对研究者设计稳健性检验具有重要的启发和引领作用。

3 稳健性检验类型

3.1 基于模型假设的稳健性检验

不同的建模假设决定了如何选择稳健性检验，由此可将稳健性检验分为模型变异检验、随机置换检验、结构置换检验、稳健性极限检验以及安慰剂检验共五种类型。

模型变异检验是以离散的方式改变模型的某一个方面，从而进行稳健性分析。模型变异检验较为常见，增加或减少解释变量、改变模型函数形式、改变样本容量等均可归入该类型，这类方法的优点是容易找到备选策略并进行稳健性检验，但也会存在同义反复等缺陷。随机置换检验是从大量看似合理的备选模型中随机选择稳健性检验模型，包括分割样本检验、基于解释变量集合的敏感性分析、任意置换测量误差范围的检验[4]。随机置换检验一个致命的缺陷是，如果检验前后模型空间无法限制，那么检验结果就变得难以解释；结构置换检验是在一个小空间内穷尽所有可能的替代模型，或以结构化的方式选择少数几个模型进行稳健性分析。例如，对于某些变量，如满意度、腐败程度等，可以以0 为分界点，在-10—10 的标尺范围内进行选择，也可定义5为分界点，在0—10的标尺范围内进行选择，结构置换检验可以使用所有合理的分界点进行分析，讨论结果是否发生了改变。稳健性极限检验通过探讨哪种模型设定会使得基准模型的估计不稳健，利用反证法的思想对基准模型的稳健性进行检验，这种模型可能代表了模型误设。考虑非时变“不可观测的异质性”是否会让基准模型变得不稳健时的检验，可归为稳健性极限检验。例如申广军等（2016）[1]研究稳健性检验中考虑除企业异质性层面的影响之外，行业、省份及税收优惠三种异质性趋势下增值税降低对企业行为和绩效的影响。安慰剂检验通常有两种做法，一是用安慰剂变量代替因变量，检验在预期无效的条件下感兴趣的变量没有效果，二是用安慰剂变量代替处理变量，检验这个安慰剂变量没有效果。第一种方法在单一模型运算下无法做出定论，故不常用；第二种方法在实证研究中较为常见，如利用PSM-DID模型评判政策效应时，研究者总会利用将政策提出时间前移，说明此时的政策变量没有效果，以达到一定稳健性检验的要求。

可以看出，上述五种稳健性检验均假设基准模型是正确设定的或至少在某个维度存在确定性，并在不同维度放松基准模型所包含假设而进行稳健性检验分类，故本文将其概括为基于模型假设的稳健性检验类型。不难发现，基于模型假设的稳健性检验在操作思维上较为抽象，并且要求研究者做到统筹全局，尽可能识别基准模型所包含的全部假设。另外，在实际检验过程中，一种稳健性检验方法也可能同时属于两种或两种以上的稳健性检验类型，例如将样本逐个减少进行稳健性检验，既可认为是模型变异检验，也可属于随机置换检验。因此，从实际操作来看这种分类较为抽象，有待于挖掘更易理解和分辨的稳健性检验分类。

3.2 基于模型不确定性维度的稳健性检验

进行稳健性检验的原因在于实证模型充满不确定性，因而可以从不确定性维度得到另一种稳健性检验的分类方式。经济模型的不确定性体现在实证研究过程的所有环节。在模型设定环节容易出现两种不确定性：一是变量方面的不确定性，包括可能存在的遗漏变量和多选无关变量，二是模型形式选择的不确定性。在变量衡量指标选择环节，对于解释变量和被解释变量具体指标的选择，往往会存在概念有效性难以准确判断等问题。在数据搜寻环节，常见的问题包括样本有效性较难确定、数据缺失严重等。在模型估计环节，通常需要检验基于真实数据的模型是否满足经典计量模型的基本假设，包括内生性等。因此，基于实证研究各环节存在的不确定性，稳健性检验的类型可以进一步扩展，也更易被理解和接受。故可以将稳健性检验划分为总体或样本不确定的稳健性检验、概念有效性和测量不确定的稳健性检验、存在内生性的稳健性检验、模型函数形式不确定的稳健性检验和考虑异质性的稳健性检验共五种类型。

总体或样本不确定的稳健性检验是指包含总体或样本观测边界不确定、总体或样本存在奇异值、总体或样本部分观测值缺失①若只考虑总体或样本的不确定，则应包含样本自选择问题，而样本自选择往往和内生性紧密相连，因此本文将其归入存在内生性的稳健性检验类型。的稳健性检验。考虑总体或样本不确定性，研究者常以包含可能不属于总体的观测值、剔除可能属于总体的观测值、扩充样本容量、选择子样本进行回归、上下缩尾剔除异常值等方法进行稳健性检验，具体如表1所示。

表1 总体或样本不确定的稳健性检验方法

概念有效性和测量不确定的稳健性检验包含概念有效性的稳健性检验和测量不确定的稳健性检验，两者看似无关，但实际中概念有效性的难以确定往往会导致无法对所研究的问题进行统计测量，因而两者间也存在紧密的联系。概念有效性的不确定有两个根本原因：一是多维性，例如对于“健康”这一概念，刘畅等（2017）[9]的研究给出了6 个维度的度量方法。二是缺乏一致的定义，例如“技术创新”，研究中经常以行为和结果两种形式衡量。系统性测量误差是测量不确定的另一个重要原因，在现实世界中占主导地位，其主要来源有三个：一是测量过程的性质。例如小地震的死亡人数测量会较为精确，而大地震的死亡人数会因基础设施破坏较为严重等而难以测量，测量误差也会增大。二是在缺失测量制度和测量单位的情况下，个体自量化变量时通常会对量化施以影响。例如访谈调查中，很多变量会受到访谈人员主观意识的影响。三是研究者进行了不正当的转换。例如对次序变量计算算数平均值。测量误差往往会导致模型估计中真实信息被隐藏、无法显示无误差数据中存在的关系甚至估计系数的符号相反等情形。针对概念有效性不确定，研究者常采用变量替换法进行稳健性检验，包括考虑多维性采用的综合指标替代法和考虑缺乏统一定义而采用的单一变量替代法；针对测量误差的存在则可采用改变变量尺度、再分类等方法进行检验。具体如表2所示。

表2 概念有效性和测量误差不确定的稳健性检验方法

存在内生性的稳健性检验在研究中较为常见。对于存在内生性的原因，往往有以下几种解释：一是存在内生的因果循环关系；二是遗漏了重要的解释变量；三是样本的自选择。关于内生性检验的方法主要有工具变量法、加入滞后期和Heckman两阶段模型，考虑遗漏变量的影响研究者还会加入新的控制变量进行检验。具体如表3所示。

表3 存在内生性的稳健性检验方法

模型函数形式不确定的稳健性检验来自通过经济理论推演便可得到模型函数形式的例子很少，许多研究中变量间的函数形式事先并不知晓，研究者必须自行设定函数形式进行分析验证，而这种模型形式的设定与研究者自身知识储备等密切相关。针对模型函数形式的不确定，Neumayer 和Plümper（2017）[3]在研究中提出了三种检验方法：一是高次多项式检验，即通过一个高次多项式模型来放松函数形式假设，例如以下两个模型：

模型（2）与模型（3）关于x求一阶和二阶导数，并令其等于0。容易判断虽然两模型的函数形式不同，但具有相同的拐点，仅倾斜度存在差异，因此可利用模型（2）对模型（3）进行稳健性检验。二是半参数检验，即通过一个半参数模型来放松模型函数形式假设。三是函数形式中断检验，即加入一个虚拟变量，在断点处允许函数模型有不同的效应。不难看出，上述三种方法更多是针对非线性模型函数形式不确定的检验。对于线性概率模型，蔡晓慧和茹玉骢（2016）[15]用条件Logit、Probit 和Tobit 模型替换了线性基准模型进行稳健性检验。对于普通线性函数模型，许培源和程钦良（2020）[16]在基准模型中加入了因变量的滞后项，改变模型函数形式进行了稳健性检验。具体如表4所示。

表4 模型函数形式不确定的稳健性检验

考虑异质性的稳健性检验包含关于因果异质性与环境条件性的稳健性检验、异质性时间趋势稳健性检验以及时间异质性结构变化检验。因果异质性为针对不同类型的人、地区、行业等，对于一项刺激可能会做出不同程度或完全不同的反应，环境条件性暗含分析单元同质，但针对不同的刺激环境因果关系可能会发生变化，实际中很难将因果异质性和环境条件性分开处理，且二者之间存在或多或少的联系，因此实证研究中也往往将两者同时处理。异质性趋势是指部分因素随时间的变化而变化，会混淆研究变量对目标变量的影响。例如申广军等（2016）[1]指出，如果政府积极扶持某一行业，为其提供了多种机遇，那么这一行业会快速发展，从而混淆了增值税改革对企业行为和绩效的影响。时间异质性是指在某一个或某些时间节点，自变量x对因变量y的影响强度或方向可能发生变化，例如金融危机前后的货币、财政政策对宏观经济的影响可能发生变化。可能存在因果异质性和环境条件性时，研究者会采用分样本回归方法；可能存在异质性时间趋势时，固定随时间变化的因素是常用的稳健性检验方法；可能存在时间异质性结构变化时的稳健性检验方法有扩展时间窗口、缩短时间窗口、切割时间段、滚动时间窗口等方法，具体如表5所示。

表5 考虑异质性的稳健性检验

进一步地，稳健性检验“四步法”逻辑步骤中的第二步逐一识别基准模型所包含的假设，可阐述为从模型设定环节出发，识别基准模型所包含的不确定性。由此，研究者能有清晰方向查找基准模型的缺陷，阐明缘由并进行更全面的稳健性检验。

4 结束语

由于经济问题自身因果关系的复杂性，统计或计量方法本身无法准确衡量样本的代表性、无法准确设定类似科学实验的模型等局限，往往会导致实证模型存在不确定性，这是进行稳健性检验的根本原因。尽管存在诸如模型设定检验等一系列解决模型不确定性的方法，但这些方法仍然不能从根本上作为替代稳健性检验的方法，因此，稳健性检验是实证研究的必要内容。一项好的稳健性检验应遵循包含严谨设定基准模型、识别模型包含假设或不确定性等在内的“四步法”逻辑步骤，每个稳健性检验必须阐明其检验原因和方法选择的合理性。在此情形下，稳健性检验可分为模型变异检验、随机置换检验、结构置换检验、稳健性极限检验以及安慰剂检验共五种类型。如果考虑实证研究各环节包含的不确定性，稳健性检验可分为总体或样本不确定的稳健性检验、概念有效性和测量误差不确定的稳健性检验、存在内生性的稳健性检验、模型函数形式不确定的稳健性检验和考虑异质性的稳健性检验共五种类型。此外，在实际操作中往往也会遇到结果不稳健的情况，挖掘不稳健背后的原因有时比验证结果稳健性更有意义。