APP下载

数据质量、前提假设与因果模型

2020-04-10许加明陈友华

社会科学研究 2020年2期
关键词:数据质量

许加明 陈友华

〔摘要〕 在社会科学定量研究中,高质量的观察型数据的获取非常困难,导致后期进行的统计分析极有可能沦为一种低效甚至无效的数字游戏。任何一种统计分析方法都是建立在特定的前提假设基础之上的,社会科学定量研究中的很多前提假设本身可能就不成立,而且往往同时存在多种不同的前提假设可供任意选择,导致后期的分析结果充满不确定性与风险。在现实社会中,各种社会现象相互交织在一起,因而高度理想化的因果模型很难解释复杂的社会现实。应当通过定量研究范式的创新、定性研究范式的復兴以及大数据的运用,重构社会科学研究的新范式。

〔关键词〕 定量研究,数据质量,前提假设,因果模型

〔中图分类号〕C03 〔文献标识码〕A 〔文章编号〕1000-4769(2020)02-0130-10

实证主义和人文主义是科学研究中两种最基本的方法论倾向,分别代表着两种不同类型的知识探求方法,并由此形成了定量研究和定性研究两种不同取向的研究范式。定量研究建立在推断统计学(即概率论和统计学理论)基础上,而定性研究则根植于逻辑学和集合论。①因此,定量研究侧重于、且较多地依赖于对事物的测量和计算,而定性研究则侧重于和依赖于对事物的含义、特征、隐喻、象征的描述和理解。②自然科学和社会科学是现代科学的两大分支,从时间上来看,自然科学的诞生要远早于社会科学,因而在科学发展史上一直占据主导地位。自然科学主要用来探求没有“意义”的物质世界中普适的和永恒的真理与法则,重视研究结果的数量化和精确化,以定量研究作为基本的研究范式。社会科学诞生之后,为了确立自身作为“科学”的合法性地位,对自然科学研究进行了大肆模仿和借鉴,定量研究范式也因此被引入社会科学研究之中。

自20世纪50年代以来,定量研究和定性研究呈交替主导的状态。从20世纪50年代到80年代,定性方法占据优势,但20世纪80年代到90年代定量方法成为主导,1995年左右又被定性方法超越,而从2000年左右至今,定量方法再次超越定性方法成为社会科学研究的主流。③用研究物质世界的方法研究社会世界需要一个重大假设,即物质世界和社会世界的本质是一样的。④由于社会科学拥有迥异于自然科学的研究目的和研究对象,因而定量研究范式对于社会科学而言并不具有像对自然科学那样天然的亲和力,由此导致社会科学定量研究在实际操作过程中经常面临多重困境。定量研究范式在社会科学研究中的过度运用,极易导致奥迪斯·邓肯(Otis Dudley Duncan)所说的“统计至上主义”(statisticism)的病态,即把统计计算等同于做研究,天真地把统计学当成科学方法论的全部基础,迷信于存在能够评价不同实质性理论之相对优点或一个因变量影响因素之重要性的统计公式。⑤诠释学和实用主义者更是尖锐地指出,社会科学和自然科学之间存在着本体论层面的张力,社会科学的复杂性和独特性使其难以采取自然科学的方法范式。⑥因此,在当前社会科学研究中定量研究范式大行其道、定性研究范式日渐衰微之时,必须对社会科学定量研究保持必要的警醒,进行深刻的反思,明确这一主流研究范式应用于社会科学研究所存在的缺陷和问题,以及应用过程中应有的条件和限度,以达至方法论上的自觉,防止定量研究的过度滥用给社会科学的未来发展带来难以挽回的破坏和损失。

一、数据质量

定量研究是与测量和计算密切联系在一起的,必须以数据作为直接的研究素材。一项社会科学研究,首先要对数据质量进行评价或判断,只有在数据质量有保证的情况下,后面利用数据的研究才是有意义的。⑦因此,高质量的研究数据是定量研究科学性的基本保证。然而,社会现象自身所具有的一些不同于自然现象的特点,决定了社会科学中获取的研究数据无法达致自然科学中的研究数据那样的精确性和可靠性,获取高质量的研究数据非常困难。

(一)社会现象的量化困难

研究对象的可量化性是对其进行测量的前提条件。从理论上而言,无论是自然现象还是社会现象,都具有质和量两个方面的规定性。因此,社会现象也可以像自然现象一样进行量化,这是毋庸置疑的。然而,可以进行量化并不意味着一定可以进行高度量化,也不意味着现在一定可以进行量化。事实上,量化是具有条件性和历史性的。一方面,有些事物可以进行高度量化,有些事物只能进行低度量化,另一方面,有些事物现在可以进行量化,有些事物未来才能进行量化。除了社会调查中通常都会涉及的少数人口社会学变量(例如:性别、年龄、学历、职业、民族、户籍性质、婚姻状况、地域等)之外,绝大多数社会现象都具有复杂性和易变性,充满了模糊性与不确定性,并且还可能存在欺骗性,表象背后潜藏着复杂的内在结构与变动机理,因此只能进行低度量化,此外,由于人们认识水平的局限,加上现有量化技术和量化手段发展水平的不足,有些社会现象就目前看来还很难进行量化。一般而言,研究对象的量化程度越高,可以测量的层次就越高,对信息的利用就越充分,数据的内涵也就越丰富,反之,研究对象的量化程度越低,可以测量的层次就越低,对信息的利用就越不充分,数据的内涵也就越贫乏。因此,社会现象的低度量化甚至暂时难以量化决定了社会科学定量研究中无法取得像自然科学定量研究中那样信息充分、内涵丰富的高质量数据。

(二)测量工具的信效度不高

定量研究所需要的数据是通过测量获得的,测量工具的信度和效度直接关系到测量结果的可靠性和精确性。由于社会现象所具有的抽象性,使得对其进行测量之前必须先要经过一个概念的操作化过程,将无法直接测量的抽象概念转化为可以直接测量的操作性定义。然而,概念的操作化具有很大的自由度,在方法和指标等方面存在多种可能性。这就意味着,一个抽象概念往往同时对应着多个可供选择的操作性定义,不同的操作性定义反映抽象概念内涵和外延的尺度和标准等方面都存在很大的差异,永远无法找到像自然科学测量工具那样唯一的、绝对的测量尺度和测量标准。因此,对社会现象的测量是一种间接测量,而且依据不同的操作性定义对同一社会现象进行测量,就会得到不同的测量结果,由此导致社会科学中的研究数据远不如自然科学中的研究数据那样精确和可靠。此外,在社会科学定量研究中,主要通过调查问卷来收集数据资料,这些调查问卷的来源主要有两个:一是国外引进,一是自主编制。由于文化背景的差异,国外引进的调查问卷在国内的适用性上或多或少存在问题,本土化的修订也多是一些不触及本质的小修小补,难以从根本上去除异文化的影响。自主编制的调查问卷往往缺乏统一、严格的标准和规范,问卷的信度和效度很难得到保证,经常在调查结束之后才发现某些题目的设计存在问题,甚至遗漏了一些关键变量,而此时已经无法补救。

(三)抽样框的界定模糊

社会科学定量研究中的社会调查一般都是通过随机抽样来选取调查对象。在进行抽样之前,必须首先明确抽样范围,即界定抽样框,以赋予总体中每一个符合条件的个体以均等的入选样本的机会。然而,由于社会现象本身具有的复杂性、抽象性、流动性、易逝性等特点,抽样框的界定非常困难。正如莱文和福克斯(Jack Levin & James Alan Fox)所言:“随机抽样的这个特性要求總体的每一个成员在抽样前必须被确定,通常是通过获取一个列出了总体的每一个成员的清单来满足这个要求。我们稍稍一想就会发现获得这样一个总体的完整清单不会是一个容易的任务,尤其是在研究一个巨大而复杂的总体时。”⑧此外,有些调查对象属于隐藏群体,界定抽样框就更加困难。如果抽样框的界定不清晰、不完整,势必造成一些符合条件的个体可能被排除在抽样范围之外,另有一些不符合条件的个体则可能进入抽样范围之中,由此不仅导致抽样框中抽样单位的性质发生异化,而且导致抽样单位的数量发生失真,并进一步造成抽样框中符合条件的抽样单位被抽中的真实概率背离了其原本应有的随机化概率。受此影响,原本就不可避免的抽样误差会被进一步放大,调查数据的质量会因此进一步降低。

(四)调查过程中的随机性难以保证

社会调查最终关注的是总体而不是样本,因此调查所得的样本数据只有通过统计推论上升到对总体的认识才有意义。要保证样本数据可以用来推断总体,就必须使得样本能够最大限度地代表总体,这就对抽样的随机性提出了硬性要求。只有随机抽取的样本,才具备代表和推断总体的可能性,一旦样本丧失了随机性,它对总体的代表性也就随之丧失。然而,定量研究样本选取过程不规范,没有按照科学抽样原理的情况屡见不鲜。⑨如果继续用它来推断总体,就会歪曲总体的本来面目,从而得出错误的结论。因此,研究者一般都会按照一套严格的操作规程和操作方法来设计抽样方案,以赋予总体当中每一个符合条件的个体以同等的入选样本的机会。然而,完美的抽样方案在实际调查过程中并不一定可以得到严格执行。由于社会现象的流动性、易逝性等特点,事先设计好的随机抽样方案往往因为各种始料未及的现实困难而在实际调查过程中发生变异,最终异化为一种非随机抽样。从事过抽样调查的研究人员应该清楚,即使有完整的抽样框并进行随机抽样,在实际执行中也会因为空户、拒访、难以接触到调查对象而调换样本和调查员作弊等各种原因使随机抽样在操作中变形并引起抽样误差⑩,甚至可能进一步导致更加严重的系统性偏差,从而使得这一调查本身的随机性下降。当然,有抽样就一定会有抽样误差存在,如果抽样误差能够控制在一定的限度之内,尚可通过统计手段进行控制和处理,一旦超出了可以接受的范围,调查得到的实际上就变成了一个与原来的随机抽样方案不同的有选择性的样本,样本数据便失去了对总体的代表性。

(五)调查结果容易失真

社会科学调查得到的是观察型数据(observational data)。观察型数据无法隔离外来因素的影响,即使可以通过统计手段控制一部分因素,但是不可能排除所有的外来因素,因此所有的数据或多或少都存在问题,因为它来自现实生活,受到其他因素的干扰太多。首先,社会调查的过程是由人来具体实施的,调查人员在责任心、态度、能力、经验等主客观因素方面存在的缺陷或不足会造成较大的登记性误差,从而使得调查结果与真实情况之间产生较大的出入。其次,任何一项社会调查都是在特定的时空环境之中进行的,调查对象对调查问题的具体回答很容易受到时空环境中一些无关因素的干扰,如天气状况、调查场所、调查对象的健康状况和心情等,由此导致同一个人在不同时空环境之中对同一问题的回答可能并不一致,甚至大相径庭。第三,社会赞许需要比较高的调查对象,可能会刻意隐瞒自己的真实想法而做出社会“喜欢”的选择,或者配合调查人员做出其“想要”的回答。第四,在一个诚信缺失的社会里,人们时刻保持着对外界的警惕心理,生怕一不小心给自己和家人带来麻烦,出于自我保护的需要,很多调查对象在回答调查问题时往往会故意歪曲部分信息,特别是对于一些敏感性问题更是如此。第五,有些调查问题是调查对象无法回答的,因为他们自己也不知道真实情况是什么。比如调查对象的收入,究竟是指体制内的收入还是所有的收入,是仅指工资收入还是包含福利性收入,它们的差别是很大的。即使事先对收入进行了具体的界定,很多调查对象也不一定知道具体数字是多少。例如,即便在大学从事调查方法教学的教授也未必清楚自己的收入究竟是多少。如果硬要回答,就只能填写一个大概的数字,甚至可能随便填写一个数字,这样得来的调查结果没有任何实质意义。第六,即使调查对象不想刻意隐瞒,他的回答也未必能够反映他的真实情况。因为人的无意识动机很难洞察,人们往往在不自知的情况之下受无意识动机的支配而做出了失实的回答。第七,在今天这样一个社会变迁如此迅疾的时代,事物发生量变的速度越来越快,调查数据的保质期越来越短,而一项规范的、大型的社会调查往往持续数月甚至数年的时间,其时效性更是大打折扣。最后,社会调查在决定是否给予调查对象报酬的问题上也陷入两难困境。如果不给予报酬,可能招致调查对象直接拒绝接受调查,如果给予报酬,则可能导致调查对象为了获取报酬而随意应付了事。通过利诱而收集到的功利性调查数据,其质量可想而知。对于以上因素所导致的调查结果的失真,绝大部分很难通过事后的统计手段识别出来。除此之外,从实证研究过程来看,研究者在调查研究中会受到政治因素、经济因素以及伦理因素的综合影响,多种因素干扰会导致实际的调查研究过程难以真正做到完全的独立,研究过程的依附性会直接影响到研究主题的选择和数据资料获取的真实性,进而影响到分析结果,从而使得实证研究的质量大打折扣。

二、前提假设

定量研究是一种非常严格和规范的研究范式,几乎每一种具体方法的运用都需要满足相应的前提条件。因此,在社会科学中开展定量研究,必须事先假定调查数据满足特定方法所要求的前提条件,也就是设定某些前提假设。如果没有前提假设,就无法开展社会科学定量研究。然而,在社会科学定量研究中,人为设定的前提假设很有可能是不成立的,而且往往同时存在多种可供选择的前提假设。

(一)前提假设本身可能不成立

社会科学研究对象本身充满了变异性,而且这种变异性比自然科学研究对象的变异性要复杂得多。不仅个体与个体之间存在差异,而且同一个体在成长的不同阶段也会发生变异。尤其对于后一种变异而言,分析起来非常复杂,因为它往往同时受到很多而且是难以确定的因素影响。不仅对未来的预期会影响人在当前的行动,而且路径依赖(path dependence)也会使得过去发生的哪怕只是一些微小的偶然的事件也可能会对当前的行动产生影响。因此,在社会科学定量研究中,即使知道存在一个潜在模型,它也会因总体中个体的不同而发生变化,这就是“总体异质性”。

由于“总体异质性”的存在,通过不同个体之间的比较来分析某种干预所产生的效应,势必导致两种类型的分析偏误的产生。一种是异质性偏误(heterogeneity bias),即不同个体的先天禀赋和后天条件原本就存在差异,因此他们在接受干预之前的初始水平是不一样的,另一种是内生性偏误(endogeneity bias),即不同个体即使接受完全相同的干预,也不会导致完全相同的结果,因为同一干预在不同个体身上所产生的效能是存在差异的。

为了消除由于社会现象“总体异质性”所产生的分析偏误,使得不同个体之间的比较研究变得可能,就需要对观察型数据做出个体同质性(homogeneity)假设,即不同个体在先天禀赋和后天条件上不存在本质上的差异,而且同一干预在不同个体身上所产生的效能也不存在本质上的差異。有了个体同质性假设,就可以通过对不同个体进行比较来分析干预所产生的效应。因此,个体同质性假设是开展社会科学定量研究的一个最基本的前提假设。然而,这样的假设并不符合事实,即使通过社会分组,尽量扩大组间的异质性和组内的同质性,也不可能做到组内完全同质。社会分组只能使得个体同质性假设相对于不分组而言更加接近实际情况,但永远不可能成为现实。因此,在大多数情况下,我们用基于个体同质性而计算出来的精算概率代替真正的个人概率,得到的是描述上准确但可能毫无理论意义且无预测能力的无用的统计数据。

在社会科学定量研究中,几乎每一种具体的分析方法,都需要满足与其相应的具体前提条件。然而,为了使用特定分析方法而设定的绝大多数具体前提假设都与个体同质性假设一样,本身并不符合事实,至少无法证明它们是正确的。社会科学研究中定量分析模型的一个基本问题就是它们强迫分析者首先引入一个可能是错误的假设,否则,数学模型就没有太多作用……这些模型可以做到极为漂亮,代表了非常杰出的智力成就,但是它们是否可以解释真实的世界,则有相当疑问。这是因为,我们基本不可能从错误的假设中得出正确的结果。无论引入明知错误的假设使分析变得多么简单,它都对我们找到正确的解释无补,因为由此生成的理论在错误的地方“查找”答案。

(二)前提假设同时存在多种可能选择

社会科学定量研究中的绝大多数前提假设的设定都是回溯式的,即先根据研究目的选定统计分析方法,再根据统计分析方法设定前提假设。因此,前提假设的设定具有明显的目的性和随意性,并未考虑或很少考虑到调查对象和调查数据本身的性质与特点。同时,为了达到同一个研究目的,可以采用多种不同的统计分析方法,而每一种统计分析方法都需要满足特定的前提条件,因此前提假设的设定往往同时存在多种不同的可供选择的方案,从而导致社会科学定量研究中前提假设的设定充满了不确定性。这也就意味着,对于同一组观察型数据而言,我们可以同时设定多种不同的前提假设,从而可以采用多种不同的统计分析方法进行统计处理。

在社会科学定量研究中,事物之间的关系通常用统计模型来反映。面对同一组观察型数据,针对相同的分析变量,可以建立不同的统计分析模型,因为对社会现象做出的假设是不一样的,一种假设用一种模型得到一串数字,另一种假设用另一种模型又得到另一串数字。但是,这些统计模型之间往往并不一致,甚至可能相互矛盾。然而,由于社会科学定量研究中的绝大多数前提假设都无法进行证明,基于不同前提假设所得到的不同统计模型也就难分对错和优劣。根据不同的统计模型,可以解读出不同的分析结果,进而得出不同的研究结论。对于某一种社会事实本身而言,正确的结论往往只有一个,如果基于多种不同的前提假设得到了多种不同的结论,要么只有一种结论正确,要么所有的结论全都错误。研究结论不正确,事实的真相也会因此被扭曲或掩盖。这不仅违背了定量研究对分析结果的精确性的追求,而且扰乱了对事物之间真实关系的理解和认识。

三、因果模型

社会科学定量研究中最常用的分析方法就是建构因果模型。因果模型可以帮助我们通过对有关社会现象的数据资料的量化分析,形成对某一社会事实的原因的理解和认识,进而利用这种特定的因果关系对这一社会事实未来发展的方向和速度进行预测和控制。然而,社会现象本身非常复杂,影响因素很多,而且充满了不确定性。通过定量方法建立社会现象之间的因果模型,在模型本身及模型的解释力方面往往存在严重不足。

(一)建模方法不科学

社会科学研究在实际调查过程中使用的抽样方法多不是简单随机抽样,而是其他类型的抽样,甚至根本就不是概率抽样。通过非概率抽样获得的数据本身连最基本的随机性都不具备,因而从方法论的角度而言,这样的数据是不能用来推断总体、建构模型的。即便是概率抽样,从严格的统计学的意义上来讲,不同类型的概率抽样方法,其数据处理与统计分析的方法也是不一样的。现有统计分析软件用以建构因果模型的方法多是建立在简单随机抽样基础之上的,对于那些不是通过简单随机抽样获得的调查数据,严格来讲是不能使用现有的统计分析软件直接进行因果模型建构的。因此,如果不是简单随机抽样,在数据处理与统计分析时就需要进行包括数据加权在内的复杂的数据加工过程,以便使得其他随机抽样形式得到的样本数据尽可能地向简单随机抽样靠拢,从而使其可以使用现有的统计分析软件直接建构因果模型。然而,现实当中绝大多数社会科学研究工作者由于缺乏较为深厚的数理功底,往往把由复杂抽样得到的数据看成是由简单随机抽样得到的数据,并直接带入统计软件来进行分析,所以计算得出的各种评估指标和检验指标,都是存在误差的。从统计学的角度而言,这样建构起来的因果模型是有问题的,甚至可能是错误的。

(二)无法解决反事实问题

社会调查获取的是观察型数据,要想从观察数据中发现相对稳定的因果关系,需要运用多种多样的逻辑思维,试图单纯运用统计技巧去发现观察数据中的因果关系几乎是不可能的。对于样本中的每一个个体而言,观察型数据只能反映它接受或不接受某种干预所产生的两种不同结果中的一种,而无法同时获得它既接受干预又不接受干预所产生的两种不同结果。例如,如果我们得到了一个人上过大学所产生的结果资料,就不可能同时得到他不上大学所产生的结果资料,同理,如果我们得到了一个人没上大学所产生的结果资料,就不可能同时得到他上过大学所产生的结果资料。也就是说,对于每一个观察型数据而言,我们不可能得到反事实的结果(counterfactual effect)。因果模型归根到底就是研究反事实问题,需要对某种干预在同一个体身上所产生的效应进行分析并做出解释。但是,观察型数据自身的局限使得在同一个体身上比较接受干预与不接受干预所存在的差异是不可能的,因此这种比较只能在不同个体之间进行。然而,由于存在异质性偏误和内生性偏误,不同个体之间的比较无法析出纯粹是由干预所产生的效应。除非我们使用类似于同卵双胞胎或多胞胎作为比较研究的配对样本,但是这样的个案毕竟太少了,对于社会调查所要求的大样本而言,几乎是不可能的。因此,社会科学定量研究中的因果模型无法解决反事实问题。

(三)变量控制困难

因果模型就是通过比较个体接受与不接受某种干预所产生的不同结果,从而析出干预所产生的特定效应。因此,对于那些同样可能对结果产生影响但我们并不关心的额外变量或无关变量,必须进行相应控制。然而,社会科学定量研究中的变量控制非常困难。首先,影响某一结果的额外变量和无关变量有很多,而且无时无刻不处于变化过程之中,因而很难进行捕捉和控制,其次,很多时候我们甚至可能对哪些变量对结果产生影响都不是很清楚,或者即便清楚,我们在实际调查中也没有收集这方面的资料,从而不得不对这些影响结果的变量进行忽略,再次,对于社会调查而言,额外变量或无关变量无法在干预的同时进行限制和排除,只能在干预结束之后通过统计手段进行控制,而统计控制的作用非常有限,有时甚至无法确定哪些变量应该进行控制、应该如何控制,最后,变量控制的标准难以确定,不同个体之间往往同中有异、异中有同,同和异相互交织,控制了一个方面的同,又出现了另一个方面的异,难以按照统一标准同时控制各个方面的同。因此,由于社会人的异质性,基于非实验数据的定量分析很难避免诸如遗漏变量、样本偏误、联立性等内生性问题,这在很大程度上影响了因果推断的有效性。

(四)忽视了人的内在意义

人是非常复杂的,既有丰富多变的情感,又有独特的主观能动性。因此,人的行为既有理性的一面,又有非理性的一面,既有有序的一面,又有无序的一面,而且是不断变化的,很难用固定的、理想化的公式来充分表述。因果模型是借助于一些剥离了人的情感和主观能动性的冷冰冰的数据而建构起来的,追求的是研究结果的规范化和精确化,只能在对数字进行统计分析的基础上得出一些一般化的结论,难以反映人自身所具有的独特的内在意义。正是由于定量研究对遮蔽在演绎逻辑之下的理论想象力的追求往往被研究者所忽略,因此很多学者批评定量研究刻板、琐碎、乏味。这样的统计分析,把原本意涵十分丰富的高级的人降格为低级的动植物乃至于无生命体,人本身所具有的不同于其他物种的本质属性被抹煞,一个个鲜活的个体身上最重要、最独特的方面被忽略了,而次要的、一般的方面却被保留在了模型当中。因此,因果模型所研究的是千篇一律的异化的人,而不是真正意义上的人,人的内在意义在因果模型中被抽离出去,剩下的只是一个没有思想的躯壳。

(五)缺乏个体层次的互动信息

社会科学定量研究主要采用的是大规模的调查数据,这些调查数据是通过对随机选取的样本当中所有个体进行相对独立的逐一调查所得到的。也就是说,在社会调查过程中,每一个个体都被当成孤立于其他个体的社会原子(social atoms)来对待,由此我们虽然获取了大量有关个体属性的数据,但不同个体之间的互动信息却被有意无意地忽略掉了。在社会科学定量分析中,社会互动似乎显得微不足道。然而,任何一种社会事实都不是孤立的个体行动的直接结果,社会互动在其中发挥着非常重要的作用,并由此形成了十分复杂的运作逻辑。社会结果难以简单地从个体所生成的属性中加以“解读”……即使是在特别小的群体中,行为者的行动极为简单,并且还有很清楚的行动逻辑,我们也常常无法预期他们可能带来的社会结果。因此,个体之间的互动对于特定社会结果具有非常重要的解释力,即使是基于社会互动而建立起的相互关系之中一些看似细微的或无关紧要的变化,也可能经过一系列的复杂运作而对社会结果产生非常显著的影响。把个体从互动中抽离出来进行孤立的研究,势必大大简化对事实真相的理解和认识,难以发现导致某一社会结果的真正原因。因此,基于缺乏个体层次互动信息的观察型数据建构起来的因果模型,难以反映社会互动的真实内在逻辑,更无法从中知晓个体之间的互动如何形塑社会的模式。

(六)难以揭示真正的因果机理

模型追求的是简约形式而非结构形式,而影响人的观念和行为的因素是相当多的,而且各因素之间还存在着比较复杂的关系,人们很难穷尽所有的影响因素,也很难用一个简单模型来模拟出所有变量之间真实的、复杂的关系。统计学中所列出的数学模型或者函数,只是函数中极少极少的一些特例,例如我们常用的线性回归模型、Logistic回归模型、对数线性模型等都是极其特殊的模型。这些模型在使用时对变量是有要求的,例如,在使用线性回归模型时,必须满足高斯条件。但现实中的很多变量根本就不满足模型对变量的基本要求。这些模型之所以得到广泛应用、甚至多是滥用,其原因是解释起来简单,仅此而已。实际上,现实社会中各种社会现象之间的关系是异常复杂的,现有的统计学模型却是高度简单化和理想化的。例如,在线性回归模型中假设变量之间的关系是線性的,但现实社会中很少有变量之间的关系是线性的,而是非线性的。不仅如此,我们甚至都不知道变量之间究竟呈现一种怎样的关系,也就是根本不知道变量之间呈现出一种怎样的函数形式。在现实的统计分析中,我们实际上对变量之间的关系做了极其简单化的处理,甚至人为建构变量之间的关系呈现出统计分析模型所要求的形态,这实际上是很荒谬的。因此,因果模型中反映出的因果关系通常与真实的因果关系相去甚远。在因果模型中,如果一个因素和结果的期望值或者条件概率系统相关,那么这个因素就被说成是一个(概率性的)“因”。尽管在词句上吹毛求疵没有任何意义,但这里的“因”所包含的“原因”的旨意,少于“因果关系”中的“因”(也即通过统计学分析得出的“因”往往不是真正的“原因”)。

(七)变量之间可能存在双向互构

变量之间的相关关系存在对称与非对称之分,非对称的相关关系是指只存在一种变量对另一种变量的单向影响,而对称的相关关系是指两种变量之间存在交互影响。在自然科学中,因果关系属于一种非对称的相关关系,作为原因的是自变量,作为结果的是因变量,二者的产生和变化存在明显的时间序列,自变量在前,因变量在后,而且只存在自变量对因变量的影响,不存在因变量对自变量的影响。但是,社会世界错综复杂,各种社会现象相互交织,它们之间很少存在简单的非对称的相关关系,而是以复杂的对称的相关关系居多。例如,人际交往的频率和人际关系的密切程度,二者之间存在明显的双向互构,人际交往频率越高,则人际关系越密切,人际关系越密切,则人际交往频率越高。社会现象之间的关系,大多不是一种单向影响关系,更多的是一种“鸡生蛋、蛋生鸡”式的双向互构关系,结果的生成过程并非一蹴而就,而是经历了不同变量之间多个回合的交互作用,根本就说不清哪个在前、哪个在后,何为因、何为果。一个变量与另一个变量发生的真实作用关系,可以是直接因果关系,或间接因果关系,或互为因果关系,这些都可能导致设定的直接因果关系被检验通过。因此,运用非对称的因果模型来分析双向互构的社会现象之间的因果关系,往往难以揭示其内在的真实的因果作用机制。

(八)完美的因果模型脱离了复杂的社会现实

由于不同社会现象的可量化程度以及量化技术存在差异,因此并非所有的社会现象都能建立因果模型。有些社会问题,已经能够通过定量的科学模型开展研究,而有些社会问题则只能建立半定性半定量的模型,或者说是半经验半理论的模型,还有一些问题则难以建立模型。然而,在社会科学定量研究中却存在一种“社会学时髦”(sociological dandyism),即统计或理论模型的大行其道,并非因为模型可以带来具有社会学实质性用途的结果,而仅仅是因为无论从抽象还是应用的角度,模型本身就具有内在的优美、凝练和精妙的特点。为了使得因果模型看起来更加完美、更加科学,越来越高深的方法被运用到模型的建构当中,越来越多的变量被引入到模型当中,导致模型本身越来越复杂,模型的稳健性越来越差。在西方政治学界,定量方法日益繁杂、深奥,出现为定量而定量的状况,并且定量学者的学术著作日益“小众化”和“圈子化”,形成了“定量霸权”的局面。人们在建构因果模型时考虑的不再是模型能否解释社会现实,而是模型本身是否完美。这就意味着,社会科学定量研究不是为了认识社会现象而建构因果模型,而是为了建构因果模型而建构因果模型,因果模型已经从一种研究工具被异化成了研究目的,与社会现实渐行渐远。

(九)因果模型的建构成为一种人为的选择

在数据分析过程中,研究者往往尝试使用多种模型进行统计分析,但是在最后的研究报告中却是有意选择自己想要的那种结果的模型,或者便于自己进行解释的模型。研究者在统计分析中总是希望自变量对因变量有显著的影响,为了这个目的,甚至把那些在统计学意义上对因变量没有显著性影响的自变量随意地从模型中删除。实际上,在定量分析过程中,研究者都是先从理论上分析变量之间可能存在的关系,把认为对因变量有影响的变量纳入统计分析模型之中,然后从统计学上检验自变量是否对因变量有影响。这里需要注意的是,对因变量有显著影响的自变量,实际上更多是与作者的预期和理论相一致的,倒是那些对因变量没有显著影响的自变量,恰恰说明与作者的预期和以往的理论存在某种矛盾与冲突,而这正是最需要深入研究与讨论的。为什么统计分析的结果与作者的预期和以往的理论出现不一致,这是尤其需要特别加以说明的,但遗憾的是这些内容在统计分析中多是被忽略。由此可见,社会科学定量研究中的因果模型建构看似科学,但是在研究者的选择性使用之下,建构起来的很多因果模型实际上是研究者自己选择的结果。

(十)因果模型的解读成为一种人为的建构

因果模型的一般表现形式是一个标准化的数学方程式,方程式中的各个数值反映了自变量和因变量之间存在的量化关系。从把涉及的概念统统量化为数字,在大量样本中进行统计计算,到推断出因果结论,每个环节都可能出现诸多问题,使得推断出的所谓一般性因果关系值得质疑。对于这种数字层面的量化关系背后隐藏的真实社会意涵,更是缺乏一个统一的、确定的解读标准或依据,因而仁者见仁、智者见智,分析起来具有很大的自由度。研究者对因果模型的讨论往往都是尝试性的,多是根据自己的观察、知识储备和研究假设把模型朝向对自己有利的或自己想要的方向进行解读,导致对同一模型的解读结果因人而异,表现出很大程度的主观性和随意性。虽然绝大部分因果模型建构者在他们的研究中都对社会学理论有所涉及,但是他们很少给予足够的重视……理论阐释已经变得与变量之间的关系假定同义,而且变量成为代替行动者的具有因果效力的能动主体。因此,通过对因果模型的解读看似得出了一个严谨的、科学的研究结论,实则只是一个人为建构社会事实的“数字游戏”和“文字陷阱”,难以揭示社会事实的真相。

由此可见,定量分析在社会科学中看似科学与客观,但实际上多是研究者主观的人为建构物,定量研究方法只是为其提供的一个“科学”的道具而已,甚至研究者自己都无法察觉。现在使用统计分析方法进行社会科学定量研究的人,很多都是对统计学知识一知半解的人,正是由于缺少对统计学知识的真正理解,而对统計学迷信,因而出现对统计学的滥用与错用。实际上,社会科学研究者应该加强对统计学的知识修养,不能这样粗暴地对待与使用统计学。目前在社会科学定量研究中出现的问题,不是统计学本身的问题,而是人们一知半解与数据质量无法保证等所造成的问题。统计学方法始终存在着一个正确理解与正确使用的问题。正是因为如此,社会科学定量研究中经常出现不同学者运用同一调查数据得到不一致的研究结果,甚至自相矛盾。在当下的社会科学定量研究中,来自不同学者运用同一调查数据得到的结果之间的不一致甚至相互打架的现象已经成为一种“常态”,以至于自然科学研究者自始至终都在用另一种眼光看待社会科学研究者,也就十分自然。

四、结语

综上所述,将定量研究范式运用于社会科学研究之中,在数据质量与代表性、前提假设和因果模型等方面皆存在很多难以解决的问题。由于这些问题的存在,使得社会科学定量研究的科学性高度存疑,从而导致近年来定量研究主导之下的社会科学研究表面看来一片繁荣,却鲜有原创性和轰动性的研究成果诞生。因此,社会科学的未来发展,必须走出传统的以调查法为主导的定量研究范式的窠臼,通过定量研究范式的创新、定性研究范式的复兴以及大数据的运用,重构社会科学研究的新范式。

首先,传统的社会科学定量研究以调查法为主,获取的是观察型数据,从而使得数据质量与前提假设难以得到保证。加上在现代社会中,由于诚信的缺失,人口流动性增加,社会变得越来越复杂等,使得抽样调查变得越来越困难。将自然科学研究中的实验法引入社会科学,既为中国实践中早已存在的“实验理念”进一步提炼成更具规范性的实验性操作方法带来机遇,也为社会科学因果机制探索提供了新的方法论工具。实验法不仅可以在一定程度上克服调查法在数据质量和前提假设方面的问题和不足,而且能够加深对行动过程的理解和认识,获取更多的个体层面的互动信息。中国发展、转型与崛起的宏大历史进程,无疑为人类社会共同面对的诸多关键性挑战和议题,包括经济持续增长、科技造福人类、社会转型与现代化、城镇化等提供了有史以来的最大范围的、独一无二的社会实验场景。因此,无论是从必要性还是可行性上来说,我们都应该对社会科学定量研究的具体方法进行重新认识,伴随量化技术和控制手段的不断提高与改进,越来越多地引入实验法来弥补调查法的不足,把社会科学定量研究从过去的原子化和准行为主义的变量分析中解放出来。总之,实验方法可以解决诸如行动逻辑、互动结构等等在传统非实验研究中不能解决的问题,虽然很多社会现象目前看来还难以进行实验研究,但这类方法在社会学领域的应用也仅仅是时间问题。

其次,社会科学在开展定量研究的同时,也要加强对定性研究的重视。任何事物都具有质与量两个方面的规定性,定性分析就是对研究对象进行“质”的方面的分析,所以定性分析对社会科学研究而言也是不可缺少的。定量研究与定性研究代表着科学研究中两种不同类型的研究范式,本身并无明显的优劣之分。它们之间的差别仅仅是风格和方法论上的不同,无论采用定量方法还是定性方法,所有高质量的研究所依赖的逻辑都是相同的,基于两种方法的研究都是系统和科学的工作。社会科学的科学性并不取决于研究资料是数据资料还是文字资料,是对研究资料进行统计分析还是事实深描,而是取决于最终的研究结果能否揭示真正的社会机制和社会事实。无论是定性研究方式,还是定量研究方式,或是二者结合的方式,选择的标准都只有一个,这就是回答研究的问题的合适性,即应该选择和采用最为合适的研究方式,来达到研究目标和最好的研究效果。也就是说,社会科学研究应当从工具理性走向价值理性,甚或应该是兼顾工具理性与价值理性,不以研究范式作为研究好坏的唯一标准,而以研究结果作为研究成败的主要依据。事实上,定量化、精确化并不能保证研究的可靠性、有效性、客观性等科学性的基本要求,即定量化、精确化不等于科学化,自然科学定量研究中对自然现象的测量尚且还有測不准的时候,对于以错综复杂的社会现象作为研究对象的社会科学而言就更是如此。生活世界的不同面向和维度之间是相互关联的,构成社会事实的统一整体,不同类型的方法只能着重把握某一个或某几个面向和维度,只有将不同类型方法综合起来使用,才能使我们全面深入地了解社会事实。因此,在社会科学研究中,要跳出定量研究与定性研究二元论的框架,超越关于定量研究与定性研究孰优孰劣的简单争论,根据不同的研究对象和研究内容选择恰当的研究范式,以促进社会科学研究整体质量和水平的提高。

最后,虽然定量研究范式在数据质量及其代表性、前提假设、因果模型等方面存在很多问题,但定性研究范式在反事实、控制变量和文本等方面也存在无法克服的缺陷。因此,社会科学研究中一直存在定性研究范式和定量研究范式之争,秉承不同学术偏好的研究者形成了相互对立的两大阵营,相互攻讦,却始终未能达成共识、形成定论。大数据为社会科学重新发现社会历史发展规律提供了可能性,对传统的定量研究和定性研究均造成了巨大的冲击,更为定量研究的方法更新与变革带来不可多得的机遇。大数据时代的到来使得社会科学研究在信息获取、问题挖掘、研究方法等方面达到了新的高度,形成了一个介于定量研究和定性研究之间的混合地带,在一定程度上弥补了定量研究和定性研究各自的缺陷和不足。对定性研究者而言,大数据可以通过海量规模的样本直接发现和展示出社会现象的规律,既不需要控制变量来检验关联,又能避免定性方法在案例选择方面的样本偏差,对定量研究者而言,由于数据的海量性甚至全样本的性质,一旦把基于大数据的简单关联分析或时间序列分析结果与文献中的传统回归分析进行比对,就能形成非常具有说服力的证据链。由此可见,大数据给社会科学研究带来了新的希望和契机。在大数据时代,社会科学研究将凸显出数据驱动的特点,传统研究方法及研究范式将被重塑和再造,社会科学研究的实践向度将逐渐从经验研究转向真实研究、个案研究转向全面研究、断面研究转向交叉研究、表面研究转向深度研究。当然,就目前而言,大数据分析方法还在建立过程中,而且大数据较难获得,一般人尚缺少大数据分析的基础知识,很难对大数据进行分析。但是可以预见,在不久的将来,随着大数据分析方法越来越完善,大数据的获取越来越便捷,越来越多的人掌握了大数据分析的知识和技术,传统的定量研究范式和定性研究范式终将被大数据分析所解构,二者必将会从对立走向统一,从而重构社会科学研究的新范式。

① 加里·格尔茨、詹姆斯·马奥尼:《两种传承:社会科学中的定性与定量研究》,刘军译,上海:格致出版社,2016年,第2页。

② 风笑天:《社会学研究方法》,北京:中国人民大学出版社,2009年,第13页。

③ 陈云松、吴青熹、黄超:《大数据何以重构社会科学》,《新疆师范大学学报》(哲学社会科学版)2015年第3期。

④ 朱天飚:《〈社会科学中的研究设计〉与定性研究》,《公共行政评论》2015年第4期。

⑤ Duncan, O.D., Notes on Social Measurement: Historical and Critical, New York: Russell Sage Foundation, 1984, p.226.

⑥ 王晓森、殷杰:《社会科学的自然主义进路何以可能——兼论塞尔的解决方案》,《科学技术哲学研究》2016年第5期。

⑦ 乔晓春:《中国社会科学离科学有多远》,北京:北京大学出版社,2017年,第183、200、208、224页。

⑧ 杰克·莱文、詹姆斯·艾伦·福克斯:《社会研究中的基础统计学》,王卫东译,北京:中国人民大学出版社,2008年,第168页。

⑨ 刘润泽、巩宜萱:《回顾与反思:定量研究在公共管理学科的滥用》,《公共管理学报》2020年第1期。

⑩ 刘林平、范长煜、王娅:《被访者驱动抽样在农民工调查中的应用:实践与评估》,《社会学研究》2015年第2期。

谢宇:《社会学方法与定量研究》,北京:社会科学文献出版社,2012年,第58、23、29、51页。

邱忠霞、胡伟:《我国社会科学定量研究方法问题的反思》,《学术论坛》2016年第11期。

彼得·赫斯特洛姆:《解析社会:分析社会学原理》,陈云松、范晓光、朱彦等译,南京:南京大学出版社,2010年,第158、68、81、25、112、161页。

Freedman D, Collier D, Sekhon J S, et al. Statistical Models and Causal Inference: a Dialogue with the Social Sciences, Cambridge: Cambridge University Press, 2010, pp.30-31.

陈启达:《定性研究与定量研究相结合——国际问题研究方法之一》,《现代国际关系》1999年第8期。

郑丹丹:《想象力与确定性——个案与定量研究的关系辨析》,《求索》2020年第1期。

孙小礼:《方法的比较:研究自然与研究社会》,北京:北京大学出版社,1991年,第11页。

Goldthorpe J H., “Sociology as Social Science and Cameral Sociology,”European Sociological Review, no.20, 2004, pp.97-105.

葛傳红:《西方政治学界对于“定量霸权”的反思与批判》,《国际政治研究》2019年第1期。

祁玲玲:《定量与定性之辩:美国政治学研究方法的融合趋势》,《国外社会科学》2016年第4期。

臧雷振:《社会科学研究中实验方法的应用与反思——以政治学科为例》,《中国人民大学学报》2016年第5期。

李强:《实验社会科学:以实验政治学的应用为例》,《清华大学学报》(哲学社会科学版)2016年第4期。

张彦:《论社会研究的定性分析方法及其建构》,《晋阳学刊》2018年第1期。

加里·金、罗伯特·基欧汉、悉尼·维巴:《社会科学中的研究设计》,陈硕译,上海:格致出版社,2014年,第3页。

风笑天:《定性研究与定量研究的差别及其结合》,《江苏行政学院学报》2017年第2期。

嘎日达:《关于社会科学中量化研究的深层思考》,《北京行政学院学报》2006年第3期。

盛智明:《超越定量与定性研究法之争——KKV对定性研究设计的启发》,《公共行政评论》2015年第4期。

刘林平:《反事实、控制变量和文本——对定性研究的反思》,《云南大学学报》(社会科学版)2014年第1期。

刘林平、蒋和超、李潇晓:《规律与因果:大数据对社会科学研究冲击之反思——以社会学为例》,《社会科学》2016年第9期。

孙秀林、陈华珊:《互联网与社会学定量研究》,《中国社会科学》2016年第7期。

倪万、唐锡光:《大数据应用于社会科学研究的价值与悖论》,《东南学术》2017年第4期。

陈潭、刘成:《大数据驱动社会科学研究的实践向度》,《学术界》2017年第7期。

章昌平、李大宇、林涛等:《第四研究范式:大数据驱动的社会科学研究转型》,《学海》2018年第2期。

(责任编辑:何 频)

猜你喜欢

数据质量
电子商务平台数据质量控制系统及仿真模型分析
基于大数据背景下提高供电局数据质量对策分析
强化统计执法提高数据质量
浅析统计数据质量
金融统计数据质量管理的国际借鉴与中国实践
浅谈统计数据质量控制
企业统计工作之我见
统计信用与统计数据质量研究