APP下载

心理学研究的可重复性“危机”:一些积极应对策略

2018-02-21霍涌泉陈文博解诗薇

心理学探新 2018年1期
关键词:样本量研究者偏差

刘 佳 霍涌泉 陈文博 解诗薇 王 静

(陕西师范大学心理学院,陕西省行为与认知神经科学重点实验室,西安 710062)

1 引言

有研究表明,心理学研究结果的可重复率不到50%(Open Science Collaboration,2015),这一令人担忧的学术现状近年来越来越多的受到各领域研究者及社会各界人士的关注(Lindsay,2015;Schooler,2014;Simmons,Nelson,& Simonsohn,2011;胡传鹏等,2016;仲晓波,2015)。该问题一经公开,便引起轩然大波,使得心理学研究的科学性遭到质疑(Pashler & Wagenmakers,2012)。一切科学研究都存在着不确定性,包括自然科学在内的实验研究也达不到完全的可重复性,如果将心理学与社会科学研究结果的可重复性作为主要指标,实际上也是一种非理性的行为。愈复杂的研究愈难以重复,无法完全重复是科学研究中的正常现象。排除人类心理与行为的复杂性及实验操作、环境等无关变量的影响作用,除个别学术不端行为,许多研究者可能并不清楚自己的一些惯例性操作会影响研究结果的可靠性程度。

目前在心理学研究过程中存在一个较为普遍的现象,就是研究者倾向于采用不同的收集方式和分析方法将数据以多种方式进行探索,并根据显著性结果加以选择性地报告,以便使研究结果更容易符合实验假设或理论预期。有研究者将这种系统性误差称为“机会性偏差”(opportunistic bias;Decoster & Sparks,2015),也有研究者考察了那些可能导致偏差的研究操作的普遍性(John,Loewenstein,& Prelec,2012)。比起教科书式单一且有完整定义的问题,实际情境中,研究者往往会收集与核心问题相关的许多信息,会进行更大范围的数据运算、检验更多种可能的假设。这些操作尽管让研究者更有可能发现统计效应,但同样可能会在实际上并没有发生效应时,得出一些显著性的结果或在实际上效应量较小的情况下得到较大的效应量,形成“假阳性”(Simmons,Nelson,& Simonsohn,2011)。这些探索过程很可能使得研究所评估的变量间关系与其真实值之间有所偏差。

可能导致偏差的操作并非只存在于一些低质量的研究中,而是很可能已被广泛应用于心理学研究的各个领域。John等人对2155位心理学研究者进行了调查,要求他们以匿名方式评估在10种可疑的研究操作上,自己或同事是否已经采取或未来可能会采取的可能性(John,Loewenstein,& Prelec,2012)。这10种研究行为包括8种偏差性的操作(如选择性报告实验条件、根据结果筛选数据等)和两种学术不端行为(故意误报结果、篡改数据)。结果显示,心理学研究者评估其同事已经实施或未来有可能实施的比例在15.6%(根据数据结果提前结束数据的收集)到63.4%(选择性报告研究变量)之间,而经贝叶斯校正后某些行为的评估甚至达到100%。鉴于大多数行为的估计比例都高于50%,该结果表明许多会导致偏差的操作很可能已经成为心理学研究者们普遍接受的常规做法了,其普遍性可见一斑。

不仅如此,偏差性操作的影响范围也非常广泛。不仅可能造成研究结果的可重复率变低,还有可能导致研究者过高估计已有结果的效应量大小、低估重复该结果所需的样本量等问题,而在已有的可能有偏差的结果上进行理论建构或进一步考察,则可能造成学术探索过程走更多弯路,降低研究效率。

2 偏差性操作的种类

由于研究者并没有意识到某些操作可能不够恰当(John et al.,2012),因此多数人并非故意违背学术道德采用这些方法来夸大自己的研究结果,而是仅仅将其视为数据探索或理论建构过程中十分平常的一个部分。为了更好地避免偏差性操作的使用,明确哪些方法可能不得当是十分必要的。

(1)无严格假设而进行大量数据分析

许多研究者可能在没有充分理论支持的情况下或在进行系统理论假设之前,在研究初期测量许多与兴趣点相关的变量,之后在数据分析时从检验结果中选择得到显著差异的或效应量最大的进行报告。

(2)采用不同测量范式检验同一假设

针对同一心理学变量,采用不同的范式或不同的测验进行测量或操作,即进行一系列概念性重复的实验,直到发现显著结果或较大效应量。假定该研究采用的方法在理论上都是有效的,每一种方法提供一个对关系的有效估计,那么,选择性的报告最大效应的结果就可能高估了这一关系的强度。

(3)采用多种方式进行数据转换

当变量的原有结构不能得出理想的结果时,研究者有时会对已有变量进行数据转换。例如对连续变量进行反转、求逻辑对数、开方等。若结果仍不理想,可采用其他方法重新转换。

(4)采用不同分析方法检验同一假设

同一批数据往往可用多种方法分析,具体采用哪种,原则上是由研究者来决定的。例如,比较两组数据在某个变量上是否存在差异,若可证明样本来源的总体正态分布,则可采用t检验分析;若不去证明数据是正态分布(即认为总体分布形态未知),则可采用曼惠特尼U检验。

(5)不科学的样本量确定方法

采用虚无假设显著性检验时,当结果得到较低的p值而不满足显著性水平时,研究者常通过增加被试量来提高得到显著结果的可能性。不少研究者认为,这样做可以“明确”那些边缘显著的结果;他们并不认为增加更多数据会从无到有的“产生出”一个显著结果。由于只在当p值“边缘显著”时采用这一方法,而在“边缘不显著”时则不采用,这种不平衡的矫正方式将使研究更易得到显著性结果。

(6)只重复检验与预期不符的结果

当研究者发现研究结果与其预期或假设不符时,常常会再次检验数据的分析过程,看是否由于统计错误、假设错误或有极端值而造成。尽管这种做法可以理解,但是只有当发现不符合预期的结果时进行重复检验,得到符合预期的结果时则不进行重复检验,这种做法会使得研究结果向符合预期的方向偏差。

以上研究操作都可能导致研究结果更符合预期。许多操作被研究者视为惯例,只是这一现象的表层原因,之所以采取这些措施,有一定的深层动机。有学者指出,获得同行和范例的认可,可能是研究者采取偏差性操作的深层原因(Alkhateeb,2016)。在当前的评价体系下,能够在优秀期刊上发表论文并得到广泛引用,就代表了一种学术界的认可,是对研究者科研能力的肯定。在这种获得认可的内部动机下,潜移默化的促使研究者采取一些偏差性的操作,进而影响了结果的客观性程度。

3 积极应对可重复性“危机”的策略

尽管许多可能降低研究可重复性的操作流程已被广泛接受和普遍使用,但并非所有的科研工作者都忽视了这种偏差性操作带来的问题,学者们已经提出一系列措施以加强心理学研究的可重复性,预防为主,修正为辅。

3.1 修正的方法

判断一个已有研究结果是否具有较高的可重复性,最直接的方法就是重复最初的研究,看是否能得到相同的结果(包括显著性水平和效应量)。通过重复已有研究,研究者可以验证已有的研究结果不是由于随机误差或是实验者偏差的影响所致(Schmidt,2009;仲晓波,2015)。

为强调成功重复已有研究的重要性及开展重复性研究,有研究者创办了开放科学中心,其目标包括考察心理学已有研究结果的可重复率、鉴别可能导致有效的结果无法复制的困难等(Reproducibility Project & the Psychology Group,2014)。近年来,我国学者也已开始关注该问题(陈巍,2014;朱滢,伍锡洪,2016),特别是胡传鹏等(2016)在“心理学研究中的可重复性问题:从危机到契机”一文中,不仅从问题的危急性及紧迫性考虑其对学科发展的不利影响,更是从加强研究可靠性及为其他学科提供借鉴的角度将其视为一个学科进步的契机。这些措施都将鼓励心理学人关注可重复性问题,进行高质量的重复研究。

也有学者提出,评估可重复性的指标可能需进一步明确。以往许多学者错误地将显著性p值看作是对可重复性的评估,而事实上置信区间更为恰当:置信区间的宽度越小,实验的可重复性就越高(仲晓波,2015)。

3.2 预防的措施

首先,提高研究的透明度和公开性。

近年来,国内外学者都积极倡导提高心理学研究的透明度和公开性(Gewin,2016),也有组织机构提供了开放研究资料的平台。目前,可以通过共享数据和研究材料、详细报告统计决策和分析方法等内容的方式提高研究的透明度,自觉避免偏差性操作(Simmons,Nelson,& Simonsohn,2012)。例如,开放科学中心近期开展了开放性科研框架,研究者可以在这里分享自己的研究材料、数据、统计方法等多种资料,并可发表验证性的研究结果(Spies & Nosek,2014)。

其次,完善虚无假设检验流程。

有研究者认为,正是由于虚无假设检验范式本身存在一些矛盾与争议(吕小康,2012,2014),才会导致使用该检验的研究结果出现偏差,因此应当避免使用现在被广泛应用的虚无假设检验方法,而更多采用贝叶斯分析、元分析等其他方法(Dienes,2011;郭春彦,朱滢,1997);但另有研究者认为,这其实是一种误解,造成可重复性问题的原因是对假设检验范式的使用不当造成,假设检验应该补充以其他的、定量的数据分析方法,或者和这些方法结合使用(仲晓波,黄希尧,万荣根,2008)。还有研究者系统总结了虚无假设检验的合理流程(吴艳,温忠麟,2011),认为可以通过先验检验力分析、区间估计及效应量分析更好的补充虚无假设检验的不足,提高可重复性。

第三,采用科学方法确定样本量大小。

实施多个小样本量的小型实验降低了成本,使研究者可以进行多个实验后选择性报告有显著结果的内容,再将这些结果作为最初假设即可(Schimmack,2012)。因此,应当适当增大研究的样本量,以降低上述可能。当然,这种增大也应在合理范围,需根据检验效力、Ⅰ类错误发生率α及Ⅱ类错误发生率β等进行估算(吴艳,温忠麟,2011),不能毫无限制。因为过大的样本量更容易得到显著结果,很可能使无差异的统计结果“变成”差异显著(焦璨,张敏强,2014;吕小康,2014)。

无论是外部监控还是思想的监控,都具有隐蔽性的特征。正是由于这种隐蔽性和不确定性,使得这些被监控者更加自觉地约束自己的行为和思想。由于电幕的存在,温斯顿要时时刻刻控制自己的面部表情;他跟乔丽亚见面要不断地变换场所和交通线路。由于思想警察的存在,他们要保证自己的思想紧紧向党国靠拢。正是在这种隐蔽性的监视下,这些被监控者们必须时刻注意规束自身的行为和思想,不然随时有被逮捕的风险。他们必须配合党的一切要求,完善行为,改造思想。

目前可以采用 G-power 等软件,在开展研究之前根据先前研究的效应量大小、α值、效应量和统计检验力(通常为0.8)计算当前研究所需的样本量大小。

第四,专业人士的积极引领。

由于许多研究者可能并不知晓一些研究流程有造成偏差的可能性,因此传播相关知识和信息是做出相应改变的第一步,目前还需更多同行及专业人士参与进来。

心理学界专业人士可利用其学术地位及影响力,对论文的发表标准、项目审批过程等给予清晰指导,或通过发表有影响力的论文、开展关于方法和统计的课程、学术报告或公开演讲等方式传播具体知识,积极引领、指导其他学者对该问题的重视及修正。

目前,朱滢就已两次发文积极关注可重复性问题,倡导提高学术公开性及开放性(朱滢,2016;朱滢,伍锡洪,2016)。而2016年10月于西安举行的“第十九届全国心理学学术会议”的“加强心理学研究的可重复性工作坊”中,几位学者从国际上关于研究标准的争议及变化、加强可重复性的知识与技能等方面展开讨论,为提高我国心理学研究的可重复性一同努力。

最后,专业期刊的共同努力。

论文是否得到发表往往是一项研究是否成功的评判标准,为了提高心理学研究的可重复性,专业期刊的助力必不可少。尤其是那些有较高影响力的专业期刊,常常反映着行业内的热点问题、实验范式及研究规范,如果能够从投稿要求等入手进行变革,将发挥巨大作用。

(1)完善投稿要求,减少可能存在偏差性操作的论文发表。

通过完善投稿标准,强制性要求采用更为客观的研究流程,可排除一些可能存在偏差操作的论文。首先,可要求研究者公开完整的研究流程、材料及数据分析过程,如 SSCI 期刊《Psychological Science》的投稿要求中指出,作者必须在文中报告剔除极端值的标准、所分析的全部因变量、测量方法、样本量大小及数据收集规则等(Eich,2014)。其次,期刊还需注意避免可能由于虚无假设检验结果不完善而导致的偏差问题,要求报告效果量、置信区间等统计指标,据此对虚无假设检验提供理论上与技术上的完善(吴艳,温忠麟,2011;郑昊敏,温忠麟,吴艳,2011)。如我国心理学权威期刊《心理学报》、《心理科学》都已在投稿前的“自检报告”中明确要求报告参数检验的效果量指标,该指标是对p值的有效补充。

(2)以研究设计而非结果作为审稿的重要指标。

焦璨和张敏强(2014)认为,由于研究者们较少关注虚无假设检验的使用边界,导致只有那些得到显著性结果的论文有更多发表机会,而未得到显著性结论的便被束之高阁。因此,期刊杂志应根据研究设计评估其是否达到发表标准,基于理论建构、测量范式及其数据分析方法的可行性判断,并充分考虑那些未得到显著结果的论文(Van Assen,Van Aert,Nuijten,& Wicherts,2014;焦璨,张敏强,2014)。

尽管在这方面还需做出更多努力,但仍然可看到一些积极尝试。国内核心期刊《心理科学进展》目前就设有“研究构想”专栏,专门刊登“当年或前一年获得资助的国家自然科学基金或其他重大研究项目”的研究设计及研究计划,根据设计对整个研究进行考评。

总体来看,为加强心理学研究的可重复性问题,研究者可从多方面努力。在前期梳理研究思路时,应尽量以那些更为可靠的已有研究作为依据。目前可以运用一些统计分析方法(如元分析等)或通过重复已有研究来检验已有研究的可靠性。而正式开展实验之前,应事先确定样本量大小和数据分析方法等具体操作,并将相关内容进行公开,以保证未来研究不受已收集到的数据结果的影响。在得到数据的分析结果后,则应当保证对结果的适当解释,不夸大、不过度,避免得出倾向于显著性结果或符合预期的偏见性结论。

4 结论

可重复性问题是心理学研究中的正常现象,基于心理现象的特征和研究过程的复杂性,将其称为“危机”略有言重,但是,仍有些已被当作常规做法的偏差性操作会影响可重复性,若不重视解决,有可能影响整个学科的研究质量。影响可重复性的偏差性操作主要包括:无假设的进行大量数据分析、采用多种范式及测验、采用多种数据转换方式及数据分析方法进行统计检验,之后选择性地报告研究结果,抑或根据得到的数据结果决定样本量大小、在得到不符合预期的结果时重复进行检验等操作。提高研究的可重复性,需要每一位研究者做出努力,通过提高研究透明度和公开性、完善虚无假设检验流程、适当增大样本量等措施积极预防,同时也需要专业人士的积极引领及专业期刊的共同努力,并可通过重复已有研究对原有的受到偏差影响的研究结果进行一定程度的修正。

归根结底,可重复性问题的出现并不是研究者的故意行为,也并非由于学术训练上的缺失,最重要的是整个科学界过度追求同行学者的认同所导致(Alkhateeb,2016)。因此,提高可重复性的终极解决办法是研究传统的调整,是学科文化的革新,更是科研质量评价体系的变革。改变显然需要相当长的一段时间,绝非易事,需要每一位研究者的协心同力。在严格质量标准的前提下,尽量民主、公正,以开放的心态接受不同的观点和声音。学科评价程序不宜像现在一样单一化、刚性化。所有学者、专业人士及专业组织需要共同营造开放的学术氛围,鼓励并倡导研究内容、过程及材料的公开与透明,共同提高心理学研究的可重复性。

陈巍.(2014).可重复性:盘旋在具身认知实验室上方的“幽灵”.心理技术与应用,(1),23-25.

郭春彦,朱滢.(1997).传统统计方法面临的挑战:元分析方法.心理学报,29(2),130-136.

胡传鹏,王非,过继成思,宋梦迪,隋洁,彭凯平.(2016).心理学研究中的可重复性问题:从危机到契机.心理科学进展,24(9),1504-1518.

焦璨,张敏强.(2014).迷失的边界:心理学虚无假设检验方法探究.中国社会科学,(2),148-163.

吕小康.(2012).Fisher与Neyman-Pearson的分歧与心理统计中的假设检验争议.心理科学,35(6),1502-1506.

吕小康.(2014).从工具到范式:假设检验争议的知识社会学反思.社会,35(6),216-236.

吴艳,温忠麟.(2011).与零假设检验有关的统计分析流程.心理科学,34(1),230-234.

郑昊敏,温忠麟,吴艳.(2011).心理学常用效应量的选用与分析.心理科学进展,19(12),1868-1878.

仲晓波.(2015).心理学实验的可重复性.心理科学,38(4),807-812.

仲晓波,黄希尧,万荣根.(2008).心理学中对假设检验一些批评的分析.心理科学,31(4),1010-1013.

朱滢.(2016).“开放科学数据共享软件共享”,你准备好了吗?心理科学进展,(6),995-996.

朱滢,伍锡洪.(2016).《科学》和《自然》杂志2015年的两篇心理学文章.心理科学,38(2),474-478.

Alkhateeb,A.(2016).Weshouldnotacceptscientificresultsthathavenotbeenrepeated.Retrieved from.http://nautil.us/blog/we-should-not-accept-scientific-results-that-have-not-been-repeated.

Decoster,J.,Sparks,E.A.,Sparks,J.C.,Sparks,G.G.,& Sparks,C.W.(2015).Opportunistic biases:Their origins,effects,and an integrated solution.AmericanPsychologist,70(6),499-514.

Dienes,Z.(2011).Bayesian versus orthodox statistics:Which side are you on?PerspectivesonPsychologicalScience,6(3),274-290.

Eich,E.(2014).Business not as usual.PsychologicalScience,25(1),3-6.

Gewin,V.(2016).Data sharing:An open mind on open data.Nature,529(7584),117-119.

John,L.K.,Loewenstein,G.,& Prelec,D.(2012).Measuring the prevalence of questionable research practices with incentives for truth telling.PsychologicalScience,23(5),524-532.

Lindsay,D.S.(2015).Replication in psychological science.PsychologicalScience,26(12),1827-1832.

Open Science Collaboration.(2015).Estimating the reproducibility of psychological science.Science,349(6251),aac4716.

Pashler,H.,& Wagenmakers,E.J.(2012).Editors’ Introduction to the special section on replicability in psychological science:A crisis of confidence?PerspectivesonPsychologicalScience,7(6),528-530.

Reproducibility Project & the Psychology Group.(2014).ReproducibilityProject:Psychology.

Schimmack,U.(2012).The ironic effect of significant results on the credibility of multiple-study articles.PsychologicalMethods,17(4),551-566.

Schmidt,S.(2009).Shall we really do it again?The powerful concept of replication is neglected in the social sciences.ReviewofGeneralPsychology,13(2),90-100.

Schooler,J.W.(2014).Metascience could rescue the ’replication crisis’.Nature, 515(7525),9.

Simmons,J.P.,Nelson,L.D.,& Simonsohn,U.(2011).False-positive psychology undisclosed flexibility in data collection and analysis allows presenting anything as significant.PsychologicalScience,22(11),1359-1366.

Simmons,J.P.,Nelson,L.D.,& Simonsohn,U.(2012).A21WordSolution.http://dx.doi.org/10.2139/ssrn.2160588.

Spies,J.,& Nosek,B.(2014).Openscienceframework.Retrieved http://open science framework.org/

Van Assen,M.A.,van Aert,R.C.,Nuijten,M.B.,& Wicherts,J.M.(2014).Why publishing everything is more effective than selective publishing of statistically significant results.PlosOne,9(1),e84896.

猜你喜欢

样本量研究者偏差
医学研究中样本量的选择
高等教育中的学生成为研究者及其启示
如何走出文章立意偏差的误区
两矩形上的全偏差
样本量估计及其在nQuery和SAS软件上的实现*——均数比较(十一)
研究者称,经CRISPR技术编辑过的双胞胎已出生。科学将如何回应?
研究者调查数据统计
关于均数与偏差
医生注定是研究者
样本量估计及其在nQuery和SAS软件上的实现——均数比较(二)