PubPeer有关中国学术论文的评论分析及思考

2022-12-20褚敬申

中国科技期刊研究 2022年11期

■褚敬申

上海交通大学医学院附属瑞金医院《诊断学理论与实践》编辑部，上海市黄浦区瑞金二路197号 200025

同行评议制度最早始于15世纪欧洲专利申请的查新[1]，长期以来国内外学术期刊普遍采取同行评议来规范出版形式、提高出版质量，在全球学术界有着深远的影响[2]。然而，传统学术同行评议面临诸多复杂的挑战，可大致分为几个方面。学术不端相关方面，投稿者可能存在利用评审专家推荐制度，提供虚假的审稿专家联系信息[3]，或借助第三方机构，利用出版系统的漏洞来操纵评审结论等[4]；创新及公平方面，对非共识的创新性项目不利，且缺乏有效的监督、反馈机制[5]等；效率方面，评议耗时长导致期刊发展水平落后于科研水平等。

面对诸多挑战，1982 年 Armstrong J．Scott 首次提出了“开放式同行评议”。开放同行评议过程相对透明，被认为可促进学术交流及减少学术不端行为的发生[6-8]。经过数十年的理论及实践发展，开放同行评议有多种模式，按评审的时间点，可分为出版前同行评议及出版后同行评议模式[9]。广义的出版后同行评议主要包括以下2种：(1)只采用出版后同行评议期刊的正式评议，如F1000Research采取的形式；(2)公众通过各种渠道对已发表论文进行的再评估和研究，具体形式包括给编辑写信，以及在同行评议网站、社交媒体上发表评论，如出版后开放同行评议网站PubPeer。出版后同行评议是全球开放获取运动中“开放、透明、公平”的理念由开放获取向论文发表后评论反馈延伸的具体形式[10]。2017年4月，施普林格·自然出版集团宣布撤回旗下《肿瘤生物学》期刊在2012年至2015年间发表的107篇论文,其中102篇论文被撤销的原因是同行评议造假。这些经“严格同行评议”的论文被撤稿，部分与出版后开放同行评议网站PubPeer上的读者评论监督有关。PubPeer是由美国神经病学家Brandon Stell于2012年筹备建立，该网站允许并鼓励拥有PubPeer账号的科研人员对已发表的论文进行匿名评论，而被评论者可回复、反驳、解释。基于“出版并非是科学研究的终点，而是起点”的当代理念，有学者认为出版后同行评议应该有着广阔的发展空间[11]。然而，出版后同行评议在理论和实践中都面临着诸多挑战，中西方学术界尚未形成统一的定义和模式。索传军等[12]在梳理国外期刊同行评议的创新态势后，就出版后同行评议的发展提出建议，认为我国应发展中文预印本平台及创办中文出版后同行评议期刊，但当前未有研究涉及我国出版后开放同行评议网站(以下简称“出版后开放网站”)的探讨及实施。该领域尚存在诸多研究空白，如现有的出版后开放网站在实现出版后公开评议的同时，我国论文被评论的原因构成如何，我国作者回复评议的动力如何，读者评论的水平如何，这些都是值得深入思考的问题。此外，作者对已发表论文被评论的实际接受态度及作者与评论者能否实现对等交流，这对开放出版的有效实施也十分重要。此前，虽然杜杏叶等[13]采用问卷调查的方式得出我国39.8%的作者同意其论文接受网站公开评审，但当前未见作者对出版后评论的实际接受态度的研究。分析这些空白点对我国是否有必要建设出版后开放网站及如何施行，具有重要的参考价值。

Web of Science统计数据显示，2012—2021年中国作者累计发表SCI论文达339.7万篇，而截至2021年2月，PubPeer上被评论的中国学术论文已达895篇，且其中部分作者对评论进行了回复。笔者尝试分析网站读者(或编者)评论的原因构成及特点，及作者对评论的回复动力、实际接受态度等，为出版后开放网站的具体实践提供参考。

1 研究对象及数据来源

PubPeer网站(https://pubpeer.com/)提供实时、动态更新的评论，截至2021年2月，该网站共有8万余篇被评论的论文。2019年6月至2021年2月，笔者在PubPeer网站搜索框内分别输入China或People′s Republic of China，动态收集中国作者的被评论论文，并于2021年2—4月逐条核实读者评论及确认作者回复信息，去除评论内容为0的论文70篇，将825篇论文及其1253条相关评论作为本文的研究对象。同期检索论文发表量居世界前列的美国(United States of America和USA)及英国(British 和UK)作者的论文及评论，分别有226篇(292条评论)、206篇论文(270条评论)，将它们作为本研究的对照。

2 研究方法

网站评论的本质为信息，故本研究采用信息分类原则[14]，先将信息按来源分为读者或编者评论(以下简称“读者评论”)和作者回复信息(图1)，再进行具体分析。

2.1 读者评论分析

使用信息分类原则，根据读者评论信息的特征(评论目的)进行分类,可分为4种：质疑类，目的为纠错；通告类，目的为告知论文的撤稿、更新或相关作者声明及其他网站的评论等消息；感想及推荐类(以下简称“感想类”)，为评论者对论文内容及观点表达个人想法、展望，甚至部分评论包括“congratulations”等问候用语；意义未明类，未能判断明确语义，即不属于以上3个类别。评论分类见图1。对于作者来自不同国家的同一篇论文，分别计入不同的国家，统计针对各国论文的评论类别构成，并总结针对我国论文的评论类别构成及分布特点。

图1 读者评论及作者回复评论的分类

质疑类评论的质疑主题内容有多元化表现，本研究以撤稿观察网站的撤稿原因(特征)为质疑主题,梳理、归类评论质疑原因。质疑类评论共涉及14个主题，包括全文、方法、图像、数据、定义、结论、语法、利益冲突、伦理、信息(软件、临床信息等)、参考文献、署名、邮箱及论文工厂。笔者在前期的分析中发现，多数质疑类评论仅针对以上提及的某一质疑主题(如图片)，但偶有一条评论对目的、方法等进行多角度评论，统计时分别归入不同的主题，并将质疑2个及以上主题的评论定义为复合质疑评论。统计各国作者被质疑频次居前三位的主题(高频质疑主题)及复合质疑评论的占比，并分析评论内容有较大提示意义的少见评论。

2.2 作者回复评论分析

本研究发现部分作者针对质疑类评论、感想类评论进行了回复。针对质疑类评论回复的态度，可根据作者的接受态度分为认可、否认及知晓(图1)。如同一条评论质疑不同的主题而作者接受态度不同，则可分别归入认可或不认可。本研究统计总体作者回复态度构成比及针对高频质疑主题的回复认可率，并简要分析认可、否认内容。

本研究同时统计评论者与作者的互动交流情况。对于质疑类评论，读者如就作者的回复进行再次评论，或作者有针对性地就同一位评论者有超过2次的回复，则定义为互动交流。本研究发现部分作者对读者的感想类评论有回复，回复1次及以上，即归为互动交流，并以此标准统计读者与作者互动交流的情况。

2.3 数据及统计处理

采用GraphPad Prism 7.0软件中的卡方处理对各国论文的评论分类构成比、复合质疑评论占比和作者针对质疑的接受态度进行比较，以P<0.05为差异有统计学意义。

3 结果与分析

3.1 读者评论的分类、分布及内容

3.1.1 评论分类构成及分布

中国被评论的论文有825篇，评论共计1253条，其中质疑类评论有1178条，涉及775篇论文，即93.9%的论文被质疑；美国被评论的论文有226篇，其中被质疑论文共96篇，即42.5%的论文被质疑；英国被评论的论文有206篇，其中140篇(68.0%)论文被质疑。我国的质疑评论构成比(94.0%)及被质疑论文构成比(93.9%)均显著高于美国(46.6%、42.5%)和英国(70.0%、68.0%)(P均<0.05)，而感想类、通告类评论构成比较低(表1)。此外，针对3个国家论文的评论中，有1.7%～5.0%的评论意义不明。

表1 读者评论信息及作者回复的构成

我国被评论的论文分布在317种期刊中，被质疑的论文分布在294种期刊上，所涉及的专业学科广泛，如昆虫学(Insects)、数学(Filomat)、计算机(Computers & Industrial Engineering)等学科期刊均有涉及，但多数为生物医学期刊。在我国被质疑论文分布最多的前10种期刊中，9种来自生物医学领域(表2)，7种期刊为我国高预警期刊[15]。美国及英国被评论的论文分布学科与我国类似，即也集中在生物医学领域。

表2 我国被质疑论文分布居前的期刊及相应论文数量

3.1.2 评论内容分析

由于质疑类评论占主导，故对其作进一步分析。各国居前3位的高频质疑主题见图2。可以看到，我国的高频质疑主题为图片、论文工厂、数据和结论(后二者并列)，美国为图片、数据和方法，英国为数据、结论和图片，三国均有图片，但略有不同。我国论文被质疑存在图片问题及论文工厂情况较为严重，在被质疑的论文中，69.9%的论文被认为存在图片问题(542/775)，显著高于美国(42.7%)和英国(20.0%)(P均<0.05)；12.6%(98/775)的论文被认为是论文工厂的“产品”，高于美国[4.0%(4/96)]及英国[0.7%(1/140)]，而数据被质疑的占比[11.9%(92/775)]低于英国[22.9%(32/140)]及美国[25.0%(24/96)](P均<0.05)。

图2 各国高频质疑主题及作者的回复认可(a)中国；(b)美国；(c)英国

针对中国论文的1178条质疑评论中，163条为复合评论,占13.8%，其中98条评论质疑论文存在“论文工厂+图片”问题(96条)及“论文工厂+数据”问题(2条)，另有65条评论质疑论文存在诸如“图片+数据”问题(32条)、 “图片+方法”问题(16条)、 “方法+数据+定义”问题(4条)。针对美国作者论文的136条质疑评论中，有9条复合质疑评论，占全部质疑评论的6.7%；针对英国作者论文的质疑评论中，有6条复合评论，占全部质疑评论的3.2%。我国的复合质疑评论占比高于英国和美国，但是如将针对“论文工厂+图片”的复合质疑评论去除，则为5.5%(65/1178)，与其他二者间没有差异。

针对中国论文的少见或特殊内容的评论分析如下：2条评论提示化学式已被更新，为近年学科的进步；2篇论文被质疑语法错误过多；1条评论质疑论文有3家单位，但只提供1家单位的伦理证明。针对美国作者的论文，有1条评论质疑利益冲突，同时该评论中展示了该论文多位作者收取药厂“咨询费”的金额。针对英国作者的论文，1篇科技论文的3条参考文献的链接为漫画，1篇论文的作者被质疑其同时也是编辑，1篇出现明显的排版错误。

3.2 作者回复分析

3.2.1 回复率及接受态度

针对质疑类评论，中国、美国和英国分别有20.9%(162/775)、43.8%(42/96)和22.1%(31/140)的作者进行了回复(表1)；针对感想类评论，分别有5.6%(1/18)、28.4%(19/67)和18.9%(7/37)的论文作者进行了回复。中国及英国作者对这两类评论的回复率均低于美国作者(P<0.05)。

分析作者对质疑类评论的总体接受态度(表2)，发现：在回复评论的作者中，中国、美国和英国作者认可质疑的百分比分别为64.8%(105/162)、71.4%(30/42)和64.5%(20/31)；否认质疑的比例分别为24.4%(40/162)、23.8%(10/42)和16.1%(5/31)，三者间差异均没有统计学意义。

各国高频质疑主题均有图片及数据，故对其进行比较分析。针对图片质疑的回复分析(图2)，中国、美国及英国作者对图片质疑评论的认可率分别16.2%(88/542)、39.0%(16/41)和46.4%(13/28)，我国作者认可率低于英美，但是在我国有回复的116篇论文中，除回复否认12篇及知晓16篇外，75.9%(88/116)的论文作者认可了质疑，高于美国及英国的回复者中的认可占比[48.5%(16/33)和56.5%(13/23)]。我国被质疑图片问题的论文中，有96篇同时涉及论文工厂质疑，但其中仅有1篇论文的作者回复“知晓”，英美作者分别有1篇、4篇被质疑论文工厂，但无作者回复。在针对数据质疑的评论中，我国作者认可数据质疑的占7.6%，介于美国与英国之间，三者间差异并不明显。

3.2.2 回复质疑评论的内容分析

在中国作者认可质疑的 105篇论文中，102篇论文的作者承诺核查错误原因，或承诺更正、更新、补充信息等；3篇论文作者承诺撤稿。17篇论文作者回复知晓，对评论内容未予认可或否认，但承诺将随后核实。在美国作者针对质疑而回复的42篇论文中，30篇论文作者认可了质疑。针对质疑评论，英国作者就31篇论文的质疑评论进行了回复，20篇论文作者认可了质疑。

在中国作者回复否认质疑的40篇论文中，13篇论文作者简要回复了否认，另有27篇解释原因，如：有3篇论文作者针对被质疑全文抄袭时，提出自己论文为先发表，应为他人抄袭等；有12篇论文作者认为不存在评论者认为的图片等问题。美国作者对10篇论文的质疑给予简单否认，其中2篇论文的作者声称要诉诸法律。英国作者否认了5篇论文的质疑，其中2篇论文作者认为数据不存在问题，并给出解释。

3.3 作者与读者的交流

在中国、美国、英国3个调查对象(国家)中，以论文数量为基数，分别有1.5%(12/825)、11.1%(25/226)和6.3%(13/206)的论文作者与评论者进行交流；以有回复的论文数量为基数，分别有7.4%(12/163)、41.0%(25/61)、34.2%(13/38)的作者与评论者进行了交流。中国作者与读者(编辑)的互动交流率低于美英二国，差异有统计学意义(P<0.05)。

4 讨论

本研究分析显示，PubPeer网站质疑类评论占主导(46.6%～94.0%)，提示当前该网站评论的主要功能在于监督、纠错，其次为信息交流(通告类)或学术交流(感想类)。虽然读者与作者交流互动率整体不高，但部分作者及读者具有交流需求。此外，网站复合质疑评论占比不高，即评论多针对某一个具体的简单问题，不涉及深入探讨，提示网站评论价值低于传统同行评议，但评论内容涉及极为广泛，且回复质疑评论的作者认可率在64.5%～71.4%，间接提示评论具有一定可信度，故其可作为论文出版后完善的补充、反馈。我国论文的相关评论及我国作者的行为反应具体有如下特点。

4.1 针对我国论文的评论分析

与英美作者论文的相关评论相比，我国作者论文的质疑评论构成比(94.0%)及相应的论文数量构成比(93.9%)显著较高，图片质疑及论文工厂质疑评论占比高。在542篇涉及图片质疑的论文中，17.8%(96/542)被质疑为论文工厂“产品”，这导致了复合质疑评论占比高，且这些被质疑论文集中分布的前10种期刊中，7种被列入我国各种高预警医学类期刊名单。

我国被质疑论文数量排名前10的期刊中9种为生物医学学科期刊，英国和美国被质疑的论文也有同样表现，这是因为PubPeer的注册用户是曾有论文被生物医学数据库PubMed收录的第一作者或通信作者，且生物医学论文的学术质量是近年的关注热点。这些被质疑论文集中分布在我国高预警期刊，间接提示网站评论具有一定预警作用及可信度。

图片及论文工厂是我国论文被质疑的前二位原因，且二者相伴出现。针对图片质疑，虽然75.9%(88/116)的回复者认可了质疑，但未回复者居多(78.6%)，尤其是针对“论文工厂+图片”质疑的回复更低。此外，笔者发现被质疑的图片问题形式多样，主要为图片重复(包括剽窃、镜像、比例变形、裁剪等)，计502篇，余为质疑图片存在错误(包括内容显示及颜色对比、背景修饰)及来源不可验证等。这502篇被质疑为图片重复的论文中，笔者统计发现30.6%被质疑为图片部分(不完整)重复，80.0%为整图(完整)重复；50.1%为图片自我重复(即被质疑图片与作者自己或同课题组成员已发表论文的图片重复)，66.6%为被质疑图片与他人已发表论文的图片重复，这提示不少论文同时存在自我重复及与他人图片重复，同时存在图片部分重复和整图重复，尤其部分图片重复、与他人图片重复，虽然其中有部分作者回复，但这委实很难以“图片误用”来解释。

PubPeer网站仅提供与搜索条件相关的近期280篇论文评论，但在笔者动态收集数据的近2年内，中国被评论的论文数量迅速增加，可见被评论论文数量呈迅速上升态势。截至2021年，我国已拥有人数最多的科研人员队伍(210万)，同时拥有世界第二并即将赶超美国的科研经费投入，我国作者发表的论文虽然不乏高质量佳作，但论文出版后在开放网站上被质疑的占比高，图片质疑构成比高，图片重复形式多样，尤其近1/5的图片涉及论文工厂质疑，凸显了学术造假的可能，而被质疑论文集中于部分高预警期刊，反映了第三方机构操纵审稿过程、集中投稿的可能。

4.2 我国作者对评论的反应分析

我国作者的回复率较美国作者低，互动交流率也较英美二国偏低，具体原因可能为作者主观上尚未重视已发表论文的反馈信息。此外，我国有17.8%涉及图片质疑的论文同时被质疑为论文工厂的产品，是英美作者论文相应质疑占比的5倍以上，而此类论文的回复率极低。笔者发现被质疑涉嫌论文工厂的98篇论文中，仅有1篇论文作者在确凿的“证据”面前回复为知晓，缺乏继续解释、交流的动力，这导致作者对图片质疑的整体回复率低，而图片又是我国论文被质疑的主要原因，故交流互动率被拉低。

我国作者针对质疑的认可率及否认率与英美二国的差异没有统计学意义。在我国作者否认的质疑评论中，3篇被质疑为全文抄袭的论文作者提出自己的论文为先发表，应为他人抄袭等，这是值得注意的反馈；此外，有12篇论文作者认为不存在评论者认为的图片重复情况等，此种情况如何确认，值得讨论。

4.3 我国实施出版后开放网站评议的思考

4.3.1 实施的必要性探讨

(1) 读者质疑评论分析结果提示我国学术界需重视生物医学论文的质量把关，尤其需采取切实手段对图片问题及论文工厂、第三方操纵的代写代发等问题进行治理。图片质疑评论内容分析凸显了论文造假的可能，目前虽然期刊编辑已经采取一些防范措施，如采用Photoshop 软件的Droplets 插件通过图片逆向还原技术进行图片检测等[16]，但显然不能取得理想的效果。而针对论文工厂及代写代发的牟利现象，我国治理层面始终处于“治而无力”的尴尬境地，如：论文代写代发，是道德问题还是非违法行为；流水线的论文工厂造假究竟由谁监管，对写手、中介、网站、期刊的监管主体也不同，因而涉及公安、市场监管、网信部门和新闻出版管理等机构，存在联合监管的责任真空。本研究分析出版后开放网站的质疑评论发现，图片问题在我国是被质疑的首要原因，较欧美国家的形势严峻，而这不同于我国论文被撤稿的主要原因是数据[17]，反映了网站读者有评论图片的偏好。相较于数据、结论质疑需复杂的辩论过程，网站有展示“图片”及链接的便利，具有纠错直观的优势，且从作者回复认可率较高来看，图片评论质疑内容可信度较高。虽然作者对“论文工厂+图片”质疑的回复率低，但在直观的展示下，他们仅能选择不回复。在我国当前的学术环境下，学术论文造假参与者的成本较欧美国家低[18]，出版伦理失范问题依然较为普遍[19]，且缺乏相应的监管治理手段，故从发挥网站评论在学术监督、图片纠错的优势来看，我国可以考虑实施出版后网站评议，可同时针对中文、英文期刊开放评价，以加强监督。

(2) 从完善出版的全流程角度看，网站评论具有反馈、补充价值，也是网站评议的优势。分析读者及作者评论，发现网站评论内容涉及广泛，共涉及14个质疑主题，如：2条评论提示沿用多年的化学式已被更新。这种纠错不受时空限制，可发挥群体智慧，弥补科学进步导致审稿“过时”的缺陷，同时也使更多的读者知晓该进步；部分评论反馈编辑就是作者、排版错误、文献链接错误等，反映了编辑工作中存在的不足。

(3) 网站提供的自由评议平台，可使出版参与者趋于共同的价值取向，从而推动公平、开放和共享的出版理念。本研究评论分析发现，虽然三国的作者与评论者交流互动率总体较低，但部分读者针对论文发表了祝贺及探讨，我国也有个别作者针对感想类评论作了一定回复，且与评论者进行了交流。长期以来，审稿者、作者、编者、读者缺乏共同的价值取向，导致个人行为异化而无法形成共同的价值取向，如作者仅想着论文发表，审稿者想着完成审稿，而此时读者的学术场景需求及观点被忽略[20]。哈贝马斯理论认为根本解决行为异化的方法就是促进主体间的交流[21]，而开放网站评论可重构读者、作者、编者和传统评审者间的公平平等关系，使他们的行为趋于共同的出版使命——推动社会或科学进步(利于创新)。故从出版监督、出版反馈及出版公平共享的角度来看，我国有必要探讨出版后开放网站评议的实施，以顺应当前构建开放科学趋势。

4.3.2 挑战及对策

李军纪等[22]认为出版后同行评议模式充分利用了多媒体融合出版技术，可能有很好的发展前景，但于淼等[11]总结了出版后同行评议期刊面临的挑战，如作者可能缺乏回应出版后的同行评议意见而缺乏修改、完善的动力；期刊编辑会因筛选适合发表的论文而工作量大幅度增加，筛选不力可能造成期刊声誉受损等，但是这些挑战是针对出版后同行评议期刊而言，不同于网站开放评论。

本研究分析出版后网站评论，发现实施此类开放网站评论存在如下挑战：(1)我国作者针对质疑的回复动力不足，约80%的作者没有回复；(2)作者否认的评论内容，部分看似合理，但少数评论可能发争议；(3)作者可能因评论受到不应有的名誉损害，如被质疑全文剽窃的作者指出自己的论文为首发，实为他人剽窃自己的作品等，即被质疑作者可能为受害者；(4)评论可能引发法律风险，如有作者针对评论提出要诉诸法律，另有评论者曝光作者姓名及收受“咨询费”的展示(https://pubpeer.com/publications / 9B436147CA66F3C60D7893386F489)，这样曝光是否合乎法律规范；(5)存在意义不明的评论，即无效评论；(6)系统性评论少，且评论时间随机。

从出版监督、出版公平共享、出版反馈的角度来看，我国是有实施出版后开放网站评议的必要，但应考虑存在的挑战，需谨慎施行，尤其应积极针对法律风险、评论争议探讨对策。笔者认为应对策略需结合我国作者的行为特点及我国出版现状，聚焦评论者的评论权限、评论用语的规范(如避免采用负面描述)，及构建作者、读者和编者之间有效的交流渠道。

5 结论

本研究总结了我国论文在出版后开放评议网站PubPeer被评论的原因构成，结果发现我国被质疑的论文占比高，针对图片问题及论文工厂问题的质疑突出，故提出在当前缺乏有效监督、反馈手段的情况下，有必要探讨出版后开放评议网站的实施策略，但需考虑作者回复率低、个别评论可能造成争议，甚至引发法律风险。本研究存在如下不足：首先，PubPeer网站上的评论为实时评论信息，本研究为横断面研究，仅能反映某一段时间的作者回复情况；其次，网站评论没有规范化格式，笔者凭借个人理解及关键词辅助定性，部分评论多为反问句，尤其是其中的改进建议可能会被分别归入质疑类与感想类，可能导致分类混淆。

开放同行评议制度作为一个新生事物，在实践及理论中均存在众多挑战，但出版开放乃是大趋势，所有参与者，包括研究人员、评议者、学术期刊编辑，均需要与时俱进、更新观念，并致力于完善出版全流程开放。我国研究者针对出版后开放网站实践的研究较少，期望今后能依据我国学术出版的国情及作者行为特点，就出版后开放网站评论的开放限度、开放风险、开放获益、开放与限制间的最佳平衡点等进行深入研究，以推进同行评议全流程开放的制度建设。