CNKI学术不端文献检索系统的完善

2012-04-12张亘稼

陕西开放大学学报 2012年1期

张亘稼

(西安石油大学期刊中心，陕西西安 710075)

引言

科技期刊编辑在日常的审稿过程中，面对大量来稿，尤其是在国内学术不端问题泛滥的情况下，初审稿件仅仅依靠编辑人员的专业知识及经验还远远不够，为保证初审稿件质量，科技期刊编辑一般需对稿件进行专门检测。目前常见的文献检测软件有国外的TURNITIN、CROSSCHECK、MYDROPBOX以及国内的ROST反剽窃 (文档相似性检测)系统、CNKI学术不端文献检测系统等软件。［1］而国内科技期刊大多使用CNKI学术不端文献检测系统，从实用的效果看，该系统获得业内人士一致好评，其便利性、迅捷性、准确性显而易见。康劲研究得出如下结论:CNKI学术不端文献检索系统较国内外同类系统优势明显。［1］可以说，CNKI学术不端文献检索系统为科技期刊编辑提供了遏制学术腐败的有力武器。然而，我国高校研究学生，没将精力用在论文写作上，而是用在了如何让反反剽窃的研究上，并总结出各种应对反剽窃的秘籍，如知网的论文反抄袭检测系统的算法与修改秘笈等，练就并掌握了各样论文反反抄袭检测修改技巧。笔者旨在对此问题进行归类并加以分析，以期提出相应的治理措施。

一、反反抄袭检测修改技巧

笔者通过实际调查结合网络调查方法，收集、整理了反反抄袭检测的方法及手段。

1.技巧一，外文文献翻译法。

原理:知网论文反抄袭检测系统和万方数据的系统都不收录外文资料。方法:查阅研究领域外文文献，特别是高水平期刊的文献，比如Science，Nature，ES＆T，Water Res等，将其中的理论讲解翻译成中文，放在自己的论文中。缺点:这种方法对英语水平有很高要求，不过，英语一般的同学也有自己的“门道”。有些同学付钱给学校里英语专业的研究生，请他们对自己的“双语论文”全程把关。很多学校的墙上贴着这种小广告，英语专业的学生为人操刀论文，价格也不菲，少则几百元多则上千元。

2.技巧二，改写法。

原理:不管是什么系统，都只能按一定数量的文字是否相同来检测是否为抄袭，无法做到语义分析，因此，我们又总结出来新的修改秘笈。方法:将别人论文里的文字，或按照意思重写，或变换句式结构，更改主被动语态，或更换关键词。缺点:费时费力，在这个时间就是金钱的社会，大部分同学能抽出来写论文的时间也就是几天而已，这样有点太没效率了。

例1:原句:过热故障中的过热与变压器正常运行下的发热是有区别的，正常运行时的其发热源来自于绕组和铁芯，即铜损和铁损，而变压器过热故障是由于受到有效热应力而造成的绝缘加速劣化，它具有中等水平的能量密度。

修改句:过热故障中出现的过热容易与变压器正常运行下的发热相混淆，后者是因为其绕组和铁芯会出现铜损和铁损的现象，这是正常运行过程中的发热，而变压器过热故障是受到有效热应力造成的绝缘加速劣化。

例2:原句:在透明水杯的清水中放入少量纤维进行搅动，便可以直观地发现纤维呈立体悬浮状乱向分散，且长时间放置都不会有太大变化，说明合成纤维的质量较好;质量差的纤维经搅动后可能分散，但时隔不久便会上浮为一絮状层。质量差的纤维在混凝土的实际配制过程中多不易均匀分散。

修改句:将少量纤维放入盛装清水的透明容器中，边搅动边观察纤维变化情况，如果合成纤维质量较好，那么就可以直观地看到纤维呈立体悬浮状分散，随着时间的推移，位置也不会发生明显的变化;若合成纤维质量较差，那么搅动的过程中，纤维可能分散，并且容易上浮形成絮状层。质量差的纤维在混凝土的实际配制过程中多不易均匀分散。

由此可见，科技论文造假者，在保证修改后句子通顺的前提下，尽量和原句在字面上保持不同。

3.技巧三:google翻译法。

原理:跟技巧二差不多，用翻译软件将语句多次翻译后，语句结构，表达方式大不同，就算检测系统再NB，也查不出来的。方法:将别人论文里的文字，用google翻译成英文，再翻译回来，句式和结构就会发生改变，再自行修改语病后，即可顺利躲过查重。复杂点可将文字翻译成英文，再翻译成日文，然后再翻译回来。只要你愿意，可以随意发挥。缺点:跟技巧二差不错，需要较大的修改，有的话是一点都不通顺的，需要一句一句的修改。

4.技巧四:转换图片法。

原理:知网的系统只能检测文字，对图片和表格则无法识别，常用的做法:将别人论文里的文字，截成图片，放在自己的论文里。缺点:只能少量的用，如果你的论文里有大量的文字图片，就可通过了系统检测。

技巧五:抄书。原理:不管是中国知网，还是万方的论文反抄袭检测系统，哪家公司也没有收录书籍。当然，前提是书籍上的东西在网上是找不到的，因为找得到的基本都被收录了。［2］

二、CNKI学术不端文献检索系统设计原理及漏洞

1.CNKI学术不端文献检索系统设计原理。

CNKI学术不端文献检索系统是指利用全文文献为比对资源，通过软件全面检测学术不端行为的系统，该系统由CNKI(国家知识基础设施工程)于2009年研发成功，功能类似的还有武汉大学信息管理学院开发的“ROST反剽窃系统”。

ROST反剽窃系统的工作原理。反剽窃软件自动将目标文档切割为多个小文本，分解成一个个句子、提取信息指纹进行检测。通过混合引擎将其与相关网页和490万篇文献进行模糊匹配，标示出每个文本块与文献库中的某些文献的最大相似度，并统计出上述两者之间的相似字数所占总字数的比例。相似度大于或等于一个公认值，则可认定为抄袭。据了解，该系统根据重合字符数量与文字复制比例，检测结果分为轻度句子抄袭、句子抄袭、轻度段落抄袭、段落抄袭、整体抄袭等5个类别。此外，还有针对数据篡改、内容伪造、引用杜撰等方面的多个检测指标。

2.CNKI学术不端文献检索系统漏洞。

(1)知网的论文反抄袭检测系统不收录外文资料。

(2)按一定数量的文字是否相同来检测是否为抄袭，无法做到语义分析。“学术不端检测仪”从2009年3月起在国内部分高校研究生院开始使用。该系统在每一次检测过程中，待检文章首先按照篇章、段落、句子等层级分层处理，然后创建指纹。指纹即语言的特征，就好像每个人说话的口头禅，之后比对数据库中的比对文献。

(3)只能检测文字，对图片和表格无法检测。汉字是世界上历史最悠久的文字之一。汉字能够历久不衰，汉字数量繁多，字形结构复杂;汉字具有一定的超时空性。汉语的词类可分成的名词、动词、形容词、副词等类别［3］。句子成分包括主语、谓语、宾语、定语、状语、补语等成分。汉语词类和句子成分之间不存在一对一的关系是汉语语法的一个特点。汉语语法是缺乏严格意义的形态变化的，语序和虚词是十分重要的语法手段，因此，汉语语法研究自然就把重点放在句法特别是虚词方面。这样，虚词的研究当然就成了就是将论文和数据库进行比对，根据其重合处的比例，判断该论文是否存在抄袭行为。由于CNKI论文反抄袭检测系统就是将论文和数据库进行比对，根据其重合处的比例，判断该论文是否存在抄袭行为。［4］300字是一个大概值，并非临界值。可见，引用的数量越低，就越不容易被检测出来。更新以后的CNKI学术不端检测系统将这一阀值调整到了3%，以前是5%，意味着检测系统对引用的要求更加严格，但运用我们后面提到的方法也不是很难，具有中等水平的能力密度。而科技期刊论文中大量使用公式、符号，用以准确表达复杂的概念，照片，不仅节省了大量文字说明，有时可起到文字表达无法表达的内容，具有直观、形象的特点。但CNKI学术不端文献检索系统因功能问题对此无法识别。进而影响检测效果。

(4)抄袭标准没有明确界定。目前，我国没相关的法律对此类型未进行规范，更没有制定抄袭的具体判定标准，于是，各高校、各科研学术机构各自为政，制定自己的判断抄袭的判断标准。据笔者调查得知:在通常情况下，各高校将这个重合比的限度定为25%～30%。若经过检测发现某篇论文的文字重合比超过规定的范围，论文就会被提交至该校学术委员会，由它们据此来判定论文是否存在抄袭行为。［4］显然，这一标准太笼统，对社科论文与科技论文、综述类论文和研究型论文来说，如果简单、机械地用文字重合率为标准来铺安定论文作者是否抄袭，会造成新的不公平，因为对于社科类的综述性论文来说，其研究是在梳理前人研究成果的基础上，总结前人成果，分析其方法，探讨其存在的问题，提出今后需要进一步研究的问题等，所以，此类论文引用文献占有较高的比重。

三、弥补CNKI学术不端文献检索系统不足的建议

1.增加参考文献真伪甄别系统

在现有CNKI学术不端文献检索系统的基础上，进一步完善其功能，增加“科技论创新点比对数据库”和“科技论文审读系统”等质量检测系统，实现系统升级，进而克服其简单地进行文字比对，计算重复率，以此来甄别是否剽窃的弊端。参考文献是论文或著作等写作过程中参考过的文献。参考文献是在学术研究过程中，对某一著作或论文的整体的参考或借鉴。参考文献是编辑校对工作一部分，主要内容一是核查作者引用的参考文献是否真实存在，有无真伪;二是检查、改正标著不正确、不规范的参考文献。目前，CNKI学术不端文献检索系统检测中虽然能检测出论文中引文的文献源，但显示结果不够清楚、直观。另外，没有对原文的参考文献真伪作为判定。因为，如原文后列有的参考文献与检测出的参考文献有较大出入者，应视为学术不端，应予以否认。建议CNKI学术不端文献检索系统研究开发此功能。

2.增加注释文献真伪甄别系统。

按照GB/T 7714－2005《文后参考文献著录规则》的定义，文后参考文献是指:“为撰写或编辑论文和著作而引用的有关文献信息资源。”［5］注释是对已有作品中的词语、内容引文、出处等所作的说明，也就是一种讲解。注释一般是针对作品的疑难处来进行说明，目的在于能使人们更准确、更完整地理解作品。注释需要注释者去搜集资料，进行考证、推敲、理解吃透原作品，其中包含注释者大量的创作劳动。对于注释部分，注者应当享有著作权。注释他人作品，应当取得著作权人的同意，并且无权限制他人对同一作品进行新的注释。因为征引过的文献在注释中已注明，不再出现于文后参考文献中。故注释不在CNKI学术不端文献检测系统检测范围之内。而注释文献是作者写作重要的素材，其真伪、准确性是影响科技论文质量构成的因素，建议在CNKI学术不端文献检测系统增加此功能。

3.充分发挥编辑的能动性。

汉字数量繁多、字形结构复杂;汉语的词类多样，句子成分纷繁，且汉语词类和句子成分之间不存在一对一的关系。而汉语语法又缺乏严格意义的形态变化，语序和虚词是十分重要的语法手段丰富。在此语言环境下，如果文作者运用各种反反抄袭手段及技巧，CNKI学术不端文献检索系统则显得力不从心。因此，应用CNKI学术不端文献检索系统反对学术不端，仅仅应是一种辅助手段，更重要的手段还是要充分发挥广大科技期刊编辑的主观能动性，运用其丰富的知识、经验来进行反学术不端活动。

［1］康劲.“CNKI学术不端文献检测系统”较国内外同类系统优势明显［J］.CNKI动态，2012－12－20［2］.多戈论文检测网:http://www.duoge007.com/a/miji/141.html.2012－01－!＆

［3］试谈汉语语法学史研究中的几个问题http://new.060s.com/article/2011/10/10/407168.htm2011－10－

［4］学术不端检测仪能否保证学术纯洁［N］.西安日报，2010－04－28.