APP下载

中文医学科技期刊摘要标准化现状调研与分析

2022-05-20王利鹏郑春雨

中国科技期刊研究 2022年4期
关键词:国家标准文摘科技期刊

■庞 丽 王利鹏 高 森 郑春雨 陈 婕*

1)中国医科大学附属盛京医院妇产科,辽宁省沈阳市铁西区滑翔路39号 110022 2)中国医科大学期刊中心,辽宁省沈阳市沈北新区蒲河路77号 110122

近年来,党中央、国务院高度重视我国的期刊发展和标准化工作,2008年10月我国以贡献率第六的成绩正式成为ISO的常任理事国[1-2]。2020 年10 月14 日第51 届世界标准日,新闻出版领域第一次举办标准日活动,主题为“加强标准建设,助力出版业高质量发展”,高度关注出版物标准化问题[3]。我国新闻出版标准化工作已历经30余年,取得了瞩目的成绩,已公布多项涵盖出版发行全部流程的国家标准,并可通过国家标准化管理委员会官网(http://openstd.samr.gov.cn/)查阅,但针对科技期刊的国家标准仍不够健全。同时,科技期刊出版的未来发展趋势为“人工智能+出版”模式,标准的发展与人工智能的发展息息相关,二者相辅相成又相互制约。一方面,人工智能系统研发需要采用客观、精准、实用的标准来约束训练和建模,标准的完善和精准有利于促进人工智能软件的研发;另一方面,人工智能软件可辅助和验证国家标准的执行,成熟的人工智能平台有利于标准的成熟和完善。因此,对现存国家标准基本执行情况的调研很有必要。侯集体[4]曾参照国家参考文献新标准GB/T 7714—2015《信息与文献 参考文献著录规则》对中文社会科学引文索引收录的6种编辑出版类期刊参考文献进行分析,发现各期刊执行标准的情况不一致,在个人著者、引文页码、顺序编码、电子文献等方面存在著录不规范等问题,可能与执行新标准时缺少管理措施、新标准细则模糊、期刊对新标准重视程度不够等因素有关。我国摘要现行国家标准为GB 6447—1986《文摘编写规则》,是对国际标准化组织(International Organization for Standardization,ISO)发布标准的本土化改良方案,已执行30余年,在中文科技期刊的标准化执行推广中较为成熟,但是其完成情况到底如何,目前尚无基本数据资料调研。本研究应用网络数据平台,选取2019—2020年国内600本医学科技期刊的论文为调研对象,对其执行现行摘要国家标准GB 6447—1986《文摘编写规则》的情况进行调研与分析。

1 研究对象与方法

1.1 研究对象

于2021年3—7月采集2019—2020年《中国科技核心期刊(中国科技论文统计源期刊)目录》收录的600本中文医学科技期刊的公开发表资料,选取其中具有中文摘要的论著栏目论文2~3篇为研究对象,对其摘要部分进行标记。同时,筛选国内外有关论著摘要的最新国家标准,对标准进行细化、整合和归类,并评估分析不同期刊的标准化执行情况。

1.2 研究方法

1.2.1 采集论文

利用中国知网、万方数据库以及期刊官网,采集2019—2020年600本《中国科技核心期刊(中国科技论文统计源期刊)目录》收录的中文医学科技期刊中有中文摘要的论著栏目论文,每本期刊中随机抽取2~3篇论文纳入本研究。

1.2.2 集成化分析

应用智能化论文处理系统,研制程序并依托大数据算法实现精准计算,在论文处理系统中录入目标期刊论文电子版,整合并导出结果数据。同时,人工抽检数据并与纸质期刊复核。

1.2.3 调研指标

调研指标主要依据GB 6447—1986《文摘编写规则》,以及2020年发布的《报纸期刊质量管理规定》、GB/T 3179—2009《期刊编排格式》、GB/T 28039—2011《中国人名汉语拼音字母拼写规则》、GB/T 16159—2012《汉语拼音正词法基本规则》、GB 3100~3102—1993《量和单位》、GB/T 15835—2011《出版物上数字用法》、GB/T 15834—2011《标点符号用法》等的具体要求,调查细则包括13个方面22条细则(表1),严格依据《文摘编写规则》国家标准内容的“引言”“名词、术语”“著录”“文摘的详简度”“文摘的要素”“编写文摘的注意事项”6个部分拟定[5]。同时人工复核备检摘要的格式差错、标点符号差错、文字差错、量和单位差错等期刊质量管理要素。

1.3 统计学方法

采用SPSS 22.0软件进行数据统计分析,计数资料采用均数±标准差,率采用百分比。P<0.05为差异有统计学意义。

表1 依据GB 6447—1986《文摘编写规则》采样调研指标项目及细则

2 结果与讨论

参照国家标准GB 6447—1986《文摘编写规则》要求,检测采集样本对13项标准化指标的执行情况,发现整体执行情况良好。

2.1 结构、要素及标准化著录执行情况

600本中文医学科技期刊中有99.3%(596/600)的中文医学科技期刊论著文摘采用了报道性摘要的结构式表达,结构中有明确的目的、方法、结果、结论四要素,其中1本(0.17%)期刊采用了五段式摘要,分别为“背景、目的、方法、结果、结论”;0.7%(4/600)的期刊采用报道-指示性摘要。样本论文的摘要结构基本符合国家标准GB 6447—1986的条款,但仍存在采用五段式摘要的问题,这与既往高校学报标准检验结果一致,王培华[6]曾对高校学报编辑工作进行标准化检验,发现摘要部分尚存在缺项问题,即未按照“四分法”撰写,由此强调应强化高校学报编辑工作的标准和规范意识。笔者在复核GB 6447—1986原文时,发现原文只提及目的、方法、结果、结论四要素,是否涵盖引言或背景,是否需要统一体例及格式,这些细则尚不明确,由此产生解读多样化问题。这些不同体例,当阅读主体是人类时,读取差异不明显,但当阅读主体是计算机程序时,这种差异成了阻碍因素,程序无法有效标记,进而影响机读效果,产生研判不准确甚至无法研判等问题。600本中文医学科技期刊文摘中均无著录和引用内容出现。复核600本备检中文科技期刊的摘要发现,不同期刊的摘要刊出格式不一,包括41种表达式,其中采用“两字空+【摘要】+一字空”表达式的期刊数量最多,为215本,占35.83%。有21种表达式的使用期刊数量不超过5本,占比小于0.83%。“目的”“方法”“结果”“结论”各有18种表达式,且表达比较一致,其中采用“目的+一字空”“方法+一字空”“结果+一字空”“结论+一字空”表达式的期刊数量最多,均为428本,占71.81%;分别有13种表达式的使用期刊数量不超过5本,占比小于0.83%。因国家标准尚无此项要求,但依据2020年《报纸期刊质量管理规定》版式审查中的“另版、另段、另行、接排、空行、空格以及需要空行、空格而未空”和“字体字号错”等要求,目前尚无法统计版式问题。GB 6447—1986对版式并无要求,但此版国家标准产生于20世纪80年代,正值学科起步、纸质盛行的时代,这种差异化表达在当时可以理解为期刊的个性化处理,而在大数据应用分析的今天,这种版式不统一对计算机标记要素提取、大数据交换产生了阻碍作用,进而影响知识点的传播。贺郝钰等[7]对我国科技期刊论文HTML文档规范化写作标准进行研究,发现我国科技期刊论文的版式展示界面各不相同,缺乏统一的标准格式,使同一领域论文展示的要点不同,对数据交换、资源共享、内容比较等方面造成障碍,由此提示我国应该完善摘要的结构化展示,根据学科完善数据论文写作规范,根据学科特点及论文类型等制定规范化写作标准,从而使科技期刊论文的写作更加规范化、简便化和标准化。郁林羲[8]和周小玲等[9]分别对“中国最具国际影响力学术期刊”和“我国百强中文科技期刊”的HTML出版现状进行了分析,结果发现,我国科技期刊的HTML出版表达形式及服务与国外期刊相比有很大差距。在人工智能研发过程中,机器学习的基础是概率性学习,其机制为输入大量均质性数据,计算机从海量输入数据中获得深度学习的能力,最终这种能力反馈为智能判断。倘若前期机器学习中输入数据差异性较大,会降低人工智能的判断能力,目前期刊的表达式多样,既不符合新版的质量管理规定,又不利于人工智能编校的进一步发展,是否应明确尚需研讨论证。

2.2 文摘详简度标准化执行情况

GB 6447—1986《文摘编写规则》指出,报道性文摘和报道-指示性文摘一般以400字左右为宜。调研发现,采样文摘字数范围为245~1431字,均数为(504.06±155.33)字;字符数范围为259~1727字符,均数为(621.98±202.66)字符。样本文摘的字数与字符数均超过了GB 6447—1986标准的规定。按照字数分布,400~500字的样本期刊数量最多(202本),占33.67%;按照字符数划分,400~500字符的样本期刊数量最多(154本),占25.67%。200~1100字的9组样本间差异比较有统计学意义(P<0.05)。按学科分布,摘要篇幅超过500字的文摘分布于眼科、外科学、内科学、肿瘤学、妇产科学、儿科学、综合类(学报),各组间差异有统计学意义(P<0.05),见表2和表3。摘要篇幅普遍较长,最多达1727字,远超出国家标准GB 6447—1986要求的400字,这可能与医学学科不断深入、研究复杂、临床需要阐述问题较多有关,也可以理解为期刊发展的需要。GB 6447—1986中“400字”约束是根据ISO 10324—1997《信息和文献 保存说明 概括程度》(InformationandDocumentation-HoldingsStatements-SummaryLevel)中200~250个单词本土化改良而来。随着学科发展,是否需要放宽篇幅约束或者根据不同专业学科调整篇幅长度,抑或是考虑其他解决方案,是标准化执行中需要进一步论证的问题。篇幅界定在人类阅读时并无大碍,但在机读语言处理过程中,因计算机处理自然语言目前主要采用的是循环神经网络(如RNN、LSTM、GRU等)模式,所处理文本字数是模型设计的重要考虑因素[10]。同时,医学科学与国际化接轨,有大量外文符号和外文词汇,字符数和字数与国际标准的要求不匹配,这是中文期刊特有的问题,对此是否需要予以明确,有待深入论证。

表2 600本中文医学科技期刊论著文摘详简度分布情况

表3 不同学科医学论文论著摘要字数分布情况

2.3 注意事项标准化执行情况

本次调研量表严格依据国家标准GB 6447—1986拟定,结果发现仍有注意事项相关条目在执行过程中存在问题,具体表现为标点符号存在错用、漏用、多用(18本,占3%),例如引号并列时误用“,”“、”,标点符号误在行首,标号误在行末,漏用标点符号等。9本(1.5%)期刊的论著摘要采用分段形式。15本(2.5%)期刊的论著摘要存在未采用第三人称,出现“本文”“本组”“本研究”等表述。4本(0.67%)期刊使用药品的商品名时未给出相应的药品名称;3本(0.5%)期刊未正确采用缩略语,3本(0.50%)期刊的法定计量单位使用不规范,1本(0.17%)期刊出现错字、漏字、别字,1本(0.17%)期刊的外文单词未按音节转行。这些问题表面看似为标准化执行不严谨、个别期刊重视程度不够的问题,深层次均提示标准与学科发展不一致,如科技名词和缩略语方面,医学名词“阿尔茨海默病(Alzheimer disease/Alzheimer′s disease)”在全国科学技术名词审定委员会公布的名词术语标准为“阿尔茨海默病”,国卫办老龄函〔2019〕738号《国家卫生健康委办公厅关于印发阿尔茨海默病预防与干预核心信息的通知》中为“阿尔茨海默病”,《现代汉语词典》词目为“阿尔茨海默病”,而《咬文嚼字》公布的“2019 年十大语文差错”中正确的术语为“阿尔茨海默症”,《中国大百科全书》公布的词目为“阿尔茨海默氏病”,笔者调研发现上述3种说法均有出现,其他还有“阿尔兹海默症”“阿尔兹海默病”“阿尔兹氏海默病”“老年痴呆”“老年性痴呆”“阿尔兹海默病氏痴呆”等表达。机读语言需要给出统一体例和标准,以便标记识别和深度学习,对于一个模棱两可标准的研判,人工智能需要做出大量基础输入才能进一步读懂和学会分析其含义。法定计量单位不规范方面需要探讨的问题是,在痕量检测结果中用mL或μL单位做分母是否可行。根据现有标准,此用法显然有误,但对于医学常用PCR等微量试验检测,用mL或μL做单位才具有合理性,是否应该针对检测方法制定相应规范,是学科需要进一步明确的问题。在计算机校验标准环节需要明确给出规则,计算机才可以根据固定规则进行修正,这也是目前人工智能编校软件研发过程中需要解决的问题。再如,表述药品的商品名时未给出药品名称,由于新药研发迭出,商品名称不通用,且通常为新名词,单独给出商品名但不给药品名称会阻碍论文的归类,进而阻碍机器深度研究。至于摘要中存在未采用第三人称,出现“本文”“本组”“本研究”等表述,存在错字、漏字、别字,英文词语不规范等问题,通过人工智能编校软件可以识别并自动修订,此处因标准明确,目前应用未见分歧。

3 建议与启示

3.1 高度重视科技期刊摘要国家标准

近年来,党和国家高度重视标准体系建设。习近平总书记在给第39届国际标准化组织大会开幕式的贺信中指出,“标准是人类文明进步的成果……伴随着经济全球化深入发展,标准化在便利经贸往来、支撑产业发展、促进科技进步、规范社会治理中的作用日益凸显。标准已成为世界‘通用语言’”[11]。我国相继出台了《深化标准化工作改革方案》和国家标准化体系建设的发展规划,新修订了《中华人民共和国标准化法》[5]。目前我国科技期刊现行标准体系构建于20世纪80年代,已推广执行30余年,对学科的发展和进步起到了积极作用,但在执行过程中也存在各种问题,因此建议国家标准的更新年限为5年,超过年限应予以修订,以顺应时代发展趋势[12-14]。

摘要是论文的高度概括和精炼,能简明扼要地阐述论文信息,具有独立性和自明性,且拥有与文献等量的主要信息,即只阅读摘要不阅读全文也能获得必要信息,摘要的质量直接影响论文的下载量、被引频次和传播力。摘要标准的完善有利于提高论文质量、增加论文的可读性和准确率、促进学术传播,进而提升中文期刊的国际影响力。国家标准GB 6447—1986《文摘编写规则》是由国家标准局于1986年发布,执行已有30余年,其间未做过修订和补充,本次调研结果提示,现存标准仍存在差异化解读和不足之处,且学科重视不够。目前学界对于新发布的参考文献标准GB/T 7714—2015和DOI著录等的探讨较多[15-17],但对于既往标准如GB 6447—1986《文摘编写规则》执行情况的关注不够,呼吁学界进一步完善调研数据、重视调研结果,以更好地更新、执行科技期刊摘要标准。

3.2 完善现有科技期刊摘要国家标准

既往观点认为,我国科技期刊现存国家标准仍存在标准制定不够精准,标准执行强度不够,缺少针对汉语特异性的国家标准,标准映射存在障碍等问题,应从几个方面入手解决:优化系统的顶层设计,广泛采集基础资料对现有国家标准进行整合、更新,增加新型国家标准,制定特异性强的科技期刊国家标准,最终实现机读语言转化等[18]。对于摘要的现行国家标准,目前已存在超期服役、解读多样、边界模糊、执行不一等问题,深层次原因为我国国家层面的纲领性文件有欠缺,最终会阻碍不同机构间大数据传播及人工智能发展,因此,完善现有科技期刊摘要标准很有必要[19]。笔者认为,完善摘要标准应从总体布局、规划设计、数据采集、问题归类、研讨确定、推广完善等方面入手,反复进行大范围研讨论证,细化各个要点,这期间尚需管理部门、学术团队、基层编辑、读者和作者等多部门多层次深度参与,群策群力,共同完成。在完善过程中还应注意适应时代发展和中文科技期刊的特殊性。

3.3 探讨人工智能+科技期刊出版的摘要标准方案

由于人工智能的出现及迅猛发展,各学科都呈现日新月异的“人工智能+学科发展”局面。但人工智能技术在科技期刊综合化发展方面的应用仍处于初级阶段,从初级向高级进阶,首先需要解决的核心问题是机读语言转化方面存在的问题,而实现机读语言转化的前提是要有一系列精确可行的标准。人工智能的深度发展与标准建设始终是相互促进又相互依存的关系。一方面,人工智能软件的研发、建模及深度学习和训练依赖于标准的完善精细;另一方面,人工智能软件的发展及应用有利于国家标准的准确执行,有利于学科的长远发展。目前,国外期刊行业在完成标准化后,已经开始探索基于标准化方案的自动处理方案,例如美国、英国、印度等都有基于标准化的自动处理系统或平台[20-21],而我国此领域尚处于起步阶段,许多基础工作均未开展。国内中文科技期刊编辑团队多数仍采用手工+Word (或WPS)的编校模式,效率低,审校准确度需要反复核红、勘误才能得以提高,如果出现百密一疏的情况,编校质量则不尽如人意。根据目前编校现状,科技期刊可在以下几个方面应用人工智能技术:利用大数据平台实现精准策划,基于搜索引擎建立智能化论文处理平台,基于人工智能实现精准传播,利用翻译平台提升期刊影响力等[22-23]。如何合理开发利用人工智能技术,打造“人工智能+科技期刊出版”综合发展模式是摆在每位期刊人面前的一道考题。与西文不同,汉语言作为一种特殊的表意语言文字,其语义研判、句式解析、格式构建均有其自身的特点,探讨适合中文科技期刊的国家标准,以此建模诱导计算机程序深度学习,构建人工智能神经网络反馈模型,最终实现标准化精准执行,从而大幅提升中文期刊的国际影响力。

4 总结

标准制定和完善直接影响科技期刊“人工智能+出版”的发展,人工智能的发展又会推动科技期刊全流程变革性前进。科技期刊的前景和出口应该是基于大数据平台的整合、制作、交流和传播,因此现存标准的完善和标准精细化非常重要。本研究严格参照摘要相关国家标准对600本中文医学科技期刊进行采样调研,但仍存在调研时间跨度短、学科单一、采样数量不够等不足,数据和结果仅供参考,下一步尚需扩大时间覆盖范围,增加样本量进一步深入研究。相信在学界的广泛关注下,更加高速、便捷、精准的“人工智能+科技期刊出版”指日可待。

猜你喜欢

国家标准文摘科技期刊
《计算机应用》获评“川渝一流科技期刊”
科技期刊的分类
近期发布的相关国家标准(2019年12月10日)
近期发布的相关国家标准(2019年12月31日)
近期发布的相关国家标准(2020年03月06日)
近期发布的相关国家标准(2020年03月31日)
科技期刊的分类
科技期刊的分类
台港文摘
台港文摘