APP下载

2015-2020 年精准医学高被引论文研究态势分析

2022-01-11郑津津张惠荣黄育北

医学信息 2021年24期
关键词:聚类分析

郑津津,张惠荣,黄育北

(天津医科大学肿瘤医院图书情报研究室/国家肿瘤临床医学研究中心,天津 300060)

在国际精准医学发展计划的背景下,我国于2015 年2 月初始首次提出“精准医学”概念,3 月11日建立了精准医学的研究专家组,开展该计划,通过不断的努力,促进了精准医学计划的发展[1]。2016 年初,在“十三五”发展规划中,正式启动了对精准医学的研究,制定了相应的政策和发展规划,同时将它列为我国重点发展计划之一,随之全国范围内的不同机构,迅速开展了针对不同疾病的“精准医学”研究,极大的促进了其发展[2]。精准医学(precision medicine)是以个体化医疗为基础,随着分子生物学和高通量基因测序技术的飞速发展以及生物信息与大数据科学的交叉应用而发展起来的医疗模式[3,4]。关于精准医学的文章数量迅速增长,表明精准医学的探究正在迅速发展。本文基于文献与引文分析概述了精准医学发展的演化轨迹,并强调该学科发展的历程。基于CiteSpace 选择的网络结构和计算属性分析发现学科发展趋势和模式,旨在促进该领域文献的科学前沿与发展动态[5]。视觉分析工具对于发现大量新发表研究中的关键发展节点具有较高研究价值,通过跟踪引文链接和引用矩阵间的相互关系,科学计量学的视觉分析技术能够引导学者关注到振动和迅速发展的研究前沿与热点。本研究基于Web of Science 核心合集数据库,以高被引SCI 论文数、影响因子、作者/机构合作关系、高频关键词为定量评价指标,运用CiteSpace、文献计量在线分析平台从文献计量学角度对2015-2020 年精准医学高被引论文进行研究,旨在评价精准医学的发展态势,为我国制定精准医学学科发展规划提供参考依据。

1 资料与方法

1.1 资料来源 基于Web of Science 核心合集(Science Citation IndexExpanded)和2019 版Journal Citation Report(JCR),以“Precision medicine”作为检索主题词,数据采集时间为2015 年1 月1 日-2020 年12 月31 日,数据更新时间为2021 年3 月31 日,得到14 237篇基础数据,依据领域中的高被引论文过滤结果,最终获得有效数据为350 篇,纳入本研究。

1.2 纳入与排除标准 纳入标准:①检索地址中包含精准医学相关研究文献;②满足符合文献计量学所需的相关高被引文献。排除标准:①涵盖信息不全的文献;②重复或撤稿的文献;③会议论文、社论、书籍章节。由两位作者独立对符合条件的文献进行凝练、提取及开展数据分析。

1.3 方法 采用软件BibExcel 制作发文量曲线。采用文献计量分析平台研究国家与机构合作关系及期刊影响力分析,采用CiteSpace 5.7.3 软件进行关键词聚类分析、被引文献聚类、bursts(突发词)检测等知识图谱的绘制。

2 结果

2.1 文献总发文量分析 高被引论文数量与精准医学的发展有着直接且必然的联系,精准医学领域高被引论文于2015 年发文量为36 篇,2016 年发文量为47 篇,2017 年发文量为56 篇,2018 年发文量为73 篇,2019 年发文量为86 篇,但需要注意的是,由于数据截至2020 年底,导致2020 年的数据情况未能全部体现,仅为52 篇,见图1。

图1 历年发文量之国家发文量

2.2 合作关系分析

2.2.1 国家间合作关系分析 当前,美国通常从探究肿瘤靶向治疗的创新方法并在临床水平上展开实践、采取综合疗法、克服肿瘤的耐药性等方面进行肿瘤的诊断和治疗。弗吉尼亚大学采用基因组信息创建电子健康病历,进行风险评估,对提供者和患者给予决策支持;杜克大学开发评估肺癌和乳腺癌药物基因组学编织物的支持证据生成和临床疗效评价研究;H Lee Moffit 癌症中心建设CER 信息基础数据集;Fred Hutchinson 癌症中心开展决策建模、伦理以及开展临床试验涉及等研究。美国国立卫生院前院长认为应该将基础研究与临床实践紧密联系,这一观点对于医学的发展具有里程碑意义[6]。各国家间合作关系见图2。

图2 国家间合作关系

2.2.2 机构间合作关系分析 精准医学的发展和科研产出机构有着紧密的关联性。在对产出机构(机构包括大学,各研究院,以及国家研究机关)的学术位置进行评价时,将中心性以及所在节点相结合,可将研究的学术状况以及影响力较好地展现出来。各机构间合作关系见图3。

图3 机构间合作关系

2.3 期刊影响力分析 结合文献计量分析平台,汇总2015-2020 年精准医学高被引论文最具影响力期刊,见表1。

表1 2015-2020 年精准医学高被引论文最具影响力期刊Top10

2.4 关键词聚类分析 我国关于“精准医学”的研究快速增长,从2015 年至今,5 年内精准医学相关文献的发表量超过了最初发表量的5 倍。从WOS 数据库年度发文的数量来看,因数据库存在局限性,国际精准医学的研究先于我国在1998-2015 年开始,但发文量很少。自2016 年起,国际上此方面的研究持续增多,且趋向于快速增长,在发展速度上远胜于我国。对WOS 数据库下载的数据进行聚类分析,主要包括作者、题目、摘要和文献的引文等字段,即研究所要抽取的文本数据项。输入至系统后,设置参数,如确定要分析领域的总时间段范围、分割后每一个时间片段的长度,本文的时间段范围是2015-2020 年,时间片段的长度是每1 年一个,术语来源选择Title(标题)、Abstract(摘要)、Author Keywords DE(作者关键词)、Keywords Plus Identifiers(关键词标识项),阈值选择Top50,节点类型确定为Keyword,然后根据不同的研究目的(研究领域探析、研究前沿探析)的需要选取不同的选择项:名词短语(Noun phase)和突变词(Burstterm)首次运行取消术语类型的选择,再根据需要设定一定的阈值以及路径选择算法(Pathfinder),其他选项保持默认状态。与学科研究进展相关的关键词见表2。国际精准医学前沿的高Burst 值关键字排名前10 位见图4。

图4 排名前10 位的国际精准医学前沿的高Burst 值关键字

表2 学科研究进展关键词

文献的关键词共现分析通常多用以对某个研究领域的热点与前沿问题进行清晰明确研究,一般会将突现率较高的关键词视为精准医学前沿领域的表征[7]。为进一步研究精准医学领域的研究热点,采用CiteSpace 构建了主题词加关键词构成的共现网络,用以微观层面揭示学科内的实体关系特征,构建知识单元之间直接的语义关联,并从施引文献的标题中提取聚类命名术语,经整理生成关键词被引频次≥20 的关键词列表,关键词聚类分析见图5。

图5 关键词聚类分析

3 讨论

中国有无可比拟的病患样本资源优势,本文通过对近5 年精准医学领域高被引论文的期刊影响力分析、作者/机构间生产力与合作关系、领域内的关键词及研究热点聚类分析,开展文献的梳理与归纳总结,结合定性的文献回顾和定量的文献计量学分析方法,得出主要研究结论如下。

3.1 引文总量情况 作为“文献计量”数据来源的学术论文是科学研究的主要对象之一,论文被引频次的高低,在一定程度上可以揭示论文的影响程度和情报价值[8,9]。高被引论文是指被引用频次相对较高,被引用周期相对稳定的研究论文[10]。从2015 年至2019 年,各国精准医学高被引论文整体呈上升趋势,尤其在2019 年达到高峰,占总发文量的25%。我国继美国、英国、德国、意大利、法国等欧美国家后排名第六位,占比14%,呈较快的发展态势。

3.2 研究机构情况 科研知识产出能力、学术影响力可分别借助其合作网络分析进行展现[11]。在国家间合作关系中,2015-2020 年,中国和58 个国家与地区进行国际合作发表精准医学高被引SCI 论文,其中美国是合作发文排名第一的国家与地区共计236篇,占总文章量67.429%;英国是合作发文排名第二的国家与地区共计70 篇,占总文章量20%,德国是合作发文排名第三的国家与地区共计59 篇,占总文章量16.857%。剧统计,美国则拥有最高的相对合作强度,其次是英国、德国。中国精准医学研究领域处于快速发展阶段,我国学者应加大与国际他国之间的高水平合作,进一步推动我国精准医学国际化的战略合作关系。

借助对精准医学高被引论文学术影响力较大的产出机构的追踪,得出HARVARD UNIVERSITY 所发表的文章位列首位,共计71 篇,占比20.286%,其次是UNIVERSITY OF CALIFORNIA SYSTEM,共计46 篇,占比13.143%,再次是UNIVERSITY OF TEXAS SYSTEM,共计35 篇,占比10%,文章中涉及到精准医学基于多组学获取的临床试验数据及生物信息学技术用于临床诊断及精准医学所面临的主要挑战和基于数据集成方法的最新进展,以揭示各种组学研究产生的大数据中的个性化信息等,上述机构汇聚了此研究领域内的核心及重点内容,其所得出之结论、所用之方法或许会对后期的研究产生一定的影响。同时,从研究视角发现应加大数据资源管理与控制能力,包括对大数据资源的质量监管,提升数据处理的准确性、实时性、有效性,加强数据资源的利用和隐私保护,积极开展基础队列研究、疾病基因检测技术、精准医学知识库建设及多方大数据平台共享机制的建设[12],提升挖掘技术的开发能力,整合全生命周期电子档案系统,建立符合中国模式的精准医学大数据研究平台和保障体系,培养具有精准医学发展需求的高能人才梯队建设,培养医学信息学专家、科学项目管理人才及医学伦理学人才作为支撑,制定属于中国精准医学的疾病诊断治疗标准、疾病预防标准,进一步提升医疗的社会普惠性,使重大病症的发病率、死亡率、临床治疗费用大大降低,促进我国医疗事业的快速发展。

3.3 最具影响力期刊情况 学术期刊的学术辐射力和市场占有率是学术期刊影响力的本质特征[13]。近5 年间精准医学高被引论文最具影响力Top10 期刊,依据2019 版JCR 影响因子排在前3 位的期刊依次为《NATURE REVIEWS DRUG DISCOVERY》,IF=67.797;《LANCET》,IF=60.39;《NATURE REVIEWS CLINICAL ONCOLOGY》,IF=53.276。总影响因子之和为426.392,平均影响因子为42.6392,涉及主要学科领域分别为肿瘤学(ONCOLOGY)和生物化学与分子生物学(BIOCHEMISTRY &MOLECULAR BIOLOGY),这也可以从一个侧面反映出精准医学在该学科的发展态势以及研究的重点方向。收录高被引文章总数高达11 篇,总被引用次数高达17 次,为精准医学在肿瘤学领域的传播和发展起到了重要的引领作用。

3.4 研究热点情况 关键词是作者对论文核心研究内容的精炼[13],聚类分析则是一种多元统计法,主要是完成对涵盖有诸多指标数据的有效分类,即基于层级聚类的原则,对于事物彼此间的亲密及疏离程度的判定借助相似性尺度来完成,以清晰展现出文献彼此间的亲疏关联性[14,15]。基于CiteSpace 软件分析得出,Precision medicine 频次最高,其次是Cancer、personalized medicine、Breast cancer、Medicine、Biomarker、Drug therapy、Clincal trail、Cell lungcancer和Gene 等高频关键词。以CiteSpace 对Web Of Scinence 核心合集的数据展开Keyword 值的Burst分析,所得出的Burst 值超过3.53 的关键词共有21个,其中中介中心度>0.1 的数值最具参考价值。

我国精准医学的发展呈快速发展阶段,还需结合近几年的科研成果及临床经验,以基因组研究为代表的各种分子水平的资源与信息技术,通过挖掘与整理,整合出能够和疾病相关的且能够作为疾病表征的标本组织库[17,18]。科研决策机构应加强政策引导,在制定年度计划和战略目标时,从学科建设入手,联合生产基因检测产品的医疗器械公司及药物公司,在市场前景和优惠政策的激励下,增加相关企业数量,借助先进的计算机技术和AI 技术,提升非结构化数据的处理效率,增强数据的准确性、可靠性,促进精准医学行业的飞速进步。充分发挥所在单位研究院所、临床医学研究中心在基础与临床研究相结合的核心作用,促进科研工作者的积极研究,形成一套具有我国自主专利、获得全球认可的治疗指南和临床经验路径,极大的提升治疗重大疾病的医疗水平。

基于以上研究,本文认为中国与国际前沿技术和理念接轨的同时,仍然需建立国际一流的精准医学研究平台、保障体系、自主研发的核心关键技术、适合亚洲种群的防疫药物、疫苗、器械和设备等,建立与制定人类指南、临床路径和干预措施,应用于疾病的预防、分析、诊断、治疗、预后的各个阶段,尤其在治疗肿瘤、糖尿病等恶性疾病中,研制多种靶向药物设计方案[19],在全国范围内进行推广,极大提升治疗效果,为广大患者带来福音,同时还将更加具有可塑性和可信性,从而爆发出巨大的医疗经济潜能,推动我国总体医疗的快速发展。

猜你喜欢

聚类分析
基于谱聚类算法的音频聚类研究
基于Weka的江苏13个地级市温度聚类分析
浅析聚类分析在郫县烟草卷烟营销方面的应用
农村居民家庭人均生活消费支出分析
基于省会城市经济发展程度的实证分析
基于聚类分析的互联网广告投放研究
“县级供电企业生产经营统计一套”表辅助决策模式研究