APP下载

基于CiteSpace的中国肺癌筛查现状及趋势分析*

2021-08-10赵紫暄杜灵彬谢华王乐王悠清董恒进

肿瘤预防与治疗 2021年7期
关键词:图谱筛查聚类

赵紫暄,杜灵彬,谢华,王乐,王悠清,董恒进

310058 杭州, 浙江大学医学院 公共卫生系卫生政策学研究中心(赵紫暄、董恒进);310022 杭州, 中国科学院大学附属肿瘤医院(浙江省肿瘤医院) 防治科(杜灵彬、王乐、王悠清);610041 成都, 四川省肿瘤医院·研究所,四川省癌症防治中心, 电子科技大学医学院 肿瘤内科(谢华);322000浙江 金华, 浙江大学医学院附属第四医院 科教科(董恒进)

肺癌是我国最常见的主要恶性肿瘤之一。根据《2018中国肿瘤登记年报》,2015年我国肺癌发病率为57.26/10万,死亡率为45.87/10万,占所有恶性肿瘤的20.48%和27.16%[1]。肺癌早期多无特异症状,目前约80%的肺癌患者在临床确诊时已进展至中晚期[2],尽管近年癌症治疗在微创外科、分子靶向及免疫治疗等方面取得了诸多进步[3-5],但肺癌晚期(Ⅳ期)患者的5年生存率仍仅有4.20%[6],研究表明,肺癌早期阶段(Ⅰ期)进行手术切除,患者的10年生存率可提高至92.00%[7],生存率得到显著改善。因此,开展肺癌筛查与早诊早治是改善肺癌预后、实现肺癌二级预防的最有效措施。

我国现有的肺癌筛查进展研究大多采用定性方法,对已发表的文献进行整理和分类,通过挑选部分具有代表性的文献对研究的进展进行提炼归纳,缺少使用定量方法对肺癌筛查研究领域的关键文献及热点聚类等进行分析总结的研究。

本文使用文献计量分析软件 CiteSpace,以1989~2020年CNKI数据库中核心期刊、中文社会科学引文索引期刊(CSSCI)和CSCD数据库收录的677篇期刊论文为样本,通过分析肺癌筛查领域的文献发表趋势、研究热点主题、关键词共现图谱、机构合作图谱、作者合作图谱等,以期更好地把握我国肺癌筛查领域的发展历程、研究现状及未来研究走向。

1 数据来源及研究方法

1.1 数据来源

文献来源于CNKI检索平台的CSSCI、核心期刊和CSCD,检索方法为:主题=“肺癌筛查”或“肺癌普查”或“肺结节筛查”,;时间跨度=“1989~2020”;期刊来源= “CSSCI+核心期刊+CSCD”;匹配方式=“精确匹配”;采用同义词扩展。检索时间为2020年10月30日,共检出相关文献2 021篇,经过筛选、比对并剔除综述、资讯及其他无关文献,最终获得677篇研究论文作为研究样本。以Refworks形式将文献数据导出并进行数据格式转换,每条文献数据包括作者、机构、摘要、关键词、发表年份及期(卷)等信息。数据清洗采用人工手动方法进行,内容是合并同义词或近义词,避免出现同义词多节点分散,影响最终图谱的呈现效果。

1.2 研究方法

使用Excel 2016及CiteSpace 5.7.R2进行数据整理与科学知识图谱分析。CiteSpace是美国德雷赛尔大学陈超美博士开发的科学知识图谱可视化工具,旨在通过可视化的手段来呈现科学知识的结构、规律和分布情况,能够实现作者合作图谱、关键词共现图谱和机构合作图谱的绘制,且可动态识别共现聚类、关键节点和研究热点[8],目前已被广泛应用于医药卫生、人文哲学、经济管理、工程技术等各个学科领域的研究热点及合作网络分析。

2 研究结果

2.1 文献发表趋势分析

文献发表的数量和变化趋势对于了解单一领域的研究热度和研究发展态势具有重要作用。根据检索结果,1989~2020年间我国肺癌筛查领域的年度发文量及百分比如图1所示,30余年间,发文量整体呈现出逐年上涨的趋势,其发展历程大致可被划分为3个阶段。

图1 1989~2020年我国肺癌筛查领域年度发文量及百分比

第1阶段为起步阶段,这一阶段为1989~2002年,共计14年,发文量仅占整体的5.76%,且增长较为缓慢。此阶段肺癌筛查实际多以普查的形式进行,1989年云南省人民医院胡福定等[9]发表的宣威县普查发现的肺癌自然生存情况观察为CNKI收录的我国首篇肺癌筛查领域的研究论文,根据该篇文献的正文内容及参考文献显示,我国的肺癌普查早在1975~1976年就有实践,1977年就有论文见刊,受限于CNKI的收录期限,可能存在部分早期文献未进入本次分析。除对普查确诊人群的随访报告外,早期研究更关注肺癌普查的检测方法,大多围绕痰隐血、痰液T抗原等检测方法的效果进行评估[10-11]。由于使用痰细胞学和X线作为检测方法的效果不甚理想,1998年首次出现探讨使用电子计算机断层扫描(computed tomography,CT)作为肺癌普查的检测方法的文献[12]。1999年以后,受Lancet论文早期肺癌行动计划的总体设计和基线筛查结果的影响[13],更多的国内学者将研究重点转向低剂量螺旋CT筛查肺癌。第2阶段为发展阶段,自2003年开始,肺癌筛查领域的年发文量超过了10篇并保持稳定增长的趋势。此阶段历时13年,发文量占整体的30.87%,较起步阶段有了长足的进步。此阶段的研究涌现出大量有关低剂量螺旋CT筛查肺癌的文献,此外针对低剂量螺旋CT检出率不高的问题,还出现了应用基因芯片技术、肿瘤标志物和Lung Care软件等辅助手段进行肺癌筛查的相关研究[14-16]。第3阶段为快速发展阶段,2015年起发文量出现暴增,5年间发文429篇,占整体的63.37%。此阶段的研究大多不再采取普查的形式,而是更多的以体检人群机会性筛查[17]或对一般人群进行高危评估后,对高危人群进行CT筛查为主[18]。此外,2007年开展的农村癌症早诊早治项目和2012年开展的城市癌症早诊早治项目也为此阶段的文献增长做出了重要贡献。总体而言,在过去30余年中,我国肺癌筛查研究历经起步、发展、快速发展3个阶段,研究热度不断升温。

2.2 作者合作图谱分析

在CiteSpace 软件中,将分析的时间区间设置为CNKI数据平台中检索到的首篇文献发表年份至今,即1989~2020年;由于本研究所做的作者合作图谱意在展示过去30余年间所有主要作者的发文和合作情况,因此时间切片设置为32年;节点类型设置为作者;阈值选择为被引次数≥2次,共被引次数≥2次,规范化后的共被引次数≥3次,该作者即纳入分析。为保持知识图谱的简洁易读,最终选取文献发表数量3篇以上的作者进行可视化分析,绘制出的作者合作图谱如图2所示。

图2 1989~2020年我国肺癌筛查领域作者合作图谱

绘制完成的作者合作图谱中,节点(Nodes)个数为170个, 连线(Links)共340条,网络密度(Density)为0.0244.从文献发表的数量来看,柳学国(13篇)、王颖(7篇)、代敏(7篇)等表现较为优异,但并未形成较明显的作者合作网络。从文献发表的时间来看,何安光(1990年)、刘江(1990年)、曲恒春(1990年)、柳学国(1998年)、乔友林(1999年)等人最早开始对肺癌筛查领域进行了较为深入的研究和探索。

核心作者的定义来源于普莱斯定律,认为单一研究主题的半数文章应该来自同一高生产能力作者群体,这一作者集合的数量上约等于全部作者总数的平方根[19]。其计算公式为:

其中Npmax为统计时间段内该领域最高产作者文献发表数量, Mp为统计时间段内该领域核心作者至少应发表的文献数量。根据本文的检索结果,1989~2020年我国肺癌筛查领域最高产作者发文量为13篇,即Npmax=13,代入公式计算,Mp值为2.701,按照取整原则即认为发表3篇及以上的作者可视为该领域的核心作者。由此可得,我国肺癌筛查领域核心作者共78位,发表文章共计308篇,并未超过全部发文数677篇的一半。可见我国肺癌筛查领域还未形成较为明显的核心作者群。

2.3 机构合作图谱

将节点类型 (Node Types)设置为机构(Institution),阈值选择(Selection Criteria)为Top 50,即在1989~2020年间发文频次排名前50的机构可被纳入分析。最终选取发文频次为3次及以上的机构纳入可视化分析,绘制的机构合作图谱如图3所示。图中的节点数为66,连线数为21,网络密度为0.010,表现出我国肺癌筛查领域研究机构间的合作并不紧密。机构共现图谱中,字体越大表明发文量越多,连线则表现出机构间的合作。图谱显示,形成了以国家癌症中心、广东省人民医院肿瘤中心、宁波市疾控中心为主体的合作集群,但总体而言各机构间的力量较为分散。

图3 1989~2020年我国肺癌筛查领域机构合作图谱

从发文量情况看,排名前4位的机构是中山大学附属第五医院放射科(12篇),国家癌症中心/国家肿瘤临床医学研究中心/中国医学科学院北京协和医学院肿瘤医院(11篇),四川大学华西医院放射科(9篇)、首都医科大学附属北京友谊医院放射科(9篇)。从发文量排名靠前的机构性质来看,大多还是医科大学医院的附属医院,表明1989~2020年期间,我国肺癌筛查领域的研究依托于教学医院实施的情况十分普遍。

2.4 关键词共现图谱

关键词是对论文文本进行高度凝练的成果,对于论文的主旨和内容具有较好的代表性。因此,捕捉同一领域中出现频次较高的关键词对于发现领域中的研究热点具有重要意义[20]。保持其他参数不变,时间切片(Years per Slice)设置为1年;节点类型 (Node Types)设置为关键词(Keyword),绘制完成的关键词共现图谱如图4所示。其中十字节点的大小,表示关键词出现的频次高低;十字节点间连线的粗细,表现不同关键词之间关联的紧密程度,连线线条越粗则表明关键词内容之间关系越紧密[21]。

图4 1989~2020年我国肺癌筛查领域关键词共现图谱

根据关键词共现图谱,图中共有节点47个,连线108条,网络密度为0.100。其中,节点的大小表明各关键词出现频次的高低。图中出现频次最高的关键词是低剂量螺旋CT(211次),此外,肺癌(197次)、筛查(106次)、体层摄影术(74次)、X线计算机(70次)等关键词的出现频次也较高,代表了我国肺癌筛查领域的各个研究热点。

除出现频次外,中介中心性(Centrality)是测度节点在网络中重要性的另一个指标,CiteSpace中使用此指标来发现和衡量关键词在连接不同研究热点间的作用,并用紫色圈对高中介中心性的关键词进行重点标注。本文绘制的关键词共现图谱中,中介中心性最高的关键词是肺癌(0.38),其他中介中心性较高的关键词有低剂量螺旋CT(0.35)、肺结节(0.28)、检出率(0.18)等(表1)。这些关键词在合作网络中具有较好的中介性,可以起到连接各个主要研究热点关键词的作用。

表1 1989~2020年我国肺癌筛查领域热点关键词

2.5 研究热点主题分析

利用Citespace软件中的生成聚类(Find Cluster)功能,采取潜在语义索引方法(Latent Semantic Indexing)对国内肺癌筛查领域关键词进行聚类。聚类相关参数中,模块值(Modularity)是用来衡量所生成聚类稳定性的重要指标。根据相关研究,模块值大于0.3即可认为生成的聚类结构较稳定。平均轮廓值(Mean Silhouette)则是用来考量聚类内部节点的相似程度,相关研究认为轮廓值大于0.5即可认为聚类内部匹配程度高,聚类方法合理[21]。本文生成的我国肺癌筛查领域的关键词聚类如图5所示,模块值为0.438,大于0.3;轮廓值为0.753,大于0.5,表明生成的聚类结构稳定、内部一致性较好。

图5 1989~2020年我国肺癌筛查领域关键词聚类图谱

根据CiteSpace软件生成的聚类显示,1989~2020年我国肺癌筛查领域的关键词可被分为5个聚类:早期肺癌、X线计算机、深度学习、早诊早治、多排螺旋CT,各聚类的大小、平均轮廓值及代表性关键词见表2。五个关键词聚类可被总结为两个主要的研究热点主题,分别是肺癌筛查的必要性和可行性,以及肺癌筛查的工具选择及优化。

表2 我国肺癌筛查研究领域关键词聚类及分布

肺癌筛查的必要性和可行性这一研究主题包含两个聚类:#0早期肺癌和#3早诊早治,代表性关键词为MRI扫描、信息系统、320排CT靶重建、孤立性肺小结节、早期筛查等。由于肺癌发病的隐匿性和早期病程进展的缓慢性[22],为筛查提供了较好的机会进行早诊早治。加之肺癌的早期治疗对预后产生的积极影响[23],肺癌筛查的必要性得以体现。在肺癌筛查中,肺癌的早期症状主要表现为肺孤立性结节,对其进行及时的检测诊断和跟踪随访对于肺癌患者具有重要意义[24]。但肺孤立性结节具有微小性的特点,可能经历多次复查依旧无法确诊,因此实现肺癌的早期诊断难度较大。近年来,随着影像技术、各类血清学标志物、以及临床预测模型的发展[25-28],大大提高了肺癌筛查的精确性。此外,对于肺癌的高危人群、阳性结节定义、筛查技术组合、筛查频率等领域都进行了较为细致深入的研究[29-31],为开展基于人群的肺癌精准筛查奠定了坚实的基础。

肺癌筛查的工具选择及优化包括3个关键词聚类:#1X线计算机、#2深度学习、#4多排螺旋CT,代表性关键词为体层摄影术、计算机辅助检测、肺磨玻璃样结节、人工智能等。这一研究主题自肺癌筛查出现以来贯穿了整个时间跨度,研究者们从不同的角度开展了此类研究。主要的研究工具有:1)痰细胞学检查。痰细胞学是最早开始用于肺癌筛查的工具,具有特异度高且简单易行的特点,部分国家甚至一度将其确定为高危人群肺癌筛查的主要检查手段。但是该检查方法只对识别中央型肺癌较为灵敏,总体检出率较低,因此限制了其作为肺癌筛查工具的广泛使用。近年出现的薄层痰液基细胞学技术可有效提高检查的敏感度和阳性预测值,并可与其他筛查工具(X线计算机扫描/CT)联合使用,相比传统痰细胞学检查更具优势[32];2)影像学检查。在肺癌筛查的研究历程中,X线胸片、胸部CT、低剂量螺旋CT、正电子发射体层扫描(positron emission tomography,PETCT)、计算机辅助诊断(computer aided diagnosis,CAD)和磁共振成像(magnetic resonance imaging,MRI)等都作为检查工具进行过相应的探索。X线胸片是最早用于肺癌筛查的影像学技术,但由于分辨率低,病变部位易被其他组织结构的影像所遮挡,漏诊率较高。胸部CT可有效地解决这一问题,它避免了前后组织周围结构的遮蔽,敏感性是胸片的8倍左右,分辨率较高,能够发现位置较为隐蔽的病灶。同时薄层高分辨率CT能清晰地显示肺组织的细微结构,更好地帮助医生进行诊断。但是常规CT具有放射剂量大、扫描时间长的特点,不利于肺癌筛查使用。随后低剂量螺旋CT被证实在肺内小结节的检测中可以发挥与常规CT相同的检验效能,因此目前研究普遍认同低剂量螺旋CT是进行肺癌筛查较为合适的筛查工具。PETCT在癌症诊断、分期、疗效评价中具有较好的灵敏度和特异度[33],但在肺内磨玻璃结节检测方面存在不足,假阴性可达60.00%[33];此外费用较高,不适合作为肺癌筛查的常规检查工具[34]。MRI则在对比分辨率和血流动态信息方面表现出较大的优势,可以有效地检测到处于纵隔及胸壁的微小病灶。但其对于肺结节的检出能力不佳,因此目前尚不推荐单独使用MRI作为肺癌筛查的检查工具[35];3)血清肿瘤标志物检查。目前在临床中使用较为广泛的肺癌相关标志物有:癌胚抗原(CEA)、糖类抗原125(CA125)、神经特异性烯化酶(NSE)、铁蛋白(SF)等。但肿瘤标志物的个体差异较大,并且不同病理类型中肿瘤标志物的变化也有巨大影响,其在肺癌筛查领域的检验效能有待进一步验证。近年出现的肺癌自身抗体分子谱筛查的相关研究表明,低剂量螺旋CT联合肺癌7种自身抗体谱诊断肺癌的阳性预测值高达95.00%[36],可较好地弥补影像学筛查的不足。此外,也有研究对循环肿瘤DNA和miRNA等新型生物标志物进行了探索[37-38],认为它们可以作为潜在的非侵入性生物标志物诊断早期肺癌病变,但目前尚缺乏有力的前瞻性研究证据,其临床效能有待验证。

3 讨 论

3.1 主要结论

本文借助文献计量软件对我国肺癌筛查领域的研究历程及热点主题进行了梳理,分析结论如下:

3.1.1 发文量增速加快 1989~2020年我国肺癌筛查领域的发文量总体呈现上升趋势,尤其在2015年以后进入了快速发展期,随着农村/城市癌症早诊早治项目的开展及肺癌筛查与管理专家共识的修订,肺癌筛查的发文量激增,热度有持续上升的趋势。

3.1.2 未形成较为紧密的作者/机构合作网络 根据作者及机构合作图谱显示,1989~2020年我国肺癌筛查领域的跨机构合作较少,机构间的合作网络较为松散,作者群间的交流合作也并不常见,提示肺癌筛查领域的研究大多集中于单一机构和单一作者群,多机构、多作者群的合作研究模式仍处于萌芽阶段。

3.1.3 研究热点相对集中,部分主题关注度较低 根据关键词共现图谱显示,高频及高中介中心性的关键词(例如低剂量螺旋CT、体层摄影术、X线计算机等)大多围绕肺癌筛查的不同工具开展相应研究,而对于肺癌筛查的另一重要环节:高危人群评估/个体风险预测,缺乏足够的关注。关键词聚类图谱的结果与共现图谱所表达的情况十分类似,1989~2020年我国肺癌筛查领域的热点主题集中于肺癌筛查的必要性和可行性,以及肺癌筛查的工具选择及优化,高危人群评估的相关研究尚未取得突破性进展。

3.2 未来展望

我国肺癌的疾病负担沉重,且发病率呈现逐年上升的趋势,将会为社会带来劳动力损失和医疗费用大幅增加的双重影响。国外已经开展了多项肺癌筛查试验研究,包括美国国家肺癌筛查试验(National Lung Screening Trail,NLST)[39]、荷兰—比利时肺癌筛查试验(Dutch-Belgian Randomized Lung Cancer Screening Trial,NELSON)[40]、英国肺癌筛查试验(UK Lung Cancer Screening Trial,UKLC)[41]都证实了低剂量螺旋CT在早期肺癌筛查中的重要作用,也据此制订了一系列肺癌筛查指南[42-44]。国内缺乏此类前瞻性、大规模的人群肺癌筛查试验,于2015年达成的肺癌筛查与管理专家共识也是参照国外相关研究结果而制订,因此亟需开展我国人群特异性的个体化风险预测模型研究及肺癌筛查随机对照试验项目,明确中国人群肺癌筛查有效的起始年龄、适宜人群及筛查策略,为国家开展精准的肺癌筛查提供高质量证据。同时,未来应加强跨机构、作者群间的交流合作,以更好促进我国肺癌筛查领域的发展。

作者声明:本文全部作者对于研究和撰写的论文出现的不端行为承担相应责任;并承诺论文中涉及的原始图片、数据资料等已按照有关规定保存,可接受核查。

学术不端:本文在初审、返修及出版前均通过中国知网(CNKI)科技期刊学术不端文献检测系统的学术不端检测。

同行评议:经同行专家双盲外审,达到刊发要求。

利益冲突:所有作者均声明不存在利益冲突。

文章版权:本文出版前已与全体作者签署了论文授权书等协议。

猜你喜欢

图谱筛查聚类
基于图对比注意力网络的知识图谱补全
二维超声与四维超声筛查方法在筛查不同孕周产前超声筛查胎儿畸形情况的应用价值
预防宫颈癌,筛查怎么做
绘一张成长图谱
NRS2002和MNA-SF在COPD合并营养不良筛查中的应用价值比较
应该如何准确划定产前遗传筛查范围
面向WSN的聚类头选举与维护协议的研究综述
图表
改进K均值聚类算法
主动对接你思维的知识图谱