APP下载

基于电子病历的乳腺癌群组与治疗方案可视分析

2021-07-21徐敏王科戴浩然罗晓博余炜伦陶煜波林海

浙江大学学报(理学版) 2021年4期
关键词:群组病历肿块

徐敏,王科,戴浩然,罗晓博,余炜伦,陶煜波,林海

(1.浙江大学医学院附属第一医院 医工信息部,浙江杭州310003;2.浙江大学医学院附属第二医院 乳腺外科,浙江杭州310003;3.浙江大学CAD&CG国家重点实验室,浙江杭州310058)

随着医院信息系统的不断完善和数字医疗设备的普及,电子病历数据海量增长,这为疾病的诊断和治疗提供了大数据支持,但其复杂性也给数据分析带来了挑战。如何以直观的方式分析电子病历数据,挖掘其隐含的知识和关系,辅助医生诊断和治疗,是目前医学信息应用领域的重要研究方向之一。

当前的电子病历系统仅含信息展示、汇总和筛选等初级功能,不具有数据深层次挖掘和呈现功能。医生只能结合自己的医学知识和经验,经手动筛选对比了解病人病情的发展模式和关联关系,这不仅步骤烦琐、易丢失信息,且误差较大,既增加了数据分析的难度,也影响分析结果的准确性。

电子病历是一种非结构化数据,在机器学习领域已有众多针对该类数据的模型和算法,可有效分析患者数据。然而,由于电子病历数据的多元性和高维性,如何直观地呈现原始数据并分析其结果成为另一难点。可视化技术结合多样的图表和丰富的交互,从不同的抽象层次展现数据,是解决上述问题的有效方法。为此,本文利用机器学习模型先分析电子病历数据,再通过可视化技术展示分析结果,旨在帮助医生直观地发现患者数据中隐含的信息。

乳腺癌是女性中最常见的恶性肿瘤之一,其发病率一直居高不下,并呈年轻化趋势。对乳腺癌相关的电子病历数据进行分析,有助于有效制订治疗规划和进行预后分析。因此,本文以乳腺癌患者的电子病历为研究数据,基于数据特征挖掘相似病人,帮助医生分析不同病人临床特征间的相关性。

本文的主要贡献有:

(1)利用降维聚类算法挖掘相似病人群组;

(2)利用可视化技术展示用户驱动的分析结果,帮助医生分析不同病人间临床特征的相关性;

(3)基于特征相关性,探索不同属性与治疗方案的关系,提供治疗方案预测,辅助术前决策,提高诊断效率和治疗效果。

1 相关工作

有关医疗数据的可视分析研究已取得一系列成果,本节介绍电子病历数据挖掘和电子病历可视化的相关工作。

1.1 电子病历数据挖掘

电子病历为一种非结构化数据,包括病人的结构化属性和非结构化的文字描述,具有多元性和高维性特征,相较纸质病历,电子病历具有易存储和方便查询的特点。多元性是指数据类型较多,如性别属于类别型数据,而年龄属于数值型数据;高维性是指数据维度较高,记录了每位病人的多个属性值,如血压、血糖等。通过挖掘电子病历数据,试图提取结构化的医学概念,包括疾病种类、治疗方法和发展模式等,以帮助医生制订治疗方案,提高诊断效率。

由于数据的多元性和高维性,需利用机器学习或深度学习方法从复杂的电子病历数据中提取信息。JAGANNATHA等[1]将概念提取问题视为序列标记任务,探索了多种基于RNN特征提取的结构学习方法,其目标是为临床病历中的每个关键实体单词分配相关的标签;CHOI等[2]利用word2vec模型将电子病历中的一些临床概念转化为高维向量,然后用这些向量表示病人,并将其作为下游学习任务的输入;LI等[3]使用2层神经网络识别骨质疏松症,并通过模型重建确定影响骨质疏松症的最高风险因素;LIN等[4]提出一种主动学习算法,基于用户的反馈,迭代式识别表征数据中的稀有类别,实现个性化医疗。

本文在数据处理阶段用聚类和降维算法提取群组特征,利用SVM模型预测治疗方案,以帮助医生分析属性和结果间的联系。

1.2 电子病历可视化

电子病历可视化系统TimeLines[5]将不同病人的数据以及医疗行为展示在时间轴上。在使用时可通过点击医疗事件了解详细信息。受此工作启发,PLAISAN等[6]进一步设计了LifeLines,用线段表示医疗事件的持续,用不同颜色标识病人的(正常或异常)状态,以便医生更好地掌握治疗过程和治疗效果。为支持对不同时间粒度和不确定性的医疗事件可视化,COMBI等[7]用更多符号更精细地表示事件的时间信息,如最小持续时间等,并提供了附加视图以展示不同事件的时间关系;ORDONEZ等[8]用2个星形坐标图显示病人12个指标的变化情况,以每30 min为1个时间间隔,将同一时间不同指标用连线绘制成一个多边形,并用动画和不同颜色直观展示指标、身体器官及其关系。

早期的电子病历可视化研究主要侧重于展示单个病人的记录。相对于文本记录而言,其增加了图形编码和简单的交互,医生可直观地查看病人信息。但随着信息技术的发展和电子病历数据的大量累积,仅展示单个病人的数据已无法满足医生查找病人之间的相关性、寻找最优治疗方案的需求。因此,开始关注病人群体的信息挖掘和可视分析。

时间信息是电子病历数据中一类极为重要的特征,大量研究均将患者的时间记录视为时间事件序列 进 行 分 析。WANG等[9]基 于LifeLines、LifeLines2,在时间轴展示的基础上增加了比较功能,并通过对齐、排序和过滤操作强调时间顺序,以帮助医生分析病情的发展趋势;MALIK等[10]设计了病人群组比较可视分析系统CoCo,利用自动统计数据算法,在用户驱动的分析策略下探索不同病人群组之间的异同;RetainVis[11]允许医生改变序列中的医疗事件,如添加、编辑和删除,进行假设分析,以支持诊断风险预测;此外,事件序列查询[12]和推荐[13]等工作也为电子病历数据的进一步探索提供了技术支持;与时间事件序列分析不同,AALIM[14]视电子病历数据为多模式数据,将文本、影像和音频数据的定量分析集成为一个系统,首次提出利用病人记录的相似性实现辅助诊断的思想。这一思想也是本文分析相似病人群组的基础。

2 数据与任务

病人在医院的经历主要包括早期筛查检查阶段和确诊后治疗阶段。电子病历详细记录了病人在医院的各个过程,如入院记录、检查结果、手术记录与出院记录等。

2.1 数 据

乳腺影像报告和数据系统(breast imaging reporting and data system,BI-RADS)分类法是目前主要的乳腺癌评估分级方法,0~6分别表示乳腺癌的严重程度,其含义如表1所示。

辅助检查主要包括:

(1)乳腺钼靶检查和乳腺X光检查,包括检查体位、乳腺分型、乳腺影响、肿块大小等,描述影像的信息有肿块大小、肿块定位、钙化的分布和程度等。

(2)乳腺超声检查,主要包含异常和病灶的声像图描述,如病灶位置、外形、大小、周围组织与边界等,此外,也包含医生对该病灶的结论,如分级及处理建议等。

(3)乳腺磁共振,包含既往病史与检查结果对比、影像发现描述与乳腺组织构成、评估类别和处理建议,也包含对病灶的形状与位置的相关描述。

(4)免疫组化结果,用于评估乳腺组织的浸润状态,判断癌症类型,帮助选择治疗方案,评估预后;检测结果中包含激素受体(ER)、孕激素受体(PR)、Ki-67抗体、CK5/6抗体、P63抗体、calponin抗体、CerbB-2抗原、P120蛋白、E-Cadherin蛋白等属性。

(5)病理报告,描述肿块大小、淋巴结阴阳性、病理组织学分级与类型、手术方案等,肿块大小以2 cm和4 cm为界,分为三类;病理组织学分为I~Ⅲ级,分级越高恶性程度越高;淋巴结阴性表示未转移,阳性表示转移。

2.2 任务描述

医生及医学研究人员希望能串联众多检查数据,通过分析不同患者各项属性的异同,找到共性;用电子病历数据验证在临床实践中得到的与乳腺癌病理状态与预后相关的特征,例如,用计算特征的相关性或p值确定关联度;同时,希望利用机器学习算法自动分析相关数据,在诊治过程中给予帮助,如探索属性对治疗方案的影响,以提高决策正确率。

任务描述:

•T 1特征相关性分析,疾病的各特征间存在相关性,如同时升高或下降,每个特征对疾病的重要性也各不相同,因此分析特征间的关系有助于更好地了解疾病及其治疗方案。

•T 2构建不同的病人群组,相似病人具有相似的症状及治疗方案,对所有病人构建不同的病人群组,以便分析疾病的类型和特征。

•T 3群组之间的分析与比较,可视比较和分析不同病人群组的异同,特别是特征上的差异,有助于更好地了解疾病病程和选择治疗方案。

•T 4治疗方案预测,基于病人当前的特征,构建机器学习模型,预测治疗结果。

•T 5展示病人详细情况,展示病人的电子病历数据及其原始诊疗报告,以便验证结论。

基于上述任务,本文设计了乳腺癌的相似病人群组可视分析和治疗方案系统。

3 相似病人群组的可视分析

用户对病人群组的交互探索从特征的选择开始,系统界面如图1所示。首先,选择感兴趣的特征,然后,选择对病人群组生成的聚类方法和特征降维算法;之后,根据用户的选择,系统将生成相应的结果并展示在对应的视图中,用户通过点击、框选等交互方式探索不同群组间的关系,查看单个病人的纵向病史以及详细病历。

表1 BI-RADS分类法Table 1 BI-RADS taxonomy

3.1 聚类散点图

电子病历数据呈高维特征,首先需做降维处理,降为低维空间后再进行聚类,以寻找相似病人群组。为可视化展示降维与聚类结果,本文用散点图中的点表示病人,并用不同颜色编码病人所属的群组。散点图中的坐标表示高维特征降为二维后的坐标值。用户可以在二维空间中通过散点图洞察病人之间的集聚程度(T 2)。

本文选择多维缩放(multi-dimensional scaling,MDS)[15-17]算法将病人的高维属性降为二维。在降维过程中,尽量保持原空间中的距离关系不变。MDS算法用几何空间(欧氏空间或高维空间)距离计算病人之间的相似性,距离越近两个点越相似。在此过程中,尽可能使距离关系保持单调与相似。

经MDS降维后,将病人情况显示在二维空间坐标,选择K-means等聚类算法进一步分析,聚类散点图将实时展现聚类过程,例如,在图2中,(a)和(b)分别为选择K-means算法聚为两类和五类的结果。

3.2 相似病人群组与群组比较

在选择聚类算法后,系统根据相似性将病人划分为不同的群组。由于每个病人均由多维属性表示,可利用南丁格尔图可视化相似病人群组。如图1(d)所示,每行代表一个群组,用玫瑰表示病人,每个花瓣表示病人的一个属性。对于布尔类属性,若拥有则显示花瓣,反之则隐藏。对于数值属性和类别属性,用花瓣的长短表示,花瓣越长表示该病人在相应属性上数值越大。不同的属性用不同的颜色展示,以便直观感受病人间的差异(T 3)。

图1 系统界面Fig.1 System overview

图2 特征降维图与聚类过程散点图Fig.2 Feature reduction and clustering process scatter plots

为便于比较不同病人群组间的差异,设计了群组比较直方图。如图1(e)所示,在选择两个病人群组后,群组比较直方图将展示其在不同属性上的统计信息。横坐标展示的为群组所具有的属性,为方便区分,相邻2个属性用不同的背景色块表示,分别统计每个属性的不同数值区间,同一群组内的属性共享一致的色彩编码,需要比较的是2个群组展示在横坐标上下两侧的数值。纵坐标表示属于该区间的病人数与其归属群组中病人数占比(r),r值越大,表示在该群组中具有该区间属性的病人越多。此设计有助于快速发现2个群组间的差异,挖掘感兴趣的属性与病人群组模式。当医生接待新病人时,可通过搜索与病人最相似的群组获取该类群组的特征,以帮助制订治疗方案。

3.3 群组特征词云与词频

影像科医生在检查中会根据病人的症状及检查结果做文字描述,以帮助乳腺科医生了解病人病情。系统将从症状描述中提取主题,并用词云进行展示,如图1(b)所示。词云中的字体大小和位置表示主题特征词在症状描述中出现的次数,字体越大,表示出现频率越高,且越靠近词云中心。此外,用直方图展示词频的具体数值,以辅助判断特征词的重要性,如图1(c)所示。描述词汇的直观展示可帮助医生了解病人的症状和比较不同群组之间的差异(T 3)。

3.4 单个病人纵向时间轴

通过访问单个病人的纵向病史研究病人的病情进展(T 5)。从南丁格尔图中选择病人后,由于病人的病史与诊断时间相关,如图1(f)所示,诊断时间轴图根据时间顺序从左到右展示病人所做的检查及治疗事件,横轴展示的为发生的时间点,纵轴展示该检查或治疗事件的类别。点表示病人在该时间点发生的医疗事件,用不同颜色编码该时间点的事件类别,点击该点可显示原始病历,如图1(g)所示的病理诊断报告详文,方便多层面对信息进行分析。

4 治疗方案设计可视化

基于乳腺癌电子病历数据建立的预测模型,可根据患者属性预测治疗方案,如只提供预测结果,很难使用户理解不同病人的属性差异和特点。为解决此问题,本文设计了一个可视分析系统,通过视图和交互,帮助医生分析病情和预测结果,辅助制订治疗方案。

4.1 预测模型

本文用支持向量机(support vector machine,SVM)分类方法预测治疗方案(T 4)。SVM是解决二分类问题的分类模型,其基于结构风险最小化原则,在样本空间中寻找超平面分割样本。

4.2 平行坐标

特征关联的平行坐标图用多个相互平行的纵轴表示不同的属性,纵轴上的刻度表示其对应属性的值。将每个病人可视化为一条穿插于多个纵轴之间的曲线,其与不同纵轴的交点表示该病人在该属性上的值,用不同的颜色区分类别的属性或属性值。如图3所示,系统用不同的颜色将表述患者病情严重程度的ER属性值映射到曲线,如平行坐标图右侧的色带所示,曲线的颜色越红表示病情越严重,越紫表示越轻缓(T 1)。

图3 特征关联的平行坐标Fig.3 Feature-related parallel coordinate

4.3 矩阵热力图

矩阵热力图可用于表示属性权重。由于每个属性在每个分类器中具有不同的权重,可自然地由矩阵表示。受此启发,本文采用矩阵热力图的形式展示各属性在各个分类器中的权重,以帮助医生快速观察最相关的特征(T 4)。

系统根据特征权重的数值进行颜色编码,如图4所示,红色表示特征权重为正值,颜色越深表示数值越大;蓝色表示特征权重为负值,颜色越深表示数值越小。在矩阵热力图中,颜色越突出的方块表明该属性对该分类器的影响越大,反之则颜色与背景色越相近,此设计可提示医生哪些是影响较大的属性。同时,可通过右侧的色带,设置矩阵热力图中展示权重区间的上界和下界,实现过滤操作,隐藏权重过小或为负值的属性,使医生聚焦于感兴趣的区间。

图4 分类权重矩阵热力图Fig.4 The heat map illustrates the classification weight matrix

4.4 分类图

为帮助医生分析预测模型的分类结果,设计了分类图。由于在分析过程中,不仅需要对预测模型的整体表现有直观的认识,也需要详细分析不同病人的分类预测情况,系统用不同颜色区别治疗方案,以列为类别聚集,每个小方格表示一个病人,方块位置表示分类结果。

图5显示了“乳房单侧切除”这一类别的手术治疗方案预测结果。左侧的纵轴表示预测概率,“乳房单侧切除”属性作为一条纵轴将预测样本划分为左右2个区域,右侧为预测正确样本,左侧为预测错误样本。每个方块的颜色由表示该病人实际所属的类别决定,颜色编码规则展示在对应图例中。由此,分类器预测的精确度可由右侧的方块数得到,即为与纵轴颜色相同的方块数与正确分类样本数之比。此外,可通过方块在概率预测纵轴上的分布洞察模型的准确率,即越靠近顶部的方块,预测正确率越高。通过这些设计,可直观感受预测模型的准确率和精确度,也可通过点击方块获取该病人的详细信息,完成进一步调查。

图5 预测结果分类图Fig.5 The classification chart displays prediction results

5 案例分析

为验证系统的有效性和准确性,选取与乳腺癌病人相关的电子病历数据进行辅助属性分析、病理特征分析和治疗方案设计评估。所用数据主要包括病理诊断报告、B超报告、磁共振(MRI)诊断报告、乳腺钼靶诊断报告等,具体数据与数据量如表2所示。

表2 电子病历数据源Table 2 Dataset of electronic health record

5.1 辅助属性分析

在辅助属性分析上,医生希望通过辅助检查将病人划分至已有的病人群组,供后续治疗参考,或从病人群组中找到可帮助诊疗的分析结果。

本案例采用MDS降维算法与K-Means聚类算法,针对表2中的病理诊断报告、B超报告、磁共振诊断报告和乳腺钼靶诊断报告,将病人群组分为6类,降维和聚类结果如图6所示。在降维和聚类过程中,由于算法具有随机性,可通过交互调整算法中的参数,如K-Means中的K值优化结果。通过散点图观察降维和聚类结果是否符合预期(分布是否均匀,有无噪点),以便进行后续分析。

图6 降维和聚类结果Fig.6 Clustering results after dimensionality reduction

病人群组分类结果如图7所示,同一群组中病人的南丁格尔图较为相似,而不同群组之间则差异较大。群组1和群组2对应的特征描述词云如图8所示,此有助于确认2个群组间的差异。对总体样本而言,囊性增生和淋巴结肿大是其主要特征;对群组1而言,除了囊性增生外,肿块和肿瘤标志物(CA)也较为突出;对群组2而言,结节和囊性增生是其突出特征。此外,可发现CA伴随肿块一起出现,且随肿块出现频率的增加而增加。对比群组1与群组2可知,肿块出现的病人较结节出现的病人患恶性肿瘤的可能性更高。

图7 病人群组分类结果Fig.7 Nightingale diagram for different cohorts

图9 为选择CA、肿块和结节属性后的病人群组图。从图9中可发现,肿块与CA呈伴随出现的特点。对同时具有3类特征的病人,其肿块也较大,病情更为严重。

此外,在群组1中,病人的BI-RADS分级均较高,平均在4c级以上,见图7(a);而在群组2中,病人的分级较低,基本为4a和4b,见图7(b)。为进一步探究两者之间的差异,图10展示了此2个群组的比较直方图。对于BI-RADS属性,群组1(蓝色)中大部分病人为偏恶性与恶性,良性仅占极小部分。病理检查显示,其中90%为浸润性乳腺癌,且组织学分级在Ⅱ、Ⅲ级,淋巴结转移比例较高,表明该类病人病情严重。大部分病人在手术方案上选择单侧切除或改良根治术。相比之下,在群组2(绿色)中,病人的BI-RADS分级较低,且肿块大多小于4 cm,大部分未出现转移现象,为保障术后生活质量等,大多病人选择切除肿块、保留乳房的手术方案。

图8 特征描述词云Fig.8 T heme word cloud for different cohorts

图9 选择肿块、结节、CA特征后的病人群组图Fig.9 Nightingale diagram that focuses on lumps,nodules,and CA

图10 群组1与群组2比较直方图Fig.10 Comparison of histograms for cohort 1 and cohort 2

通过观察群组1和群组2,进一步推测病人选择手术方案时受肿块、浸润性的影响较大。对肿块较大和可能感染到周围组织的浸润性乳腺癌,因复发与转移可能性较大,倾向于选择单侧乳腺切除或改良根治术。对于病情较轻的群组2,因肿瘤还未浸润到其他组织,大多选择切除肿块的方案。此推测的合理性得到验证,在乳腺彩超与病理结果的关联分析中亦得到证明,本系统对乳腺癌早期筛查是有效的。

5.2 病理特征分析

选择表1中的免疫组化报告和病理报告数据,对140位病人进行特征分析,以证明系统的实用性和有效性。

在对病理报告做整合处理后,排除了部分缺失数据,最后得到138位病人免疫组化中的ER、PR、Ki-67、CerbB-2四个特征和病理报告中的淋巴结情况、肿块大小、病理类型、组织学分级、手术方案,并进行联合分析,经MDS降维和K-Means聚类后,得到6个病人群组。

如图11所示,通过比较群组2(绿色)和群组3(蓝色)发现,群组3中淋巴结阳性表达较少,而群组2中淋巴结阳性表达较多。进一步分析发现,在群组3中,大多肿块较小(<2 cm),且在组织学分级中多表现为高分化低恶性;而在群组2中,大多肿块大于2 cm,组织学分级大多在Ⅱ级以上,浸润性低分化恶性肿瘤占大多数。由此可猜测,淋巴结是否发生转移与病人的肿块大小及其组织学分级有较大关系。此结论已得到乳腺科医生的证实。

5.3 治疗方案设计

通过选择平行坐标进行属性相关性探索,图12(a)以平行坐标的方式展示了随机选取的94位患者的属性。可观察到ER和PR属性在很大程度上拥有相同的阳性表现,具有很强的相关性。ER属性值越大,阳性越强,病人的BI-RADS分级也越高,肿块直径大多在2 cm以上,且组织学分级主要分布在Ⅱ和Ⅲ级。

图12(b)展示的为组织学分级为Ⅰ级的病人,可以明显看到此类病人的ER和PR属性大多为阴性。进一步过滤肿块大于2 cm的病人,发现大部分病人选择了肿块部分切除的手术方案。由此可推断,ER和PR等免疫组化属性的表达与肿瘤的恶性程度有较大关系。当ER和PR属性未呈现阳性且肿块较小时,可采取只切除肿瘤部分的手术方案。

图11 群组2与群组3比较直方图Fig.11 Comparison of histograms for cohort 2 and cohort 3

图12 病人属性平行坐标展示Fig.12 Patients'features displayed by the parallel coordinate

图4展示了预测模型在治疗方案预测过程中各特征在各分类器中重要程度。从中可发现:

(1)对所有分类器而言,患者的年龄均展示在黄色方块中,表明年龄并不是影响治疗方案选择的主要因素。

(2)针对全切与保乳分类器,肿块大小的绝对权重值最高,其他分类器的权重值均较小,说明在考量全切还是保乳手术的决策过程中,肿块大小是决定性因素。

(3)ER和PR等属性与淋巴结转移情况对改良根治手术的选择影响较大,此结论得到了医生的证实。在改良根治手术中,在切除乳房的同时会清扫腋下淋巴结组织,较适合有转移的病人。

对50位病人的治疗方案预测结果见图13,四类治疗方案分别为肿块切除(蓝色)、乳房单侧切除(绿色)、改良根治(红色)和新辅助治疗(紫色)。由图13可知,大部分病人采用肿块切除(蓝色)方案,而采用新辅助治疗(紫色)的病人较少。虽然部分采用肿块切除与乳房单侧切除的病人在预测过程中可能出现混淆,但总体来说,能较准确预测大部分患者的治疗方案。

图13 治疗方案预测结果Fig.13 Prediction of treatment plans

6 结 论

为帮助医生有效地探索和分析乳腺癌患者的电子病历数据,设计并实现了一个基于相似病人群组的可视分析系统。该系统通过用户驱动的方式选择特征,对病人信息进行降维和聚类,以帮助医生分析不同群组之间的区别与联系。该系统还可分析不同治疗方案和属性之间的相关性,以帮助医生进行术前决策,提高诊断效率。

未来工作将尝试分析更为庞大的数据集,并进行多角度探索,如预测患者生存率、追踪疾病的发展模式等,紧密结合医生需求,提高系统的普适性、完整性和实用性。

猜你喜欢

群组病历肿块
强迫症病历簿
电子病历在医院信息化建设中存在的问题探析
颈部肿块256例临床诊治分析
“病例”和“病历”
彩超诊断乳腺肿块良恶性临床分析
Boids算法在Unity3D开发平台中模拟生物群组行为中的应用研究
临床表现为心悸的预激综合征B型心电图1例
经腹及经阴道超声在诊断盆腔肿块中的应用
完形填空精选