人工智能及机器学习在非酒精性脂肪性肝病中的应用

2022-10-19王雪莹李珊珊郑皓允严琴琴

临床肝胆病杂志 2022年10期

冯巩，王雪莹，李珊珊，贺娜，郑皓允，严琴琴，弥曼

1 西安医学院 a.全科医学研究所， b.全科医学院， c.公共卫生学院，西安 710021；2 西安医学院第一附属医院消化内科，西安 710077

非酒精性脂肪性肝病(NAFLD)已成为全球最常见的慢性肝病，有学者提出NAFLD可以作为代谢综合征的肝脏表现，并应更名为代谢相关脂肪性肝病[1-3]。NAFLD的病程主要有单纯性脂肪肝、非酒精性脂肪性肝炎(NASH)、脂肪性肝硬化和肝细胞癌。目前，肝活组织检查仍然是NAFLD诊断的“金标准”，但其具有侵入性，可能导致疼痛、感染、出血等严重并发症。近年来，人工智能(artificial intelligence，AI)在医学领域迅速发展，来自多个国家的学术研究小组也积极参与肝病相关的机器学习(machine learning，ML)/深度学习(deep learning，DL)研究。以“人工智能”、“非酒精性脂肪性肝病”及其自由词为检索词，可见2013年—2022年PubMed、CNKI等数据库共发布有相关中文文献36篇，外文文献308篇，年度发文量呈逐年上升趋势。本文总结既往研究成果，对AI、ML在NAFLD诊断、治疗和预后中的应用现状和发展前景作一综述。

1 AI和ML的概述

AI是数据分析技术的集合，旨在从多维数据集中构建预测模型。自从ML提出以来，AI成为搜索最多的词，有学者将ML描述为主要的AI应用程序，也有学者将其描述为AI的一个子集。ML从训练数据集生成一个数学算法，并利用该算法对结果进行预测或做出决策。后来神经网络的发展使机器能够像人脑一样对输入的数据进行分类组织。DL一词又在多层神经网络的基础上被提出。AI、ML及DL的关系是：DL是ML的子集，ML是AI的子集[4]。

按照训练方法的模式，ML可分为有监督学习、无监督学习、半监督学习和强化学习(图1)。监督学习适用于带有标注的数据，它使用输入输出对的形式和常用技术处理这些数据，常用技术包括线性回归、逻辑回归(logistic regression，LR)、决策树(decision trees，DT)、k近邻(k-nearest neighbors，kNN)、支持向量机(support vector machine，SVM)、随机森林(random forest，RF)、朴素贝叶斯分类(Naïve Bayes)和梯度增强(gradient boosting，GB)[5-6]。无监督学习适用于处理无标签的数据，它要求根据数据本身的结构特征对数据进行分类。半监督学习融合了有监督和无监督2种学习方式，适用于分析大量未分类数据，能够提高从大数据集合中提取信息的速度和准确性。强化学习与其他算法的不同的是，强化学习没有管理者，仅有一种奖励信号，其关注智能体与环境之间的交互，目的是达到奖励最大化或实现特定目标。目前，基于医学数据的来源和特点，医学领域使用较多的是监督学习[7-12]和半监督学习[13]。

图1 ML的分类和常用算法

根据建模目的的不同，模型可分为诊断模型、治疗模型和预后模型。诊断模型主要用于NAFLD、NASH和纤维化的评估。治疗模型的应用主要集中在新药开发、个性化生活方式指导和疗效随访等方面，有助于指导个性化饮食，加速新药研究和改善治疗计划。预后模型主要用于预后预测，跟踪患者的生存状态，方便医生指导预后管理。

2 AI在NAFLD诊断中的应用

NAFLD的传统评估模型采用了多种评估指标[14-15]等，一般而言，这些指标均属于初级AI模型。与传统统计建模相比较，AI具有明显的优势，可识别独特的模式，并综合各种因素建立风险分层模型[16]和预测疾病结果。根据AI分析数据来源的不同，将应用于诊断NAFLD的研究模型分为以下几种类型：以电子健康记录(electronic health record，EHR)数据和实验室指标为基础、以超声成像数据为基础、以放射成像数据为基础和以肝组织病理学数据为基础的模型。

2.1 基于电子健康记录数据和实验室指标的诊断模型随着医学诊断技术的不断发展，具有智能诊断功能的EHR系统已成为当今医学信息科学中最受关注的课题之一。EHR系统包含结构化数据(如诊断代码)和非结构化数据(包括实验室指标在内的临床文档)，通过使用AI算法对这些数据进行分析，可以筛查NAFLD/NASH患者，还可以得出疾病进展的风险。目前，EHR分析所使用的AI算法包括基于自然语言处理(natural language processing，NLP)的方法，基于文本搜索的方法和基于国际疾病分类的方法。van Vleck等[17]对上述方法进行评估，在EHR数据中识别NAFLD，与基于国际疾病分类和文本搜索的方法相比， NLP方法的总体性能最优。

2.2 基于超声成像数据的评估模型超声检查是目前较为成熟且经济有效的肝脂肪变性诊断方法，但也存在不足，包括对轻度脂肪变性的诊断准确性较低，定性较差等。定量超声的成像方法主要有弹性成像、回声分析和斑点统计建模等，这些超声成像方法补充了定量组织的信息，因此可以通过它们的结合得到肝脏的特征，其中ML模型是实现这一功能的主要手段，迄今为止，超声检查衍生的ML模型已经应用于心血管，神经系统疾病以及慢性乙型肝炎等疾病[18]。Tang等[19]以组织病理学评分作为参考标准，建立了基于QUS参数的ML模型。该研究结果证明，QUS参数相较于简单的剪切波弹性成像提高了脂肪性肝炎、炎症和纤维化等疾病的分类准确性。Wu等[20]建立了超声预测脂肪肝疾病的RF模型，模型受试者工作特征曲线下面积(AUC)达到0.93，在性能上优于Naïve Bayes、人工神经网络和LR模型。

2.3 基于放射成像数据的评估模型在医学成像领域，影像学和AI的结合提高了肝纤维化分期的准确性。此外，在非对比增强T1加权MRI图像中，结合基于图像纹理分析的衍生参数和ML,肝纤维化的量化具有更高的准确性。人工追踪肝脏的兴趣区域(region of Interest, ROI)是在CT上测量肝脏衰减情况以诊断NAFLD的标准方法。但人工跟踪所需要的资源巨大。为了解决这些局限性并扩大CT定量测量肝脂肪变性的有效性，Huo等[21]提出了一种基于ROI的自动肝脏衰减测量方法来自动估计肝脏衰减情况。其主要包括2个阶段：(1)基于深度卷积神经网络的肝脏分割；(2)ROI自动提取。该方法简单快速，在每次CT扫描后5 min即可完成肝脏衰减评估。Graffy等[22]开发了一种自动进行肝脂肪定量分析的工具,可以确定大规模人群筛查中脂肪变性的患病率。该工具通过使用三维卷积神经网络，分析了基于体积的肝脏衰减情况。结果表明，客观数据与手动测量结果吻合良好。通过利用NLP，许多研究开发了能够“阅读”全文放射学报告的算法，以准确识别脂肪肝是否存在。这些算法可以快速筛选病例，促进流行病学和临床研究的发展。

2.4 基于肝组织病理学数据的评估模型在病理学诊断方面，经验丰富的肝脏病理学家有限，其对肝脏疾病各种组织学特征的检测及定量结果的一致性也存在差异，且半定量人工分级评分的使用有限。AI软件可以自动识别和评估NAFLD的组织学特征，可以对肝损伤情况进行连续而非半定量的评估。并且观察者之间和观察者内部的评估一致性较高[23]。

NAFLD的病理学评估包括4个关键特征：脂肪变性、小叶炎症、纤维化和肝细胞气球样变。目前，很多研究为了通过ML算法自动量化NAFLD评分[24]或为了预测肝纤维化的严重程度[25]，已经在啮齿类动物和人类脂肪肝的自动组织病理学分类方面做出了许多尝试。Koleck等[26]通过使用监督ML和图像处理技术等，建立了能够预测脂肪变性的分类器。对于脂肪变性的预测，该模型的准确度、灵敏度和AUC分别为94.2%、95%和99.1%。Vanderbeck等[27-28]采用类似的方法开发了包括Naïve Bayes、LR、DT以及神经网络在内的能够相对准确地检测和定量描述人类肝脂肪变性的自动分类器。上述研究初步证明了NAFLD主要组织学病变自动量化的可行性，同时也期望自动量化技术能进一步发展成为病理学家在临床及临床试验中评估NAFLD活检的一种潜在辅助手段。

2.5 NAFLD、NASH和纤维化的评估模型通过上述论述，NAFLD的诊断重点是区分健康与NAFLD/NASH，区分单纯性脂肪肝与NASH[17]以及纤维化与非纤维化[10]。NASH提示NAFLD的进展和恶化，但是目前只有通过活检才能确诊，因此探讨无创性ML模型在NASH评估中的作用具有重要价值。

诊断模型主要就是用于NAFLD、NASH和纤维化的评估。例如，在一项基于23个常规临床和实验室参数的研究中，采用了不同的算法对NAFLD进行评估，算法包括LR、岭回归、AdaBoost和DT模型。研究[29]表明，训练组和验证组AUC(95%CI)分别为0.87(0.83～0.90)和0.88(0.84～0.91)，岭回归是性能最好的算法。通过采用大规模AI训练队列进行模型开发，发现验证队列的预测结果可能比传统的生物统计方法更精确[30]。

在NAFLD中，肝纤维化的严重程度是决定患者长期预后的关键因素。Feng等[25]开发一种新的机器学习算法(machine learning algorithm，MLA)来预测NAFLD的纤维化严重程度。与其他算法相比，在训练队列中,MLA对显著性纤维化纤维化的诊断准确率AUC最高0.902(95%CI：0.869～0.904)，在验证队列中，MLA也显示出最高的AUC为0.893(95%CI：0.864～0.901)。但目前对纤维化的研究还不多，今后的研究可以更多地关注这个方面。

3 AI在NAFLD治疗中的应用

3.1 个性化生活方式指导下的治疗模式 NAFLD一直被认为是糖尿病的并发症之一，因此与NAFLD患者的饮食和血糖控制相关的治疗也越来越受到重视。AI算法能够为患者提供个性化的饮食指导，进而为NAFLD的防治提供个性化的营养咨询[31]。Zeevi等[32]测定了800例个体对40多种食物的餐后血糖变化情况，发现该队列人群对相同食物的反应差异很大。在此数据基础上，研究人员设计了ML算法-GB回归，这是一种数据驱动的方法，将血液参数，饮食习惯、人体测量、体力活动和肠道微生物群等因素有机地结合起来，对实际生活中餐后血糖反应进行个性化预测。随后，研究人员在一个相互独立的100例队列中对上述预测方法进行了验证，结果表明，基于该算法的随机对照饮食干预导致餐后血糖波动降低，肠道菌群结构持续改变，这也就意味着个性化饮食能够成功改善餐后高血糖及其带来的不良代谢后果[33]。

另一种研究设计是从人群中收集饮食和微生物组的数据[34]，推出饮食如何影响微生物组组成的AI模型，然后通过控制饮食干预来验证这个模型。

上述AI算法通过指导个性化的饮食来帮助控制NAFLD的发展。在未来，患者可能会佩戴监测设备记录饮食，然后通过DL处理信息，并由AI进行整合，再结合其他各种数据，为患者和健康人提供个性化的饮食建议和营养咨询，从而达到治疗和预防NAFLD的目的。

3.2 与NAFLD治疗药物开发相关的AI模型大量基础研究成果表明，基于基因数据识别靶点可以提高药物研发成功率、加快上市速度并降低开发成本，同时随着AI技术的不断发展和成熟，也可以进一步应用AI优化药物和新疗法的研发。如果从包含微生物组、基因组数据、蛋白质组、代谢组信息的“深层”分子图谱开始，并结合生理测量，在某些情况下，可能能够直接跳过动物试验而进入人体试验。目前，多种ML系统和AI技术已经被用于寻求免疫肿瘤药物和代谢疾病的新疗法，相信在不远的未来，AI和ML将开创一个更快、更廉价、更高效的药物开发时代。

然而，目前临床上尚无控制NAFLD进展的有效药物。法尼醇X受体激动剂可以逆转胆汁酸代谢失调，可能是预防和治疗NAFLD的潜在疗法，基于结构的虚拟筛选利用分子对接技术从含有大量化合物小分子的数据库中，筛选出对接得分靠前的化合物作为潜在药物的计算辅助药物，进而加速药物发现。但遗憾的是，基于结构的虚拟筛选在法尼醇X受体中的成功报道并不多见。

4 AI在NAFLD预后中的应用

绝大多数NAFLD患者预后良好，肝组织学进展缓慢甚至呈静止状态，但也有多种因素导致疾病发展为NASH、晚期纤维化和肝硬化、肝细胞癌，并增加心血管事件等并发症发生的风险。Calzadilla-Bertot等[34]使用竞争风险多元回归等算法开发并验证了ABIDE模型，在NAFLD代偿性肝硬化患者中，该模型可以预测未来的肝脏失代偿。NAFLD和肝硬化具有进展为肝细胞癌的风险，因此对NAFLD和肝硬化患者进行肝细胞癌监测十分必要。Bianco等[35]利用线性回归及逻辑回归等算法开发了多基因风险评分模型，发现该评分提高了检测NAFLD相关肝癌的准确性，并可能有助于对有代谢障碍的个体的肝癌风险进行分层。目前AI在NAFLD预后中的应用较少，但有许多其他的模型也用于NAFLD的预后评估。Younes等[36]对1173例来自欧洲的NAFLD患者进行非侵入性评分系统(NFS、FIB-4、BARD、APRI)和肝纤维化评分(hepamet fibrosis score，HFS)的评估，证实了NFS、HFS和FIB-4是临床预测NAFLD患者预后的有用工具。肝纤维化及肝硬化常导致门静脉高压症，增加了食管静脉曲张破裂的风险。Petta等[37]在对一项NAFLD相关的代偿性肝硬化患者的大型多中心队列研究中证实Baveno Ⅵ标准和扩展的Baveno Ⅵ标准可以避免在相当大比例的此类患者中行食道胃十二指肠镜筛查静脉曲张的需要，并且在排除静脉曲张方面，扩展的Baveno Ⅵ标准相较于Baveno Ⅵ标准更有效。

5 总结

目前，NAFLD的诊断和治疗仍面临诸多难题。医疗AI技术备受关注，发展前景良好，但在实际应用上才刚刚起步，无论是技术本身还是外部环境都存在着诸多限制因素，如ML算法发展过程中缺乏高质量数据集、数据量不均衡和数据标准化不足、诊断效能有待提高、个性化治疗方式需要优化等。当然，ML在NAFLD研究中的潜力还远远没有发挥出来，要提高NAFLD的诊断效率，优化个性化治疗方式还有很长的路要走。

近年来，重新激发了人们对可解释人工智能(explainable artificial intelligence，XAI)领域的科学兴趣。XAI与一般的AI应用程序类似，只不过XAI算法的流程和结果能够被解释，使人们能够理解AI和ML是如何用于决策、预测和洞察的。但XAI在NAFLD研究中的应用不多，未来还有待进一步探索。此外，近年来组学技术的发展为进一步研究NAFLD的病理生理机制提供参考。与病理生理学相关的基因组学、微生物组学、转录组学、代谢组学/脂质组学和糖组学为NAFLD的诊断和治疗提供了巨大的潜力。AI是一种数据驱动和无假设的方法，可结合临床因素实现隐藏模式疾病的检测或预测，对来自组学的大数据集进行精确分析，这也是AI能在NAFLD领域得以发展的重要优势。肠道微生态作为一个新的研究方向。也正在被人们所发掘，其参与者机体的代谢并与相关疾病的发生、发展相关，尤其在NAFLD形成过程中起到关键作用。从肠道菌群的治疗角度出发，有望成为治疗NAFLD的新方法。尽管目前中西医及多领域对 NAFLD 与肠道菌群的关系有很多研究成果，但是仍然有很多问题至今尚未解决，未来需要进一步展开探索。

利益冲突声明：所有作者均声明不存在利益冲突。

作者贡献声明：冯巩、弥曼、严琴琴、李珊珊负责课题设计，资料分析，撰写论文；冯巩、王雪莹、郑皓允参与文献检索及相关资料收集；冯巩、贺娜、弥曼、严琴琴负责拟定写作思路，指导撰写文章并最后定稿。