机器学习在多组学数据分析中的应用

2021-11-27孙筱松何宇腾

科技与创新 2021年24期

邱越，邢卓，孙筱松，何宇腾

（中南大学湘雅医学院，湖南长沙 410012）

近年来，对基因组、转录组、蛋白质组、代谢组和脂质组的大规模研究积累了大量数据，使在分子水平上研究疾病成为可能。多组学数据分析旨在结合多个组学数据进行分析，以确定生物过程的机制。多组学数据的综合分析可以帮助科学家了解基因调控的条件或患者特异性机制。在这篇综述中，我们讨论了将各种类型的组学数据组合在一起并使用各种机器学习模型进行分析的挑战、方法及其应用。

1 基于机器学习的多组学数据分析的挑战

多组学通过跨越不同的组织层（例如，来自DNA、RNA、蛋白质、代谢物等）来识别与生物过程相关的分子标记。多组学数据分析面临数据降维、数据异质性与整合的挑战。

1.1 数据降维

在多组学数据的综合分析中，经常会遇到样本数量少，但要研究的变量数量多，造成样本数量不足以获得统计显著结果的情况。例如，在根据DNA甲基化、miRNA表达和基因表达测量（变量）对卵巢癌患者（样本）进行分层时，变量的数量可能大大高于样本的数量（只有几百个患者，但有数千个变量），出现了维度问题。维度问题会使大多数机器学习方法容易过拟合，即在训练数据上非常准确而对测试数据的泛化能力较差。通过降低数据的维度并保持相同数量的样本，可以应用统计技术和机器学习来提取有用的信息。特征提取或特征选择是常用的数据降维方法。特征提取将数据从高维空间投影到低维空间，而特征选择通过仅识别原始特征的相关子集来降低维数。

1.2 数据异构与集成

对于多组学数据分析，数据异质性是另一个挑战，因为这些数据是由不同的技术（如测序与MS、微阵列与MS）和平台（如靶向与非靶向、高分辨率与单细胞）。组学数据以多种形式存在，包括序列（如RNA-Seq、转座酶可接近的染色质测序）、图表（如代谢途径、调控网络）、几何信息（如结合位点、蛋白质折叠）和空间成分（如细胞室）。生物变量可以连续或离散地测量或分类[1]。ROHART等人[2]开发了一个名为MixOmics的程序，用于数据探索、缩小和可视化多组学数据。然而，由于这些数据的异质性和多态性，将这些不同的数据类型整合到一个单一的预测模型中是一项挑战。

2 机器学习在多组学数据分析中的应用

2.1 机器学习

机器学习是人工智能的主要领域之一，它是一种算法框架，可提供对数据的智能处理，同时促进推理并提供确定函数关系的初始设置。机器学习的主要优势是无需人工干预即可学习和制定算法的能力。此外，机器学习的准确性随着训练数据的增加而增加。在机器学习的数据分析过程中，首先需要选择对预测输出贡献最大的特征变量；其次，通过机器学习的不同方法对选定的特征进行分析，整合所有特征形成预测模型。

机器学习在多组学数据分析中的主要应用有以下四个部分：①患者分层以发现人类疾病的各种亚型并发现不同的治疗/预后结果；②通过生物标志物发现，研究各种疾病状态下组学特征的检测；③通过通路分析，发现各组之间的关系，例如基因或蛋白质在正常和疾病状态下的各自状态；④通过药物再利用和发现，以确定新药或原来为其他疾病开发的现有有效药物用于其他疾病研究的疗效。

2.2 人类疾病各亚型的分类

基于机器学习的多组学数据分析允许将患者分类为疾病的各种亚型。LIST等人[3]结合甲基化和基因表达数据构建分类模型，对乳腺癌亚型进行分类，并将其与基于金标准PAM50的模型进行比较。TAKAHASHI等人[4]开发了一种使用多组学数据准确预测肺癌患者生存率的新方法，他们通过无监督学习技术，使用来自癌症基因组图谱（TCGA）的六类多组学数据集，探索了多组学分析在准确预测各种亚型肺癌患者预后方面的新潜力。

2.3 生物标志物发现

通过基于机器学习的多组学数据分析可以发现新的生物标志物。FORTINO等人[5]使用综合转录组学分析和通过机器学习方法发现共89个生物标志物，破译了疾病相关的特征基因。XU等人[6]系统地描述了一种通过常用机器学习方法从蛋白质组学数据中发现蛋白质生物标志物的策略。

2.4 通路分析

为了通过基于机器学习的多组学数据分析发现个体组学之间的关系，FRIDLEY等人[7]提出了一种整合模型，将通路分析和随机搜索变量选择结合到贝叶斯分层模型中，该模型同时识别对表型的直接和间接基因组影响。

2.5 药物发现和再利用

通过基于机器学习的多组学数据分析，OH等人[8]提出目前的药物基因组学数据分析可以向两个方向扩展，以拓宽对药物反应的理解。第一个方向是进行通路水平分析，很难在个体基因水平上分析药物反应的生物学变异性，难以解释和解释基因-药物关联。因此，药物基因组学研究的重点正在转变为在生物途径水平上研究多种基因产物。第二个方向是进行多组学水平的分析，XU等人[9]通过整合多种遗传和表观遗传（基因表达、拷贝数变异和DNA甲基化）改变的组合效应，确定了个体抗癌药物反应的亚途径特征。多组学数据整合分析有助于开展精准医学研究，揭示复杂的生物学机制。

3 讨论

多组学数据是使用多个平台生成的数据，因此在数据存储和格式上存在显著差异，并且大多数多组学集成和分析工具要求数据为特定格式，因此需要对个体组学数据进行预处理。由于大多数多组学数据分析的集成方法计算量大，并且受到维数灾难的影响，因此需要减少输入数据集的大小。然而，由于缺乏通用标准，决定适当的过滤标准具有挑战性。随着高通量测序技术的进步和多种组学数据的出现，收集各种组学数据变得越来越具有成本效益，并将变得越来越有用。在本文中，概述了机器学习模型、相关工具和基于机器学习的人类相关疾病多组学数据分析的最新成果，并强调了当前的挑战和成就，基于机器学习的多组学数据分析在疾病中的应用。