登革热感染转录组分析及生物标记识别大数据平台设计

2022-07-08谢树仁王嘉琪黄佳雨陈强李永生

电子技术与软件工程 2022年8期

谢树仁王嘉琪黄佳雨陈强李永生

（海南医学院生物医学信息与工程学院海南省海口市 571199）

1 引言

登革热（dengue fever）感染等热带病是影响人类健康的重要传染性疾病。全世界有一半以上的人口生活在有登革热传播风险的地区，由于目前没有有效的病媒控制程序以及许可的疗法或疫苗，使登革热这种疾病成为世界三分之二人口的公共卫生威胁，为人类健康带来了沉重负担。登革热病毒感染疾病的严重程度和临床结果是由患者的免疫状态和影响对感染反应的个体差异造成的。虽然大量的实验或计算方法为登革热感染提供了重要的见解，但我们对感染触发的细胞反应理解还远远不够。

通过对人类外周血中宿主基因表达改变的微阵列或测序分析，已经进行了鉴定与登革热发展相关的基因的尝试。例如，Devignot 等人基于基因表达谱破译了登革热休克综合征期间宿主反应的改变，并强调了先天免疫在重症登革热中的作用。全血转录组分析揭示了关键的转录因子(即STAT1,IRF7, IRF9 和CEBPP)，介导了登革热感染的早期宿主反应。对DENV 感染患者的连续全血样本进行了分析，发现该疾病与转录组信号从免疫和炎症向细胞周期的转移有关。此外，通过整合多队列转录组研究人员识别了一个20 个基因集的特征被确定为严重登革热进展的预测因子。这些研究确定了与登革热感染的发展和进展相关的生物标志物的数量。

随着大规模组学技术以及整合多组学数据的生物信息学方法的发展，计算系统生物学为研究宿主-病原体间复杂的交互关系提供了新的视角。越来越多的感染性疾病相关多组学资源库被建立，例如LeptoDB 存储了关于螺旋体相关的基因组和蛋白组数据，DenvInt 和DenHunt 存储了登革热病毒和宿主互作的资源。在2019 新型冠状病毒爆发之际，国家生物信息中心（CNCB)/国家基因组科学数据中心(NGDC)建设了新型冠状病毒信息库。我们课题组最近也建立了免疫相关lncRNA 调控资源库ImmLnc及病毒-宿主miRNA 互作资源VmiReg，这些基因库的构建为我们理解感染与免疫的分子机制及抗病毒治疗起到了积极的推进作用。

登革热感染等转录组大数据的出现为热带病的防控提供了较好的数据资源，但是对于临床研究人员而言，面对如此巨大的数据量又显得无能为力。特别是随着海南自贸港建设逐步深入，海南对外交流将更加频繁，面临巨大的热带病等传染性疾病的输入风险，海南也将处于全国热带病防控的第一线，因此为保障海南自贸港建设，加强热带病研究和预防控制，识别精准的登革热感染等热带病生物分子标记是非常有必要的。因此，急需基于登革热转录组大数据等建立分析以及可视化平台，识别热带病相关的生物分子标记，为临床热带病的防控提供有力的工具。

2 系统分析与设计

2.1 设计目标

登革热感染是常见的热带疾病，识别与其相关的生物分子标记对于疾病的诊断和治疗具有重要的意义。随着高通量转录组技术的快速发展，基于转录组识别登革热感染等相关的分子标记是精准医学发展的必然趋势。但由于很多临床医生具有有限的大数据分析能力，开发用户友好的在线大数据分析平台势在必行。开发的大数据平台具有以下特点：用户界面美观，简单易用；对已有登革热感染转录组大数据进行安全存储；提供友好的快速查询功能；具有较好的可视化分析功能；具有易操作性并容易维护；提供下载分析功能便于用户进一步解读分析结果；提供登革热感染相关的生物分子标记准确信息，为热带病的精准诊疗提供科学的理论依据。

2.2 技术框架

在线大数据分析平台主要基于Java Server Pages 以及Tomcat 进行构建。所有的登革热感染相关的公共转录组大数据经过标准化处理后存储于MySQL 数据库中。大数据分析平台的查询结果将通过Highcharts 等进行可视化呈现。搭建的大数据分析平台将在常用的Web 浏览器，如谷歌Chrome，火狐，IE 以及Apple Safri 中进行功能的测试。

2.3 需求分析

针对不同的用户，大数据分析平台将进行多种功能的实现。对于临床医生以及分子生物学实验研究人员，所需求的功能有：

（1）查询登革热感染相关的转录组数据，包括感染的样本临床信息，正常样本的临床特征，转录组的样本量等信息；

（2）查询感兴趣的基因在临床样本中的表达情况，例如查询EGFR 基因在登革热感染中的表达情况，是否差异表达等；

（3）查询具有特定临床特征的样本的所有差异表达基因，差异表达基因的色图等；同时用户还希望获得数据查询结果的多种可视化功能，包括差异表达分析的火山图、差异表达分析的色图、差异表达分析的箱式图以及功能富集分析的结果等。对于从事计算研究的学者而言，可能更加关注于大数据的二次重新计算分析利用，他们更加关注于大数据分析的下载，是否能够下载分析平台中的所有转录组数据集，平台分析的差异表达结果等信息。

2.4 基因表达以及数据流分析

本大数据平台主要是基于基因表达数据进行分析处理，进而识别登革热感染相关的生物分子标记。基因表达主要包括转录、RNA 剪接、翻译和翻译后修饰等基本过程，在分子遗传学研究中，基因表达是基因型产生表型的基本水平。目前常用的衡量基因表达的技术主要包括基因芯片和高通量测序技术。基因芯片（Genechip），又称为DNA 芯片或者生物芯片，主要通过与一组已知序列的核酸探针进行杂志，通过确定荧光强度信号来衡量基因的表达水平。另外一种常用的衡量基因表达的技术为RNA-Seq，即转录组测序技术，通过高通量测序技术，反映出mRNA 等的表达水平。

大数据分析平台的数据流向主要包括以下流程：所有的转录组大数据将存储于底层的MySQL 数据库中，用户是无法对数据进行更改的。当终端用户登录大数据分析平台后，可以通过查询功能调取底层数据库的登革热相关转录组数据。数据分析平台依据用户的查询语句，从底层MySQL 数据库中调出用户的查询结果，基于平台内嵌的分析功能、可视化功能将结果呈现于终端，以表格和图像的形式提供用户的查询结果。所有的查询结果也将提供下载的功能，便于终端用户下载所有的查询结果。

3 系统功能

3.1 数据库设计

概念设计阶段将结合用户的所有需求信息，初步设计在线大数据分析平台的架构。大数据分析平台将采用以下的应用体系结构（图1）：底层将所有的转录组数据进行归一化、标准化等处理后存储于MySQL 数据库中，设计查询模块、分析模块以及可视化模块等多模块在线分析功能，将结果以图像、表格等形式呈现于用户的客户端，同时加入防火墙等程序保证数据库的数据安全。

图1：大数据分析平台系统模型

3.2 功能设计

登革热感染转录组大数据分析平台主要包括五个功能分析模块，主要包括浏览、查询、下载、统计以及帮助页面。在浏览模块中，用户可以通过浏览所有的基因表达数据集、所有的基因以及所有的样本等寻找感兴趣的内容进行分析。在查询模块，用户可以输入感兴趣的登革热相关基因，样本以及上传一组基因集合等查询与登革热感染相关的生物分子标记。在下载模块中，用户可以下载所有的转录组数据以及查询的结果；在统计模块，大数据分析平台将提供数据库的所有统计信息，包括每个样本的差异表达基因数目，差异类型等信息。在帮助页面，将提供大数据分析平台的维护人员信息，便于及时解决终端用户遇到的问题。

3.3 统计学方法

平台中主要采用的计算学方法为识别差异表达基因的方法，包括t 检验和秩和检验等。T 检验是最常用来识别两类样本中差异表达基因的算法。其主要原理为：对每一个基因计算一个t 统计量来衡量两类样本中基因表达的差异，然后根据t 分布计算显著性p 值来衡量这种差异的显著性。由于t 检验要求基因表达数据呈现正态分布，所以在计算时所采用基因的表达值为测量值经过标准化后的值，反应的是两类样本间基因表达的倍数变化。为了针对不满足正态分布的数据进行差异表达基因的识别，通常采用秩和检验进行分析。秩和检验是对原假设的非参数检验，在不需要假设两个样本空间都为正态分布的情况下，测试基因的表达分布在登革热感染和正常样本中的表达分布是否相似。目前针对基因差异表达有很多R 语言包可以采用，例如Limma，edgeR 和Deseq2 等。本平台主要采用的是Limma 包进行系统的分析。

3.4 功能实现

登革热感染转录组大数据分析以及生物标记识别分析平台的实现过程如图2 所示。在线大数据分析平台主要基于Java Server Pages 以及Tomcat 进行构建。在浏览模块中，数据分析平台提供三方面的浏览功能，用户可以按基因浏览、按样本浏览、按数据浏览，此部分的功能实现主要通过Java的查询语句进行完成。在查询模块，用户可以按数据集查询，按感染的样本进行查询，按基因查询，通过选取一定的统计学检验方法，检验的p 值矫正方法以及阈值等信息，获取与登革热感染相关的潜在生物学分子标记。此部分功能的实现主要借助于MySQL 的查询语句从底层数据库调取数据完成。在可视化功能部分，大数据分析平台将提供差异表达基因的火山图、色图、箱式图以及功能富集分析的结果等，此模块的实现主要借助于Highcharts 以及R 语言可视化函数等进行可视化呈现。在统计模块，将通过Highcharts 等进行可视化呈现大数据分析平台的数据规模等信息。在帮助以及下载模块，将提供数据的下载链接以及大数据分析平台使用说明文档等。

图2：大数据分析系统平台功能实现

4 结语

绝大部分传染性疾病源于热带地区，近年来SARS、禽流感、埃博拉、寨卡热的流行及我国最近发生的新型冠状病毒感染等对人类健康造成了重大影响。理解宿主-病原体间复杂的关系是开发新的诊断、预防和治疗策略的关键前提。传统的基于还原论的方法缺乏系统精确的模型去解析宿主-病原体间的关系，因而限制了其临床的转化应用。然而，目前我国仍缺乏登革热等感染性疾病相关的多组学资源库，以及新的计算方法和模型,整合感染性疾病相关的多层次信息,如流行病学、基因组、转录组、蛋白结构和宿主免疫组学等数据,系统地进行感染性疾病的病原微生物溯源、变异、进化规律以及宿主感染后的免疫微环境改变模式研究，进而挖掘潜在的药物组合疗法，这些研究将有助于感染性疾病的发病机制探索与诊疗。

因此，建立热带病临床大数据分析研究平台对于疾病的诊断和精准治疗具有重要意义。基于转录组生物大数据，构建在线的生物分子标记识别与分析平台，将极大地加速登革热感染等热带病的精准诊疗标记的识别以及临床预防控制，对于感染与免疫相关热带病的基础研究、临床研究和药物开发，尤其是新发和突发性传染病的预警和快速诊断，对保障国家“一带一路”、海南自贸区（港）建设等有重要意义。