APP下载

T检验识别阿尔茨海默病候选致病基因及 基因生物分析

2019-03-12朱贵琼庞朝阳苟仕蓉杨培会

关键词:神经样本检验

朱贵琼, 庞朝阳, 苟仕蓉, 杨培会

( 1. 四川师范大学 计算机科学学院, 四川 成都 610101;2. 电子科技大学 网络与数据安全四川省重点实验室, 四川 成都 610054; 3. 四川邮电职业技术学院, 四川 成都 610067 )

阿尔茨海默病(AD)是发生在老年期及老年前期的一种慢性进行性的致死性神经退行性疾病,其病死率高,仅次于心血管疾病、脑血管疾病、癌症,同时阿尔茨海默病致残率也高.因此,AD被称为21世纪威胁人类的最严重疾病之一[1-4].

现代医学研究证明,除外伤外,几乎所有的疾病都和基因有关系.在成千上万条基因中,只有小部分基因与疾病的表型密切相关,这类基因往往在不同样本中差异表达,称其为致病基因或特征基因.借助包含丰富AD基因信息的cDNA微阵列数据,选取寻找AD致病基因的理论和方法,发现与AD相关的基因,以及弄清楚致病基因的功能及关联等,从而实现对该病的预测、早期诊断及治疗,这对AD患者及其家庭和社会都具有十分重要的意义和不可估量的经济价值[5-8].

设计合适的算法对基因数据进行分析处理,以此减少识别与AD相关基因的时间,具有很大的意义.以往的算法有K均值聚类算法(K-Means算法)[9-10]、主成分分析算法(PCA算法)[11-12]、蚁群算法(ACO算法)[13-14]、独立主成分分析算法(ICA算法)[15]、差分进化算法(DE算法)、夹角余弦度量和切比雪夫不等式算法[16-17]等.上述算法中,K-Means算法必须事先给出K(要生成的簇的数目),聚类结果的好坏依赖于初始点的选取,且运行时间较长,计算结果不够稳定.主成分分析算法当主成分的因子负荷的符号有正有负时,综合评价函数意义就不明确,命名清晰性低.蚁群算法是典型的概率算法,算法中的参数设定通常由实验方法确定,导致方法的优化性能与人的经验密切相关,很难使算法性能最优化.差分进化算法存在求解精度低及进化后期收敛速度慢等缺陷.夹角余弦度量和切比雪夫不等式算法在于选择与AD确定有关的少数几个基因作为主基因,查找这些主基因的伴随基因,导致基因查找不够全面,且切比雪夫不等式在计算概率时比较粗糙.

因AD基因表达库中有22 283个基因,31个样本,故具有小样本的特点.针对AD基因表达谱数据特有的维数高/样本小/非线性的特点,本文对基因特征提取和分类进行研究,提出用T检验方法引入基因的特征提取过程.T检验是检验差异显著性的十分重要的统计工具,这种差异显著性的检验是样本均值间的比较,适用于样本容量较小的组与组之间平均值差异程度的检验方法.在本文的算法中取理论性较好的显著性水平α=0.05,筛选出有表达差异的基因,再根据AD病理及发病机制假说,对筛选出的各基因进行相关的生物学意义分析,从中识别出对AD有生物学意义的典型基因,以这些基因作为AD候选致病基因.

1 方法

1.1数据来源及组织形式本文所采用的基因芯片数据来源于NCBI的基因综合表达数据库GEO.该数据包含9个正常、7个轻度、8个中度和7个重度阶段AD样本中相同的22 283个基因的表达水平,将表达水平值根据样本患病程度不同分别用4个基因表达数据矩阵进行表示,设矩阵用

T=(xij)m×n

表示,其中xij表示第i个基因在第j个样本中的表达水平值,m是基因数,n为样本数,称为基因表达谱,即矩阵中每一行代表一个基因,每一列代表一个样本.

本文中记正常阶段的矩阵为Mctrl、轻度阶段的矩阵为Mincip、中度阶段的矩阵为Mmod和重度阶段的矩阵为Msev,在这4个矩阵中m=22 283,但n的值分别为9,7,8,7,在这4个矩阵中具有m≫n的特点,这导致AD的基因表达谱数据具有大规模、高噪声、高维度的特点.为了尽量减少芯片实验结果中筛选出的差异基因的错误和假阳性,以及为了能满足使用T检验的要求样本服从正态分布且样本间方差齐性,本文在进行差异基因筛选前,进行数据预处理,这样使T检验算法能更准确识别出显著差异表达的基因.

1.2数据的预处理在基因数据矩阵M=(xij)m×n中,每列数据是从同一种实验条件下获得的数据,每行数据是在不同实验环境下获得的数据,故首先对4种AD状态的基因表达数据进行标准化,去除数据的量级差异并保持数据的性质和相关关系不变,使得经过预处理的数据符合标准正态分布N(0,1),为后续的T检验比较提供具有差异统计意义的标准化数据[16-18].

Z-Score标准化数学公式为

(1)

其中

(2)

1.3T检验查找差异表达基因差异表达的基本思想是比较分别来自正常人的基因表达水平和生病情况下的基因表达水平的总体期望值,观察二者差异,从而确定哪些基因是与疾病有关的.

令样本均值

(3)

样本方差

(4)

构造t统计量

(5)

对于给定的显著性水平α,设

P{|t|>tα/2(n1+n2-2)}=α,

tα/2(n1+n2-2),

(6)

将(6)式化为

(7)

(8)

当选定不同显著性水平α,得到的上调或下调基因数量会不同,α越小,选出的基因数量越小,最佳α是使数据分析结果达到最优的值.在本文中,经过不同的实验测试发现,当显著性水平α=0.05时得到的效果最理想.

1) 满足

的基因称为一致上调的基因;

2) 满足

的基因称为一致下调的基因.

2 实验结果及生物相关分析

本文对AD微阵列基因表达数据运用 (1)和(2)式对基因数据进行标准化,使得各基因的样本数据标准化为标准正态分布N(0,1),运用(3)~(5)式计算出t统计量,选择α=0.05,确定临界值tα/2(n1+n2-2),运用(7)及(8)式给出具有差异的基因表达.应用Matlab软件对该算法进行实现,产生差异表达的基因子集,共有40个一致上调基因和30个一致下调基因.

2.1T检验实现筛选基因结果本文对筛选出的70个基因进行基因相关生物学分析,最终筛选出符合条件的AD致病基因共30个,其中一致上调的基因有16个,如表1;一致下调的基因有14个,如表2.

表 1 识别出的一致上调候选致病基因列表

表 2 识别出的一致下调候选基因列表

在上述T检验算法筛选的基因中有10个基因被AD文献证实与AD有关[10-12],这个结果预示着本文识别出来的一致表达基因很有可能与AD有关.

2.2候选基因与AD的生物关系分析AD的病因目前尚不清楚,20世纪80年代以来,人们提出了许多关于AD的假说,包括Aβ产物过多、Tau蛋白的异常磷酸化、神经递质障碍、过氧化作用、炎症/免疫反应、神经突触损伤、神经元凋亡和其他因素(如高血压、糖尿病、高脂血症、高血清同型半胱氨酸、心房颤动、脑外伤、重金属(铝、铁、锌、锰等)接触史等因素也能参与AD的发病)[4,7,18-20].

对比上述假说,30个候选基因在各种AD发病机制的假说中的分布情况如图1.

图 1 候选致病基因的比例分布

在图1中有些基因既参与了炎症/免疫反应,也参与了细胞凋亡等功能活性,它们的活性是多种多样的,所以在基因的生物分析中需要考虑其多种功能活性.

依据AD发病机制的多种假说,对T检验算法实现的基因筛选结果进行生物学的分析,共得到以下6个特征.

特征1与Wnt信号通路中的β-连环蛋白活性有关的基因有5个[18-22].

1) TBL1X,分布在细胞核上,它与其受体TBL1XR1绑定在由Wnt信号诱导的Wnt目标因子的启动子上,与β-连环蛋白相互作用,其表达的异常变化会引起β-连环蛋白的表达差异.

2) YES1,在免疫细胞信号传导和活化中催化多种底物蛋白质酪氨酸残基磷酸化,促进YAP1的磷酸化,YAP1的磷酸化会抑制细胞系和动物模式中依赖的β-连环蛋白合成.

3) CTNNBL1,分布在细胞核中,是一个与记忆相关的基因,其蛋白质结构与β-连环蛋白有着同源性,从而有相似的生物作用.

4) BLZF1,分布在细胞核、细胞质、高尔基堆叠,它具有神经保护性质,它调控axin的降解和Wnt信号,axin和p53都是肿瘤抑制因子,可以控制细胞生长、凋亡和发育.

5) TFDP1,分布在细胞核、转录因子复合体,它与E2F一起抑制Wnt/β-catenin信号通路,通过抑制Dvl-AXin的相互作用和增进β-catenin的泛素化反向调节Wnt/β-catenin信号.

而其中Wnt信号通路能调节GSK-3β对β-连环蛋白磷酸化,Wnt信号异常减弱引起的PKB活性减弱、GSK-3β活性增强,可使Tau蛋白磷酸化及微管去稳定、β-连环蛋白过度降解和神经元死亡.从而这些基因的异常表达可能是诱发AD的重要因素.

特征2与神经系统中Tau蛋白有关的基因是BAG2[23],它可以调节神经中的Tau蛋白的表达水平,其下降表达会增加磷酸化Tau的内在水平,而Tau蛋白的磷酸化是确认的AD发病的病理机制之一.

特征3与人体免疫/炎症反应有关的基因有5个[24-28].

1) PIGR,分布在融入质膜、膜,它在黏膜表面招募和运输DIGA,从而形成人类完美的免疫系统.它属于一致上调的基因,所以表现为AD病人的免疫系统有自我保护和增强的功能.

2) PTAFR,分布在融入质膜、膜,其生物过程作用范围较广,与细胞内多种信号通路有关联,包括通过增加细胞内钙调节实现P38MAPK和PI3-K通路,参与炎症应激反应调节.

3) LTB4R,分布在融入质膜、膜,它参与细胞运动性、肌收缩、炎症应答,是花生四烯酸5-脂氧合酶代谢的炎症介质,具有很强的趋化作用和炎症调节作用.

4) IL9R,分布在胞外区、融入质膜、膜、融入膜,它参与信号传导、细胞增殖,是IL9的受体.IL9是一种多功能细胞活素,其作用不仅在于对免疫和炎症反应,而且也在于促进生长和阻止细胞凋亡.

5) TNFRSF25,分布在胞浆、质膜、融入质膜、膜,它参与细胞凋亡、免疫应答、信号转导、细胞表面受体连接信号转导、胞外信号引导细胞凋亡、调控细胞凋亡.在活性T细胞凋亡中起着作用,其缺失导致致命的自身免疫疾病.

特征4与神经细胞组织及信号有关的基因有10个[29-34].

1) PLD2,分布在质膜,它是一种细胞内信号传递的酶,参与了多条细胞信号传导途径,它在细胞各种功能中起着重要的作用,与细胞的分裂、分化、炎症、组织损伤及细胞分泌有关.在多篇文章中提出PLD2在神经退行性疾病中发挥作用.PLD2在减轻神经细胞的凋亡,诱导神经细胞分化填补损伤区域及促进神经递质释放方面都起到一定的作用.

2) DLGAP2,分布在神经中间纤维、膜,它参与细胞信号转导、神经突触传递,在神经元轴突组织及神经细胞发送信号起着重要作用.

3) PAX3,分布在细胞核,它位于脑脊髓和脑特定区域,表达于神经嵴,从参与神经嵴衍生物,包括脊神经节等发展,与多种神经类疾病有关.

4) B4AGLT6,分布在高尔基堆叠、膜、融入膜,它与镁离子、锰离子、钙离子、半乳糖基转移酶和转移糖基结合,主要参与糖代谢.有生物实验得出在精神分裂症中该基因的表达量减少,而在本文它属于表达一直下调的基因.

5) COL4A1,分布在胶原、胶原IV、细胞质,该基因的变异会引起围产期脑出血和脑穿通畸形,从而表现出智力低下、脑性瘫痪等神经性疾病.

6) EPS15,分布在衣被小凹,它与钙离子结合,在中枢神经系统的神经元起着增强的作用,它降低AKT信号,并可能导致减少神经元的存活.

7) NRXN1,分布在融入质膜、膜、融入膜,它是一个突触神经元黏附分子,参与细胞附着、轴突引导.有文献提出:NRXN1基因的缺失与各种孤独症、精神分裂症、自闭症等神经发育障碍有关,表现为智力低下,语音延迟,肌张力低下.

8) PCDH11Y,分布在膜,它与钙离子结合,在细胞与细胞识别及中枢神经系统的功能上起着基本作用.

9) STX1A,分布在膜、融入膜,它参与神经递质运输,有文献指出:该基因在自闭症中的表达有显著降低,故认为其可能在孤独症、自闭症等神经基本发病机制中起着作用.

10) TAC1,分布在胞外区,它会产生P物质和神经激肽,神经肽物质在感觉神经元的神经炎症中起着关键的调节作用.

特征5与细胞凋亡有关的基因有5个[35-37].

1) RAB14,分布位置广,它参与高尔基内体运输、小GTP酶介导信号转导、神级递质分泌、蛋白运输、膜泡介导运输、细胞内运输,有文献特别提出该基因参与凋亡细胞的降解过程.

2) TRIM24,分布在细胞内、核,它与锌离子等金属离子结合,参与细胞凋亡、周期调控、细胞对病毒的应答等重要生命过程.在文献[35]中对其参与细胞凋亡和降解的过程进行了详细阐述.

3) KIAA1967,分布在核、细胞质、线粒体基质,它与钙离子结合,是SIRT1和p53的抑制剂,而SIRT1参与细胞增殖、分化、衰老、凋亡和代谢密切相关.

4) DPYSL4,它参与神经系统发育,是海马趾神经发育的调控者,它通过基因毒性应激参与神经细胞凋亡的诱导.

5) KCNIP1,它与钙离子、钾离子结合,参与信号传导、突触传递,是能调节神经元通道活性的钾通道作用的蛋白家族的一个成员,有文献提出,该基因在视神经病变中参与细胞凋亡,并是高度下调的基因中之一.

特征6AVPR2有文献提出该基因缺失时会导致糖尿病.

综合上述基因生物学分析,可以得出利用T检验法识别出的AD候选基因几乎都符合其发病机制假说,说明说得出的识别基因可以作为AD的候选致病基因.

3 总结和讨论

DNA微阵列技术是对基因表达及基因功能研究的有力工具,对基因表达数据的分析方法仍处于不断探索阶段.目前已有很多种方法,但还没有一种通用的方法较其他方法更优越.因AD基因表达数据具有样本少维度高的特征,同时希望计算效率低,故本文采用T检验法进行AD微阵列基因数据进行筛选,并结合AD疾病机制的假设和基因生物学分析得出了30个候选基因,并且几乎每个基因都与AD疾病的假说有关,从最终的分析结果可以看出T分布检验算法挖掘的特征基因与大多数的研究结果相吻合.同时这些基因可以作为AD的致病基因,能够为AD进一步生物实验,及早期诊断、治疗等提供方向和建议.经过基因芯片验证的基因结果是可靠的,但仍不排除基因芯片中假阳性结果的可能.运营基因芯片能筛选出有意义的差异基因,但其结果仍需要进一步的基因生物验证.

猜你喜欢

神经样本检验
神经松动术在周围神经损伤中的研究进展
中西医结合治疗桡神经损伤研究进展
用样本估计总体复习点拨
对起重机“制动下滑量”相关检验要求的探讨
电梯检验中限速器检验的常见问题及解决对策探究
推动医改的“直销样本”
随机微分方程的样本Lyapunov二次型估计
关于锅炉检验的探讨
临床检验检验前质量指标的一致化
“神经”病友