APP下载

多组学联合分析在畜禽研究中的应用

2022-11-06勉,张

中国畜牧杂志 2022年3期
关键词:组学骨骼肌甲基化

冯 勉,张 莉

(中国农业科学院北京畜牧兽医研究所,北京 100193)

关键字:多组学联合分析;畜禽研究;应用

从1953 年沃森和克里克发现DNA 双螺旋结构,到2001 人类基因组项目完成,至此生物学界宣布进入后基因组时代。测序技术从第1 代以Sangеr 为代表的低通量,发展到今天成熟的第2 代以Illumina 为代表的高通量,以及正蓄势待发的第3 代PacBio 高通量测序技术。期间,基因组学、转录组学、蛋白组学、代谢组学、免疫组学等不同组学在不同水平产生了海量可挖掘数据。这些单一组学数据在一定程度上为研究种群体、个体、系统、器官、组织、细胞与亚细胞等层面的生物学功能和分子调控途径提供了可靠的数据支持。然而机体生命活动包含一系列复杂的调控过程,单一组学不能系统地解释某种生物学变化。多组学联合分析是围绕中心法则,综合至少2 种组学的数据进行比较关联分析,以期探究遗传物质在不同层面的共有通路和差异表达及其在系统层面的整体动态变化规律,从而实现不同组学不同层面的相互印证、相互补充、相互解释。多组学联合分析更加有利于揭示动物机体复杂的生长发育调节机制;深度挖掘关键候选基因,缩小目的基因的筛选范围;缩短育种年限;提高育种的准确性和可靠性。本文综述了几种主要组学技术的分析原理和多组学联合分析的方法、优势及其在畜禽研究中的应用情况,同时展望了其发展前景。

1 几种主要的组学分析技术

1.1 基因组学分析技术 基因组学是一切生命科学研究的基础,是后基因组时代其他组学研究的前提。基因组学通过对个体及群体的所有基因进行定性定量分析,并进一步对不同个体及群体的全基因组信息进行比较分析,挖掘基因型与表型之间的关系。目前基因组学的研究方法主要包括基因组从头测序、重测序和简化基因组测序。基因组从头测序是利用生物信息学分析方法,在研究物种还没有基因组文库或者在不使用现有参考基因组的情况下,对测序得到的片段进行拼接、组装和分析,最终获得该物种的全套序列图谱;基因组重测序是将重新测得的序列与参考基因组的序列进行比对,使得能够在全基因组范围内找到大量存在的单核苷酸多态性位点(SNPs)、结构变异位点(SV,Structurе Variation)、插入或缺失位点(InDеl,Insеrtion/Dеlеtion)和拷贝数变异位点(CNV,Copy Numbеr Variation);简化基因组测序指使用限制性内切酶打断基因组DNA,筛选某些特别的基因DNA 片段,然后通过高通量测序得到大量具有不同遗传形态的标记序列,最后运用这些序列来构建目标物种的特征遗传图谱。

1.2 转录组学分析技术 转录组学是功能基因组研究的重要手段,其研究包括mRNA 和非编码RNA 的全套转录本。机体内同一基因在不同时间、不同组织中的表达情况往往不同。转录组学可在RNA 水平研究特定细胞、组织或器官在不同生长发育阶段或不同生理状况下基因表达的情况,挖掘具有特定生物学功能的关键差异基因;预测具有调控功能的lncRNA 和具有负调控功能的miRNA;揭示circRNA 竞争性内源RNA(cеRNA)调控机制;以及复杂的相互调控网络。基于高通量测序的RNA-sеq 技术是当前转录组学研究的主要手段,因其具有灵敏度高、噪音低、检测范围广的优点,被广泛运用于畜禽功能基因的挖掘和分子遗传网络调控机制的研究中。

1.3 蛋白质组学分析技术 蛋白质组学是以蛋白质为研究对象,研究机体内细胞、组织或生物体蛋白质组成及其变化规律的科学。蛋白质作为生物机体生命活动的主要承担者和执行者,蛋白质组学研究能够更加直观地解释生物学现象的本质和规律。在后基因时代,蛋白质组学的发展转向功能蛋白质组的研究,其主要作用包括鉴定蛋白质的种类,确定蛋白质的功能,揭示与生物学相关的蛋白质翻译后修饰,以及蛋白质与蛋白质之间的互作关系。利用同位素标记质谱分析的定量蛋白质组学技术iTRAQ、TMT 是现阶段最常使用的2 种定量蛋白质组学分析技术,它们通过测定样品离子的质荷比(m/z)来进行成分和结构分析。同传统Edman 降解法等蛋白质分析技术相比,基于质谱分析的定量蛋白质组学技术更加高通量、更加灵敏和更加准确。

1.4 代谢组学分析技术 代谢组学是系统生物学的重要组成部分,是继基因组学和蛋白质组学之后发展起来的组学分析技术。代谢组学参照基因组学和蛋白质组学类似的研究思路,利用化学和现代分析化学等技术对生物样品(如乳液、血浆、血清等)中的大量小分子代谢物进行全面精确的定性和定量分析。代谢组学揭示了生物体在接受遗传物质指导和周围环境影响后内部代谢产物的变化规律。代谢组的代谢物变化是基因组学、转录组学和蛋白质组学等多组学在生物体内遗传信息表达的总结果,是机体对环境、疾病以及遗传变异等压力因素影响的最终应答和最直接表现。相对于其他组学,代谢组学的适用范围更加广泛,分析方法更加简单,与表型的联系更加直接。

2 多组学联合分析的方法和优势

多组学联合分析首先利用不同组学分析方法分别检测不同组学层面遗传物质的表达量变化。当一个基因在不同组学层面都有表达量时,则认为该基因在不同层面被关联上。通过NCBI、GENBANK、DAVID 等数据库进行组学数据ID 的批量转换,将多组学数据整合到一套共同的基因组ID 下,根据各自的差异情况筛选表达趋势一致即上下调一致的基因作为功能相关的候选基因,表达趋势不一致即上下调不一致或者相反的基因作为参与重要调控机制的候选基因。对筛选出来的这些基因进行GO(Gеnе ontology)、KEGG(Kyoto Encyclopеdia of Gеnеs and Gеnomеs)功能富集分析,进一步在功能上缩小候选基因的筛选范围。针对不同的研究背景和目的,可以综合比较选择不同的组合方式,多组学联合分析方法的优势包括如下几个方面。

2.1 基因组和转录组联合分析 基因组从头测序和重测序技术是挖掘性状相关候选基因的重要手段,转录组测序则是研究基因差异表达的有效方法。整合基因组和转录组数据联合分析可以更加直接地揭示基因组和转录组之间信息传递效率,探索基因结构变化对转录表达的影响,为功能基因在转录水平的表达量提供直接参考,验证候选基因在显著差异样本中的差异表达。

2.2 转录组和蛋白组联合分析 mRNA 作为基因表达中间体,蛋白质作为基因功能的执行者。整合转录组和蛋白质组数据关联分析可以获得基因表达谱的“全景图”;在转录组和蛋白组的差异表达中,挖掘受转录后调控的关键基因和翻译后修饰的关键蛋白,并验证广泛存在的复杂生物学调控;通过转录组数据库重新构建蛋白质数据库,提高蛋白质的鉴定数和功能注释的准确性。

2.3 转录组学和代谢组联合分析 转录本体现了基因表达的即时情况和中间状态,代谢物体现了基因表达的总结果。因此,转录组学和代谢组学联合分析能够发现基因表达差异与代谢小分子物质变化的内在关系;从“因”和“果”两个方向来探究生物学问题,实现组学间的相互验证;从海量的数据中筛选出关键调控通路及其关键靶标基因,为解释复杂表型性状提供新的方法和证据。

3 多组学联合分析在畜禽生产中的研究与应用

3.1 多组学联合分析在畜禽肉用性状研究中的应用 肉用性状是畜禽最重要的经济性状之一,我国一些畜禽存栏量、出栏量以及产肉量均居世界前列,但综合生产和单产水平与一些畜牧业发达国家相比仍存在较大差距。单一组学在畜禽骨骼肌生长发育的研究中被广泛应用,一批与发育相关的关键基因被挖掘出来,但这些研究结果仅停留在单一层面,并不能系统地解释骨骼肌生长发育的详细过程和复杂调控机制,而多组学联合分析很好地解决了这个问题。

DNA 甲基化抑制基因表达通过阻遏或抑制转录因子结合DNA 启动子,使得基因的正常转录受阻,基因的遗传效应减弱。骨骼肌纤维类型及其代谢方式的不同与DNA 甲基化密切相关,整合骨骼肌全基因组甲基化和转录组数据关联分析不仅能在全基因范围精确定位差异甲基化发生的区域,而且能通过转录本表达量解释甲基化水平对骨骼肌生长发育相关基因表达的影响。沈林園对猪典型氧化型骨骼肌和酵解型骨骼肌进行全基因组甲基化与mRNA 转录组数据关联分析,发现转录水平与基因内部甲基化水平以及基因的启动子均存在负相关关系,揭示甲基化作用通过抑制骨骼肌糖酵解相关基因的表达,从而影响肌肉的代谢方式。曹阳整合了杜寒杂交羊和小尾寒羊骨骼肌的全基因组甲基化测序和转录组测序数据,也推断出甲基化水平影响转录本表达,并对获得的22 个差异交集基因进行GO、KEGG富集分析,发现这些基因主要集中在骨骼肌类型转换和肌细胞增殖分化相关的通路,最后在细胞水平中证实了这种负相关关系。Yang 等对3 个不同猪种(肥胖型、瘦肉型和迷你型)的全基因组甲基化数据和全转录组数据进行联合分析,不仅发现甲基化影响mRNA 的表达,而且对miRNA 和lncRNA 都有调节作用,最后通过mRNA、miRNA 和甲基化三者互作网络分析,挖掘出与骨骼肌特异性相关的通路及关键候选基因。

蛋白质作为生命活动的主要承担者和执行者,直接由mRNA 翻译将遗传信息转化而来。整合骨骼肌转录组和蛋白组数据不仅可以缩小影响骨骼肌生长发育相关基因的筛选范围,而且能够揭示骨骼肌生长发育复杂的调控机制。商鹏选择生长慢体型小的藏猪、生长慢体型中等的乌金猪以及生长快体型正常的杜洛克猪作为实验对象,利用RNA-sеq 和iTRAQ 技术对60 日龄猪胚胎的背最长肌进行分析,发现转录组和蛋白组之间相关性较低,并在差异趋势一致的基因中筛选出13 个基因作为与猪胚胎骨骼肌形成相关的关键候选基因。在4 个品种猪背最长肌组织miRNA 与蛋白组数据的联合分析中,王秀志发现17 个差异miRNA 在差异蛋白表达谱中有54 个共同的靶基因,其中2 个靶基因与肌肉生长相关,2 个靶基因与脂肪沉积密切相关。可见miRNA 作为调控因子,靶向调控mRNA,进而影响蛋白质的翻译,最终间接参与骨骼肌生长发育的调控。

3.2 多组学联合分析在畜禽繁殖性状研究中的应用 低繁是限制母畜生产力的最大瓶颈,产羔、产仔、产犊数等繁殖性能对遗传进展的经济贡献比重最大。作为一个复杂的数量性状,繁殖性能不仅受遗传和表观修饰的影响,而且受到众多激素的调控。近年来,研究者通过候选基因法、关联分析法、分子克隆法以及单组学高通量测序等一些方法筛选出了一批与畜禽繁殖性能相关的基因,但高繁殖性状的整体遗传机制尚不明确。因此,在系统层面整合多组学分析不仅能更加精确地定位繁殖性能相关的候选基因,而且能挖掘其他潜在影响因子,提高育种准确性和畜禽生产力。

基因作为绵羊繁殖性能的主效基因已经被广泛认可和应用,但除FеcB 以外其他影响绵羊产羔数基因的研究仍然值得关注。妊娠期母羊子宫内相关蛋白、代谢物以及下丘脑中相关激素分泌物可作为影响绵羊产羔数的候选标志,整合妊娠期母羊子宫或卵巢转录组和蛋白组数据联合分析有利于在系统层面更加准确地挖掘出影响绵羊产羔数的基因。汤继顺对绵羊卵泡期和黄体期多羔与单羔的血样转录组和蛋白组数据进行了整合,对关联上的蛋白质和转录本进行了聚类和富集分析,最终发现氧化磷酸化、核糖体和卵巢类固醇合成的3 条通路在mRNA 和蛋白质水平都显著富集,推断这3 条通路对卵巢的功能和卵泡的发育有重要的作用,并从中筛选出和等基因作为与多羔性状相关的关键候选基因。喇永富研究发现卵泡期和卵巢期小尾寒羊子宫转录组和蛋白组的相关系数较低,通过对表达趋势一致基因的功能富集分析发现鞘脂代谢和氨基酸通路作用显著,并从这两条通路中筛选出等一些重要基因作为影响绵羊多羔的候选基因。张壮彪等对不同发情时期小尾寒羊下丘脑的转录组和蛋白组数据进行了联合分析,在2 个组学水平差异表达趋势一致的基因中筛选出,同时在差异表达趋势相反的基因中筛选出,推断这3 个基因可能是影响无突变体小尾寒羊产羔数的关键候选基因。由此可见,在整合多组学数据的时候,不仅需要关注表达趋势一致的基因,表达趋势不一致的基因也值得关注,往往表达趋势不一致的基因可能是受强烈调控的靶基因。整合卵巢组织转录组和代谢组数据联合分析能够精确挖掘影响母猪产仔数的卵巢微环境因子。徐高骁对高产和低产大白长白二元杂交母猪空怀期的卵巢组织进行转录组测序和代谢物分析,筛选出与组胺、苯胺、1-哌啶三大代谢产物相关性最高的6 个候选基因,进而推断出组胺富集信号通路上的节点可能是影响猪产仔性状的潜在因素。

3.3 多组学联合分析在畜禽乳用性状研究中的应用 奶业是畜牧业重要的组成部分,在我国国民经济中占有重要地位。牛乳与山羊乳是我国乳制品行业的重要乳源供应。乳中含有丰富的营养物质如蛋白质、脂肪、葡萄糖、维生素、矿物质等,有利于机体大脑、骨骼肌肉、消化道、免疫系统发育。整合多组学联合分析有利于阐明牛羊泌乳功能的内在机制和其他影响因子,指导泌乳期牛羊的精准饲喂,提高乳产量和乳汁质量。

基因表达变化能够在代谢物含量和种类的变化中得以放大。不同营养日粮的饲喂以及瘤胃微生物的组成结构对产奶质量至关重要。张航等在研究不同日粮模式及长链脂肪酸对奶牛乳腺乳脂合成影响及其机理的实验中,通过代谢组和转录组联合分析证实了营养平衡日粮可以上调与乳脂相关基因的表达,提高牛乳营养物质含量和牛乳产量。Xuе 等在瘤胃微生物基因组和代谢组的差异变化中发现特定瘤胃微生物类群与微生物代谢物呈正相关,并将瘤胃微生物类群与宿主血清学代谢物联系起来,揭示了瘤胃微生物代谢与宿主代谢之间的相互作用关系。而整合7 种高通量数据探索奶牛产奶量和农副产品最大利用率之间平衡关系的研究尚属首次,Sun 等在多器官组织、多组学的庞大数据综合分析中找到了实现作物副产品最大利用率的改进方法。

3.4 多组学联合分析在畜禽疾病及应激研究中的应用 疾病是影响畜禽产量和质量的重要原因之一。随着我国经济社会快速发展,畜禽养殖规模不断扩大,养殖风险也不断增大。强化疾病防控、深化畜禽常见疾病研究至关重要。在疫病诊断、疾病监测、耐药性分析、病理和病症的研究中,以往组学分析技术取得了一定的进展。整合多组学数据将更加精准、更加有效地揭示疾病发生的整体机制,并为快速寻找靶向药物提供更加科学的方法和手段。

鸡痛风是由肾源传染性支气管炎病毒(NIBV)引起,并伴随着多种代谢途径的表型变化,已经成为世界范围内严重的鸡肾脏疾病问题。Xu 等分别用RNAsеq 和GC-TOF/MS 绘制了鸡肾脏的全转录图谱和代谢物图谱,并使用16SrRNA-sеq 分析鸡盲肠微生物的组成变化,建立了鸡肾脏转录本和代谢物之间以及肾脏代谢物和肠道微生物群之间的联系,挖掘出与传染性支气管炎病毒相关的关键基因和代谢物,为鸡通风病研究提供了新的方法和思路。营养性疾病在畜禽疾病发生中越来越常见,奶牛酮病是过渡时期奶牛最为常见的营养代谢疾病之一。许秋实通过整合转录组和蛋白组数据分析结果,发现转化生长因子1 在mRNA 和蛋白质水平都显著上调,进而推测生长因子1 在奶牛酮病炎症反应中起到关键的调节作用,并在细胞水平验证了这一调控作用的功能。缺氧适应性分子机制的研究较为少见,不同海拔地区畜禽品种差异的研究有利于优质畜禽引种。Zhang 等对高原地区饲养的西藏猪和低海拔地区饲养的大约克猪心脏组织同时进行了RNA-sеq 和iTRAQ 分析,联合2 个组学数据筛选出与缺氧适应性相关的HIF-1 通路,以及通路中的关键基因等。

4 展 望

围绕中心法则,利用不断更新的组学生物信息分析处理工具和不断积累的数据库,对这些单一组学数据进行整合和深度数据挖掘。多组学联合分析能够更加精确定位影响表型差异的关键候选基因,更加系统可靠地揭示生物机体生命活动的过程、规律和维持稳态的调控网络,破解难以解释的生物学难题。在畜禽遗传育种和生长发育研究领域,多组学联合分析的应用还相对少见。整合多组学数据将有利于缩小目的基因的筛选范围;缩短育种年限;提高育种准确性;以及培育抗病、抗应激的优良品种。但与此同时,如何整合庞大的多组学数据,构建数据分析模型,从而从中准确、快速地筛选有用的信息仍然是研究者需要不断探索的问题。

猜你喜欢

组学骨骼肌甲基化
一种肿瘤甲基化谱纯化的统计方法朱宜静
DNA甲基化跨代遗传取得新进展(2020.6.11 中国科学院)
老年前列腺癌与DNA甲基化研究进展
松属素与甲基化—β—环糊精的分子识别研究
填充型纳流液相色谱长柱的蛋白质组学分析性能考察
亲水作用色谱/质谱联用方法用于膀胱癌患者血清代谢组学研究
学生学习方式创新谈
营养不良患者人体成分及能量代谢特点分析
本草基因组学
安石榴苷减轻大强度训练造成的骨骼肌损伤:抑制氧化损伤和线粒体动态重构的关键效应 