APP下载

植物及烟草表型组学大数据研究进展

2021-03-24金静静曹培健许亚龙李泽锋

烟草科技 2021年3期
关键词:高通量组学表型

卢 鹏,金静静,曹培健,许亚龙,李泽锋

中国烟草总公司郑州烟草研究院,郑州高新技术产业开发区枫杨街2 号 450001

近年来,随着高通量植物表型数据获取技术的广泛应用和植物表型数据的快速积累,逐步形成了以植物表型组学数据为基础、以多学科交叉分析技术为手段的大数据体系,并在植物表型大数据的数据获取、数据存储管理以及数据分析应用等方面取得了较快的研究进展,利用表型大数据开展植物育种尤其是为作物进行智能辅助育种已逐渐成为研究热点。为及时了解植物表型大数据相关技术的发展,跟踪植物表型大数据的研究前沿与热点,回顾了植物表型组学的相关概念,并对植物表型组学大数据的研究进展,尤其是对其在育种方面的应用进行了梳理,同时关注了烟草表型大数据的产生和发展过程,并对该领域今后的发展作了展望。

1 植物表型组学大数据发展概况

在植物学和遗传学研究领域,特别是在作物育种领域,表型(Phenotype)是一个使用非常广泛的术语,该术语来源于希腊词语Phainein 和Typos的组合。在1911 年“表型”这一术语被Johannsen首次定义为“可通过直接观察或精细测量进行描述区分的生物属性”[1]。表型组(Phenome)则在1949 年被Davis 首次定义为“细胞中所有非遗传性、非自复制部分的总和,是所有表型的集合”[2]。20 世纪90 年代,人类基因组、转录组以及遗传疾病关联分析等各类研究的开展促进了相关理论的不断发展,1997 年,Schork 等[3]首次在疾病研究中提出了表型组学概念。此后,随着表型组学研究的不断深入和发展,表型组学的定义也在不断地完善。2010 年,Houle 等[4]定义表型组学为“在整个组织范围内获取多维表型数据”。2013年,Fiorani 等[5]提出将植物表型组学定义为“作为一套方法学,在不同尺度上精确测量植物的生长、结构和组成”。现在植物表型组学更倾向于被定义为“在植物发育过程中,对整个生物体进行高通量数据准确采集和多维表型分析的多学科研究”[6]。表型组学自20 世纪90 年代被提出,经历多年的研究和发展,现已逐渐成为生命科学领域的一个重要分支。

系统的植物表型组学研究正式开始于20 世纪末,主要收集质量较高、可重复获取的植物表型数据,在该数据的基础上分析基因型和环境因素的互作效应,研究该数据对产量、质量和抗性等主要植物性状的影响[7]。进入21 世纪以后,随着下一代测序技术的广泛应用和基因组学研究的不断深入,表型组学的理论基础和研究方法也得到了快速的发展[8]。2011 年,澳大利亚植物学家Furbank等[9]指出,高通量表型数据采集技术在田间的应用、全球表型组学信息数据库的元数据标准化缺失、植物非生物胁迫的高通量表型数据分析等问题已经成为植物表型组学研究的瓶颈。为有效解决这些问题,打破植物表型研究的发展瓶颈,大量优秀的商业机构和科研机构进行了相关技术的开发,促进了高通量、高精度表型数据采集工具的快速发展。随着表型获取技术精度的不断提升、通量的不断提高、成本的逐渐降低,越来越多的植物进行了高精度高通量的表型数据获取,如拟南芥[10]、大麦[11]、玉米[12]等。

科学大数据的形成依赖于海量数据的获取和积累,随着各类高通量表型数据采集设备的使用,植物表型数据量也呈现出快速增长的态势。随着数据体量不断增大,各类植物表型数据库和相关数据管理分析平台纷纷建立,期间多种学科领域数据分析和挖掘技术也开始研发与应用,逐渐形成了数据体量大、增长速度快、多学科技术交叉、数据多样的植物表型组学大数据体系,该体系涵盖了从植物细胞到植物群体的多个尺度、多种生长环境下植物性状的遗传与变异,以及植物对生物和非生物胁迫的响应等各类信息[13]。

2 植物表型组学大数据研究进展

植物表型组学大数据的研究主要集中在大数据的获取、存储管理、分析和应用4 个方面。其中数据获取主要是利用各类成像技术、设备平台获取表型数据;数据存储管理是将数以Tb 计的表型数据进行存储、管理,以便进行后续的数据检索、分析和应用;数据分析是通过各种技术手段分析表型数据,以获得可用的生物学、农学知识;数据应用主要集中在育种方面,包括鉴定各类候选基因和分子标记,将表型组数据与其他组学数据整合,建立各类育种辅助模型等。

2.1 植物表型数据的获取

植物表型数据的获取是指利用包括多光谱成像、高光谱成像、红外成像、光合荧光成像、CT 扫描和MRI 扫描等技术在内的数据采集设备,从细胞、器官、植株、群体等不同尺度对表型数据进行获取的过程。数据采集设备所搭载的平台涵盖了从室内到大田,从便携式表型采集设备到各类型航空飞行器等多个层面。利用这些方法进行数据采集的植物主要包括:拟南芥[10]、大麦[11]、玉米[12]、小麦[14]、大豆[15]、水稻[16]等。表1 列举了高通量植物表型数据获取的平台、支持的采集技术、应用场景以及优缺点等信息。

目前,植物表型数据获取的研究热点仍然集中于开发高通量、高精度、应用场景广泛、使用成本低的大型平台,此类平台主要包括能够应用于温室内和田间的传送带式和轨道式两种。田间和温室传送带主要针对能够在传送带上培养的盆栽植物,通过动力传送至成像区域进行成像,分别以澳大利亚植物表型加速器和德国尤利希植物表型研究中心温室表型系统为代表。田间和温室的轨道式平台用于固定区域内植株群体性状的采集,应用较为广泛的主要有德国LemnaTec 公司的Field Scanalyzer 采集平台,主要用于检测可控环境中的植物形态特征,可进行高通量植物表型成像分析测量、植物胁迫响应成像分析测量、植物生长分析测量、性状识别及植物生理生态分析研究等[27]。

我国在大型表型数据采集平台方面的自主研发起步相对较晚,开发出的表型平台主要针对单一植物或者固定性状进行采集,整体平台研发水平与国际先进水平仍有一定差距。国内使用较为广泛的自主研发平台主要有2014 年华中农业大学和华中科技大学联合研制的全生育期高通量水稻表型数据测量平台,用于自动采集水稻株高、叶面积、分蘖数、生物量、产量等15 个参数的数据[30],以及2017 年中国科学院遗传与发育生物学研究所研制的植物表型组学研究平台PPAP[31]。

表1 高通量植物表型数据采集平台Tab.1 High-throughput plant phenotypic data collection platforms

2.2 植物表型数据的存储管理

高通量植物表型数据主要分为结构化数据和非结构化数据两大类,结构化数据主要是指传统农艺性状、植物抗病抗逆信息、品质性状等数值型和字符型数据;非结构化数据或半结构化数据主要来源于各类图像、光谱、文件等。根据表型数据的特点,在进行数据存储利用之前,会依据最小信息、本体术语和数据格式等3 个原则对数据进行标准化处理,之后通过文件服务器存储数据、数据库系统发布数据和提供服务的方式对表型数据进行存储管理。

目前单一的植物表型组学数据库较少,大部分数据库都涵盖了包括基因组数据在内的多个组学的数据。表2 汇总了2015 年以来具有代表性的植物及烟草表型组学数据平台,包括平台的简单介绍、数据内容和发布年份等信息。

应用较为广泛且影响力较大的综合类表型数据有Planteome 数据库和PGP 知识库。Planteome数据库采用本体术语(Ontology Terms)作为表型数据的唯一和可重复性注释,本体术语主要包括植物本体、植物性状本体、植物实验条件本体、表型和属性本体等。数据库提供了95 个植物分类群的表型数据,主要包括植物表型、植物性状、基因功能和表达数据及其本体术语注释等,凭借着其较为全面的数据和标准的作物本体,其对性状和表型评分的标准已经被多个国际作物育种项目采用[34]。PGP 知识库是一个用于存储、分享植物基因组学和表型组学研究数据的平台,数据库拥有21 157 个数据实体,主要包括来自高通量植物表型的数据图像、未完成的基因型数据、用于可视化的形态植物模型数据、质谱数据以及各类软件文档等未正式发布的跨域实验数据集,并提供所有数据的发布和下载功能[38]。

表2 植物表型组学数据平台Tab.2 Plant phenomics data platforms

2.3 植物表型数据的分析

高通量采集设备获取的表型数据中大部分是非结构化数据。植物表型分析和研究主要是通过计算机科学技术进行分析,例如视觉算法、深度学习、数字图像处理、数据挖掘等技术,提取出数据中具有使用价值的生物学信息,利用这些信息或结合其他组学、环境数据再进行植物生长发育的研究。表3 汇总了在表型图像数据分析中主要使用的理论方法、应用技术和已成功应用的案例等。

表3 表型数据分析方法分类Tab.3 Classification of phenotypic data analysis methods

尽管传统的机器学习和图像处理技术在特定场景下仍然发挥着作用,但随着高通量表型数据采集技术的快速发展和表型数据量的爆炸式增长,利用包括卷积神经网络、深度神经网络、转移学习等在内的深度学习算法开发算法架构,如ResNet[46],VGGNet[46],AlexNet[47],GoogLeNet[47],SegNet[48],SqueezeNet[49],ARIGAN[50]等,以及自动识别及分析图像数据已经成为表型数据分析一个主要的研究方向,在植物表型尤其在植物胁迫和病害表型的大数据图像处理方面开始广泛应用[44]并且表现出色,如植物表型信息预测方面的基于叶脉模式的植物识别[51]、植物秸秆数量和秸秆宽度测量[52]、根和芽的定位和特征检测[14],植物抗逆抗病检测分析方面的木薯褐斑病和花叶病检测[53]、橄榄快速衰退综合征检测[54]以及甜瓜黄斑病、黄瓜花叶病等多种作物病害分析[55]等。这些方法能够利用多类型表型数据建立植物组织模型、研究植物表型地域差异、预测植物表型信息和揭示植物演化规律等,可为植物表型组的持续深入研究提供重要的技术支持。

2.4 植物表型数据在育种方面的应用

育种是植物表型研究,尤其是作物表型研究的重要应用目的之一。作物育种经历了以人工筛选为主要方法的第一代、以杂交为主要方法的第二代和以分子标记和全基因组关联分析为主要辅助方法的第三代的逐步发展,目前正在开启多学科交叉、多组学数据支持的第四代大数据智能辅助育种阶段[56]。实现智能化辅助育种需要整合表型组和基因组、转录组、代谢组等多组学数据,通过全基因组关联研究(Genome-Wide Association Studies,GWAS)、数量性状位点(Quantitative Trait Loci,QTL)分析等多种技术手段生成大量候选基因、候选分子标记等数据,建立育种信息模拟、亲本选配推荐、育种路径推荐、育成品种预测等一批模型,形成最终的智能育种决策体系(图1)。

图1 植物大数据智能辅助育种体系Fig.1 Intelligent breeding system assisted by plant big data

近年来,很多植物都完成了全基因组测序,随着大规模植物表型数据采集和处理技术的发展,植物表型组学数据的持续积累和完善,利用表型组数据进行植物基因型选择鉴定研究的应用也日益广泛。2014 年,Honsdorf 等[57]通过高通量表型平台Scanalyzer3D,在一组野生大麦渗入系中分别鉴定出了44 个和21 个干旱胁迫QTLs。2015 年,Yang 等[58]使用自行设计的高通量叶片评分系统(High-throughput Leaf Scoring,HLS)对3 个生长阶段的533 份水稻材料进行了检测,对其29 个叶片性状进行了GWAS 分析,从中检测出了9 个与叶片性状相关的基因位点。2019 年,Yano 等[59]对大量水稻表型性状数据进行主成分分析,提取具有特定表型性状的主成分,并将主成分得分与GWAS 结合起来,鉴定出能够激活赤霉素(GA)信号的SPINDLY(OsSPY)基因,并证实了GA 信号对水稻结构调控的影响。将高通量表型数据与大规模QTL 或GWAS 分析技术相结合,为植物基因挖掘、基因表征提供了新的方法,为分子育种和智能辅助育种提供了技术支持。

相比其他育种方法,第四代智能辅助育种体系有着无可比拟的优势,是育种发展的必然趋势。一些拥有较为完善组学数据的作物研究机构和高校,已经开始将表型组学大数据应用于智能育种的方案设计,提出了初步的智能育种商业模式[60]。相信在不久的将来,智能辅助育种的各种模型和决策体系将会快速建立起来,推动植物育种进入新的时代。

3 烟草表型组学大数据研究进展

烟草作为茄科植物的一个重要模式物种,凭借着较高的科研价值和经济价值,在宿主与病原体的相互作用以及瞬时蛋白表达、蛋白功能检测、亚细胞蛋白定位研究[61-63]、植物与非生物胁迫响应、植物发育和代谢的功能基因研究[64-65]等多方面必将有着广泛的应用前景。

3.1 烟草表型组学数据的积累

早期烟草表型研究的发展和表型数据的积累往往在烟草育种研究的推动下进行。20 世纪70年代,美、日、俄等国家相继开始收集作物种质资源,构建相关的种质资源库,在世界各国烟草品种和种质资源的收集整理过程产生了早期的烟草表型数据,如美国国家植物种质资源系统,日本的作物种质资源信息系统,前苏联的农作物种质资源数据库等。其中,截止到2019 年底,美国国家植物种质资源系统共收录了2 300 余条烟草表型数据[66],涵盖烟草形态和生物学特征、化学成分等两大类共28 个属性。

烟草作为我国农业生产中重要的经济作物之一,科研人员对于烟草表型的研究很关注,尤其是烟叶的产量质量、烟草的抗性、遗传育种等方面。在传统农业研究领域中,我国主要的烟草表型相关数据库有两个,一个是中国作物种质资源信息系统,该系统于1986 年我国启动国家种质资源的收集工作时开始构建,涵盖180 种作物,包括38 万余份种质信息,其中收录了约1 160 余份烟草种质的表型数据[67];另一个是烟草专业的种质资源数据库“中国烟草种质资源信息系统”,该系统在两次全国大范围收集烟草种质资源数据的基础上,于2010 年开始构建,收集了约5 200 份烟草种质资源信息,共收录4 000 余条表型数据[68],涵盖烟草形态与生物学特征、品质特征及抗逆性三大类的73 个属性,目前该数据库是我国烟草表型数据收录较全的专业数据库之一。此外,近年来在地方烟草种质资源鉴定和烟草品种培育的过程中,如云南、贵州、湖北等地都持续有烟草表型数据的产出,但这些数据多以纸质书籍的形式进行记录和发表[69-71],未能建立有效的电子数据库进行数据交流和共享,在一定程度上限制了数据的高效利用。

随着烟草基因组相关研究的快速发展,尤其是多个烟草基因组数据的发布,推动了烟草表型性状相关功能基因的研究,新基因挖掘和基础研究取得了明显进展。近年来,一批重要性状的功能基因,尤其是在烟草优质、多抗、低害方面的相关基因被分析鉴定,例如蔗糖合酶基因家族在烟草系统发育中的表达模式分析[72],烟草CAMTA基因家族的进化和表达分析研究[73],本氏烟病毒诱导基因沉默研究[35],LcPDS,LcZDS和LcCRTISO基因过表达对烟草耐盐性的影响[74],烟草CchGLP基因过表达对表型和microRNAs 表达变化的研究[75],烤烟产量相关性状的QTL 定位分析[76],不同发育时期烟草叶数和叶面积的QTL 动态分析[77]等。在功能基因研究鉴定的过程中产生了一批烟草表型数据,部分研究专门建立了烟草基因组和表型组的数据库[35]。

随着植物高通量表型数据获取技术的日益成熟,部分高通量数据采集技术和数据分析技术开始应用于烟草,其中应用较为广泛的是小型无人机采集平台。目前该技术在烟草上的应用领域主要为烟草的生产管理,如烟株数量统计[78]、烤烟生长状态检测[79]、烟草种植面积评估[80]、烟草含氮化合物估测[81]等;另外在烟草病虫害检测方面也有应用,如烟草花叶病害高光谱特征研究[82]等。

通过传统农业研究、现代育种技术和高通量技术等产生的烟草表型数据正在日益增长,这些数据将逐渐成为烟草表型组学研究的基础。

3.2 我国烟草表型组学大数据的研究进展

为推进烟草科学大数据的发展,2018 年国家烟草专卖局“烟草科研大数据”重大专项正式启动实施,开始进行烟草科学大数据平台的硬件搭建和项目部署,也为烟草表型组学大数据提供了有利的软、硬件环境。项目初期进行了烟草科学大数据资源体系和标准体系的构建,体系中规划了现代烟草农业数据和生态基础数据等内容,规范了相关的数据元标准[83-84]。目前首批重大专项项目已经有部分数据和成果产出,如烟叶质量大数据构建及应用研究项目产出烟叶相关的表型数据,将降维技术应用到烟叶质量可视化[85];烟草近红外大数据构建及应用项目利用近红外设备进行烟草化学成分高通量检测分析;烟草育种大数据构建及应用项目开始建立专业平台进行烟草表型组、基因组、转录组等数据的收集整理。以上项目的实施,能够为烟草科学大数据尤其是烟草表型组学大数据提供统一的数据存储管理平台,解决烟草表型数据较为分散的问题。

目前已有高通量数据采集设备应用于烟草表型研究,如采用无人机对群体表型数据进行采集的方式,高通量数据处理分析算法的研究也取得了一定进展[78-82]。同时烟草科研大数据项目站在大数据的角度,开始将三维建模、机器学习、人工智能等计算机技术和生物技术引入到烟草科学大数据分析中,为烟草表型组学大数据研究打下基础。但烟草高通量数据采集主要集中在群体表型方面,缺乏温室传送带或者轨道式平台在温室或田间对烟草整株、局部组织器官和种子等进行高通量多光谱的测量。该类数据的缺乏将限制相关数据分析算法在烟草上的应用,迟滞烟草生长发育过程监测、植株三维模型构建等研究的开展。

分子育种技术目前是世界烟草育种使用的主要手段[86],我国烟草也处于分子育种的阶段,拥有一套较为成熟的分子育种技术体系[87]。该体系由烟草分子标记辅助育种、基因克隆与基因转化等多种技术组成。烟草方面开展了抗多种病毒病[88]以及糖酯[89]相关的分子标记开发、品种创制以及表型验证等工作,获取了一批与抗病和品质性状相关的分子标记和基因。虽然有很多烟草基因和分子标记被鉴定发布,但由于缺乏高通量的表型采集设备和分析软件,尤其是针对烟草组织、器官和单株等表型的专业数据采集设备,导致烟草暂未开展高通量表型数据与大规模QTL 或GWAS 分析技术相结合的研究工作,也未能开展大规模、更深入的基因挖掘和基因表征的研究工作。烟草表型数据在育种研究中的应用也多以分子标记和基因的验证为主,应用范围较为有限。

烟草表型组学研究进展较为迟缓,高通量数据积累较少,已有的数据分布零散,多项数据标准仍在制定过程中,距推广应用还有一定距离。烟草分子标记和基因的数量相较其他作物仍然较少,仍未能形成统一的烟草表型组学大数据体系,而烟草智能育种体系的构建需要烟草表型组大数据和烟草基因型大数据作为核心驱动源,在缺少该部分核心大数据的前提下,烟草的各类智能化辅助育种模型的构建也鲜有报道,烟草表型组学大数据在智能辅助育种方面仍有较长的路要走。

4 展望

综上,相比其他植物的表型研究,烟草高通量表型数据采集技术的应用仍然较少,烟草表型组学相关大数据平台的建设也较为迟缓,植物学、自动化、图形图像和计算机科学等其他科学领域先进的数据分析技术也鲜有使用,使得烟草表型缺少形成大数据的基础条件,无法形成一个有效的科学系统,难以为烟草大数据智能化辅助育种提供支持。针对我国烟草表型组学大数据发展的问题,为快速推进我国烟草表型组学大数据的构建和发展,提出以下建议:

(1)强化高通量表型数据采集技术在烟草上的应用

目前部分烟草抗逆性、基础农艺性状等表型数据的获取仍然是以人工采集的方式为主,该方法虽然便于实施,但是大规模数据采集的难度较大,准确性较难保障。高通量的表型数据采集设备和技术已经在烟草上开始应用,但相较其他作物仍然不成熟,缺乏高通量的表型数据采集设备和数据分析技术,限制了烟草产量预测、群体性状检测、大面积病虫害监测预警、三维模型构建、表型鉴定和分类、整合表型组学的多组学研究等多个方面的研究进展。高通量表型数据采集设备是获取高通量植物表型数据最有效、最快速的技术手段,其应用水平直接影响到烟草表型组学大数据的发展。因此,建议加强高通量表型数据采集技术在烟草上的推广应用,加快数据采集方式由机器代替人工的转变,为烟草表型组学大数据的发展奠定数据基础。

(2)构建烟草高通量表型数据标准和高通量数据库

我国的烟草表型研究机构较多,但目前尚未制定出烟草高通量表型数据标准,虽然烟草行业已经开始了烟草科学大数据资源体系和标准体系的构建,但在数据采集的设备信息、数据采集方法、数据图像格式等一系列元数据采集上仍然缺少统一的命名、标注和约束条件等数据采集标准和规范。在没有数据采集标准和规范的前提下采集的表型数据往往会造成采集数据差异大、数据信息不完整、数据无法共享通用等一系列问题,最终会迟滞烟草表型组学大数据的快速发展。现阶段烟草高通量表型数据尚未形成规模,可优先建立相关数据标准,并在此基础上,整合开发适用于烟草表型数据的数据库,为烟草表型研究提供统一、通用和共享的资源平台,促进烟草表型组学大数据的发展。

(3)加强烟草表型数据在烟草育种应用方面的研究

目前烟草高通量表型数据主要集中在烟叶生产管理方面,对于烟草育种的应用价值有限。有关烟草育种相关高通量表型数据的采集力度有待进一步加强,并在现有高通量数据分析技术的基础上,结合生物学、人工智能和机器学习等多个学科领域的先进技术,开发出适用烟草育种表型大数据的数据分析挖掘方法。此外,以精准育种和智能决策为目标,整合烟草基因型数据和表型组大数据,建立包括烟草亲本选配、育成品种预测等各类模型,构建基因型-表型-环境多位数据驱动的智能育种决策体系,提升烟草表型组学大数据的研究应用水平,推动烟草育种技术的快速发展。

猜你喜欢

高通量组学表型
高通量血液透析临床研究进展
Ka频段高通量卫星在铁路通信中的应用探讨
口腔代谢组学研究
基于UHPLC-Q-TOF/MS的归身和归尾补血机制的代谢组学初步研究
建兰、寒兰花表型分析
中国通信卫星开启高通量时代
GABABR2基因遗传变异与肥胖及代谢相关表型的关系
代谢组学在多囊卵巢综合征中的应用
慢性乙型肝炎患者HBV基因表型与血清学测定的临床意义
护理干预在高通量血液透析患者中的应用效果