APP下载

人工智能
——推动植物研究发展的新动力

2022-10-05周济陈佳玮沈利言戴杰闻桢杰孙港周洁丁国辉丁艳锋

南京农业大学学报 2022年5期
关键词:算法模型

周济,陈佳玮,沈利言,戴杰,闻桢杰,孙港,周洁,丁国辉,丁艳锋

(1.南京农业大学前沿交叉研究院/作物表型组学交叉研究中心,江苏 南京 210095; 2.英国国立农业植物研究所/剑桥作物研究中心,英国 剑桥 CB3 0LE; 3.南京农业大学农学院/江苏省现代作物生产协同创新中心/现代作物生产省部共建协同创新中心,江苏 南京 210095)

1 人工智能发展简史

1950年英国计算机科学家、人工智能之父Alan Turning在其开拓性论文“计算机及智能”(Computing Machinery and Intelligence)中提出了通过模仿游戏(the imitation game)验证机器是否具有“智能”(machine intelligence)的方案[1],随后Turing将该假设进一步完善,继而演变成此后广为人知的图灵测试(Turning test)。6年后,美国计算机科学家、图灵奖获得者John McCarthy在达特茅斯会议(Dartmouth workshop)上首次提出了 “人工智能”(artificial intelligence,AI)概念,并作为学科奠基者为该领域中的常识性推理问题(common-sense knowledge)做出了杰出的贡献[2]。不过真正将AI带入大众视野的是米高梅公司于1968年出品的划时代科幻电影《2001:太空漫游》(2001:A Space Odyssey)[3]。影片虚构了具有强人工智慧(strong AI)的HAL 9000超级电脑,为大众展现了AI和机器人技术在自然语言处理、语音交流、面部识别、行为识别及自我意志等领域的应用前景,对此后各类智能系统的研发产生了深刻影响。人类世界第一台具有弱人工智能(narrow AI或weak AI)的机器人“Shakey the Robot”(图 1-a)于1969年由斯坦福研究所(SRI International)人工智能中心正式发布[4],这台融合了逻辑推理和物理动作的自动化设备对机器视觉、机器人平台和自动化控制等技术的发展和应用产生了极其深远的影响,其中图遍历、图像特征提取及障碍物间最优路径搜索等算法至今仍被应用于图像处理和辅助驾驶等领域。

由于计算机硬件算力、软件算法和相关数据集的限制,对AI技术的应用在20世纪70至90年代进入发展的“冬天”。但该时期却是各类AI基础算法研发的黄金期,许多影响了现代AI系统的著名算法均发表于本阶段,包括:多层感知器(multilayer perceptron)及其在特征选择(feature selection)、模糊集(fuzzy set)和分类(classification)中的使用[5-6];现代深度学习模型的基础,即神经网络模型(neural network models)和人工神经网络(artificial neural networks,ANN)[7-8];用于记忆和关联机制的Associatron简化神经网络模型[9];可构建自适应学习系统的自组织式神经模式识别器(self-organizing neural pattern recognition machine)[10];模仿人类注意力的类注意力机制(attention-like mechanisms),如超网络(hypernetwork),并以此动态调整模型对不同输入数据的关注权重[11];以及为因果推断和模型评估奠基的贝叶斯网络(Bayesian networks)等[12]。

1997年,由IBM开发的深蓝系统(Deep Blue)通过穷举法击败国际象棋冠军Garry Kasparov后,AI再次受到广泛的关注[13]。在过去20年里,AI算法的研发和应用随着计算机硬件算力的进步呈指数级增长,极大地带动了生物医药、数码娱乐、教育科研和金融服务等行业的快速发展[14]。例如,2011年IBM推出的Watson认知系统(cognitive systems),通过自然语言处理技术解析语意(semantic technology),相关算法被广泛使用在自动化描述、预测统计和自然语言处理中[15]。虽然受到较多质疑,2014年3名俄罗斯和乌克兰程序员共同开发的Eugene Goostman聊天软件被称为人类历史上首个可以“通过”图灵测试的算法[16],在一定程度上证明了机器可对人类智能进行“模仿”。2015年,当时供职于微软的何恺明等推出了一个数百层的残差神经网络(residual neural network,ResNet),并开创性地通过跨层跳跃连接(skip connections)避免了因为深度网络构架导致的梯度消失(the vanishing gradient problem)及精度饱和(accuracy saturation)等问题[17]。此后,Resnet及其变体(如ResNeXt和DenseNet等[18])被广泛应用于图像分类和目标检测任务,在几乎所有基于图像的智能系统中均可见其身影。2016年,谷歌子公司DeepMind开发的阿尔法狗(AlphaGo)结合启发式蒙特卡洛树搜索算法(Monte Carlo tree search)和ANN,通过人机对弈建立训练集,再针对围棋对弈中不同着法(moves)的获胜率通过神经网络强化树搜索训练模型,进而基于多次迭代产生更优着法策略[19]。2016至2017年,AlphaGo及其后续版本相继击败了世界顶级职业围棋选手李世石和柯洁,在引爆世界舆论之余,也让人类看到了AI系统在大数据加持下的算力优势和瞬时决策力。不过多年以后再看AlphaGo及通过自我对弈和强化学习算法(reinforcement learning)击败AlphaGo及后续版本的AlphaZero,这些模型仍是对人类决策过程的简单模仿,虽然展示了人类在算力上的局限性,但这些系统仍只是基于“计算”(computation),并不具备人类的大局观和通用智能(general intelligence)[20]。

2017年以来,随着深度神经网络(deep neural network,DNN)、循环神经网络(recurrent neural network,RNN)和卷积神经网络(convolutional neural network,CNN)等模型的成熟,AI技术被大规模应用到各种传统和新兴行业中,如人脸和文字识别系统[21],基于大数据的医疗诊断和医药研究[22],金融证券的交易和风控模型[23],仿真类电子游戏[24],以及特斯拉和谷歌Waymo等自动驾驶技术[25]。感兴趣的读者还可通过清华大学唐杰团队开发的搜索模型ArnetMiner[26]对人工智能发展各阶段的代表性人物和主要成果在学术网中进行高效挖掘,对AI历史进程做进一步的梳理和研究。

2 人工智能的定义和分类

作为一门新兴学科,“人工智能”自成立以来尝试过多个发展方向,如模拟人类大脑、模仿形式逻辑(formal logic)及通过量化领域知识(domain knowledge)构建超大型数据库等[27]。由于基于数理统计的机器学习和深度学习为工业界和学术界解决了很多实际问题,因此该方向在现阶段AI研究中占据了主导地位[28]。由此可见,专家和从业者对AI的定义与普遍认知不尽相同,现阶段的AI一般指区别于人类自然智能的(natural intelligence)、可通过理性行为(rational activities)和数学优化(mathematical optimization)等方法对输入数据进行模式化“学习”(如拟合、特征匹配等),并在特定条件下解决“目标问题”(如对象检测、关联分析、数据分类和趋势预测等)的决策系统[29]。因此,现阶段绝大多数AI算法或智能系统并不能真正模拟或展示人类在学习或解决问题过程中所依赖的领域知识和通用智能。虽然作为大多数深度学习模型基础的ANN,其灵感来源于生命系统中的分布式通信节点和信息处理方式[30],但ANN与生物大脑运作机制差异巨大;简而言之,ANN不具备动态模拟能力,而且是静态且不可塑的。谷歌最新的LaMDA对话模型(language models for dialog applications),已可通过参考外部数据源在量化事实性(quantify factuality)的基础上对已知来源进行合理响应(response),而非此前其他算法的刻意模仿(simulate),但其运行模式与人类认知(如归纳演绎等)仍有很大差距[31]。实际上对生物大脑工作机制的模拟难度极大,以美国大脑研究计划(The Brain Initiative)资助的研究为例,即使只对毫米级小鼠初级视觉皮层(深 0.9 mm,直径5 mm,约230 000 个神经元)进行视觉刺激模拟,这个数千万美元投资所构建的计算平台也只能对部分皮层回路结构进行还原,很难胜任对皮质细胞类别、脑神经组织电信号传输、突触强度和关联网络等神经细胞活动的模拟[32]。

尽管基于现阶段的研究理论和技术方法,AI超越甚至接近人类智能的可能性很小,但是很多AI技术在某些特定场景中解决目标问题的能力却令人惊叹。利用AI模型在大数据解析上的优势,通过扩大数据集稳步提高预测的准确性和模型的泛化性,其改进专业领域和提高人类生活质量的前景令人期待。结合人类需求驱动科技进步理论[33]和马斯洛需求层次模型(Maslow’s hierarchy of needs)[34],AI发展可粗略分为4种类别(图 1-b):1)单一反应型(reactive machines),即基础AI,不具备记忆(即不能利用历史信息指导决策),只能对有限输入做出功能性反应的形式;2)有限记忆型(limited memory),即通过大量的训练集构建历史经验和记忆模式,以此为基准不断改进算法决策力和预测精度;3)心智理论型(theory of mind),这个层次的AI至今仍停留在理论阶段,主要是用于理解人类在多种外部因素影响下的思想形成和情绪产生过程,通过模拟人类心智的运行方式构建可媲美人类的学习、决策和想象力的智能系统[35];4)自我意识型(self-awareness),这类具有自主意识的AI仅存于想象,如机器可完全模拟人脑运作,那其超强算力、学习和决策力可能是智慧发展的最后阶段——机器会拥有自己的思想,并可轻易达到人类智慧的极限[36]。

图1 第一台弱人工智能摇摆机器人(a)[4]及基于人类需求层次理论对AI的分类(b)Fig.1 The first weak artificial intelligence(AI)shakey robot(a)[4]and the classification of AI and AI-related technologies based on Maslow’s hierarchy of human needs(b)

根据以上分类,AI技术发展遵循从弱人工智能(执行场景特定和解决能力单一)、强人工智能(具有人类认知水平和通用智能,系统可适用于多个领域),到超人工智能(super AI,经过逻辑演化和自我学习产生智慧,并在各方面超越人类智慧)的过程[37](图 1-b)。现阶段AI算法距强人工智能还有很大的差距,对强人工智能的主流研发思路有:1)提高现有深度神经网络的可解释性(如通过CapsNet[38]和 NasNet[39]),通过神经网络生成模型(generative model)自主学习输入数据[40],再结合对抗训练(adversarial training)[41]、多任务(mutli-task learning)[42]、知识蒸馏(knowledge distillation)[43]或增强学习[44]等各种方法协同提高模型的学习效率、自适应性和鲁棒性,以期逐渐构建具有强人工智能的复杂网络模型;2)集合多个弱AI系统,通过构建多系统间的交互模拟人类推理和决策能力,再基于下一代计算装置(如量子计算机)大规模模拟神经元活动,重建复杂的人类思维[45]。当然,这些尝试都需要基于多学科交叉融合(如脑科学、认知心理学、思维模式、数理研究、生命逆向工程和计算机软硬件系统等)。值得指出的是,随着各类“智能”算法应用的普及(如字符识别和对象检测等),许多AI研究者和从业人员一直寻求对“人工智能”概念的重新定义,即“AI”一词应指代可真正实现“智能”行为的算法,而并非一些常规的“计算”行为,这也被称为人工智能效应(AI effect)[46]。特别是当下某些行业对AI概念的过度宣传、对智能工具的错误使用(如通过深度变脸和语音模拟技术进行诈骗)或传播与实际不符的恐慌信息(如AI会短时间超越人类智能)等情况,均可能对AI的发展产生不利影响,导致下一轮AI寒冬的来临[47]。

3 AI在植物研究中的应用

在植物研究中所使用的AI技术基本上等同于对各类传统机器学习和深度学习算法的应用,为方便行文,下文中使用的“AI”一词泛指所有与机器学习和智能系统相关的基础算法、模型构架和技术应用。如图2所示,对AI的应用可见于各个植物研究领域,所用的技术一般属于单一反应型和有限记忆型的弱人工智能范畴,包括数据采集、多组学整合、对象检测、性状分析、关联分析和趋势预测等,为遗传连锁、基因挖掘、功能解析、分子育种、基因工程、栽培管理和农业生产等提供解决方案[48]。最近10年来,使用了AI技术和算法的植物研究文献数以10万计,在文献综述中很难做到面面俱到。因此下文将从开发框架和常用算法、基因挖掘和分子育种、病虫害检测预防、作物栽培和农业生产等几个方面对植物研究中的AI应用案例进行概述。

图2 人工智能技术在各个植物研究领域中的应用Fig.2 Applications of AI technologies in different areas of plant research

3.1 国内、外AI开发框架、平台和模型

在过去10年中,针对传统机器学习和深度学习模型的研发获得了飞速发展,各类开发框架和平台(frameworks and libraries)为不同AI算法的软件实现和开发调试提供了统一且便利的研发环境[49]。一些代表性的开发框架和平台有:1)用于数字科学(data science)的开源机器学习库,如Scikit-Learn[50]、深度学习库Theano[51]和基于C++的Caffe[52]等;这些框架相对简洁,获得了开源社区的广泛支持;但由于它们在工程设计和扩展性上的局限性,很难保证它们的工业级部署和对各种加速硬件的支持(如神经处理单元);2)2015年,谷歌推出了第一款由工业界主导的学习框架TensorFlow 1.0[53],凭借其良好的性能、完备的功能和基于数据流图的框架,吸引了广泛关注;但由于其1.0版本的开发体验并不友好,因此谷歌重建了生态系统,并于2019年推出TensorFlow 2.0,包括用于移动和嵌入式设备的TensorFlow Lite和支持大规模产业级部署的TensorFlow Extended;2.0版本还特别集成了开源神经网络库Keras,大大降低了开发深度学习模型的难度[54];3)2017 年,脸书AI(现更名为Meta AI)和微软共同推出了PyTorch,因其简洁的系统设计和可即时执行的动态图模式,受到了科研界的追捧[55];1年后Caffe 2并入PyTorch,使其在多系统部署上得到了进一步的提升;4)现在流行的框架还包括亚马逊支持的Apache MXNet、微软推出的CNTK toolkit、基于Python的Chainer以及通过Java编写的Deeplearning4j等[56]。

随着深度学习重要性的不断增加,中国的领军企业也相继推出了各类国产开发框架和平台。例如:2012—2015年,旷视科技相继推出了Face++和Brain++等AI云平台,专注于图像识别和深度学习算法优化,提升了模型训练和预测的一体性[57];百度于2016年推出了飞桨开源框架(PaddlePaddle),通过重新设计前端编程界面和核心架构,以期兼顾高效和易用性[58];2020年,华为正式发布了MindSpore开源计算框架,借助AI处理器算力进行全场景深度学习,为分布式训练和多端部署提供了高效的智能解决方案[59]。在国际上,目前使用最广泛的AI开发框架为PyTorch和TensorFlow,两者均有开发成本低、应用范围广和硬件支持完善等优点。由于前者在使用上的简洁性,该框架被广泛应用于科学研究中,如模型搭建及智能系统测试等工作;后者在生态体系和系统集成上具有较大优势,因此被大量应用于各类产业级部署中。当然,国产开发框架也在日益完善,随着其可调用模块的日趋丰富和中国广大用户群的支持,国产平台必将在今后AI研究和生产中获得更广泛的使用。表1汇总了部分具有代表性的AI(机器学习和深度学习)开发框架、平台、团队及相关简介。

表1 各类AI(机器学习和深度学习)开发框架、平台、团队和相关简介Table 1 A variety of AI(machine learning and deep learning)development frameworks, libraries,R&D teams,and brief introductions

在植物研究中广泛使用的各类AI算法基本上来自表1中介绍的框架和平台[60]。以植物表型组学研究中经常使用的数字化性状提取为例,从细胞到大田层面可获取多尺度植物表型组数据集(图3),研究人员可根据生物学问题和对应的对象特征,选取不同的AI算法进行数字化性状提取。如:1)通过语义(semantic,如U-Net,DeepLab、SegNet等[61-62])、实例(instance,如Mask R-CNN和YOLACT等[63])或全景(panoptic,如Upsnet和Panoptic-deeplab[64])等分割方法,算法可关联可见光或多光谱图像中特定区域和相应的像素簇,以此提取感兴趣区域(region of interest,ROI),并基于ROI中的形态或颜色空间等特征分析植物性状参数;2)基于各类图像对植物防御机制进行量化分析(如病虫害类别和发病程度等),常用的AI检测模型有AlexNet、GoogLeNet、VGG、ResNet等[65],可端到端(end-to-end)完成对输入图像和病虫害分类、发病程度的预测;3)对植物重要器官的动态分析可基于其生长发育(如基于时序对穗部和花药等器官的检测),可使用的AI算法包括R-CNN、YOLO、SSD MultiBox(single shot detector)等[66],通过对图像序列中ROI的连续检测完成器官区域提取和其动态表型的智能解析。

图3 从细胞到群体的多尺度植物表型组数据采集以及各类有代表性的人工智能开发框架和平台(图片来源:周济实验室)Fig.3 Multi-scale plant phenotyping datasets collected from cellular to population levels together with a range of representative AI development frameworks and libraries (image source:Zhou Ji Laboratory)

3.2 AI在植物基因挖掘和分子育种中的应用

在植物基因挖掘和分子育种中,各类AI算法被应用于基因表达分析、定位分子标记、品种间表型差异分类等研究问题。在整合遗传多样性(genetic diversity)、跨物种转录组分析、基因挖掘和基因型-表型预测等方面,对AI的应用取得了良好的效果。例如:Bheemanahalli等[67]使用Mask R-CNN对从数百个高粱品种采集的叶片气孔密度(stomatal density)和气孔复合面积(stomatal complex area)表型进行统计,通过全基因组关联分析(GWAS)鉴定了71个单核苷酸多态性(SNP),其中约一半与先前报道的位点重合;Ferguson等[68]结合光学断层扫描(optical tomography)和CNN分析了不同高粱品种的叶片气孔密度和叶面积质量比的差异,再通过GWAS和TWAS分析鉴定了394个候选基因,其中75个是拟南芥叶片发育或水分利用的同源基因(putative orthologs);Colmer等[69]开发了表型采集和分析平台SeedGerm,对小麦、大麦、玉米、番茄和油菜等作物的种子萌发过程进行自动化采集,并基于监督式机器学习(如随机梯度下降算法)提取萌发表型组,继而通过油菜群体的TWAS分析定位到了多个可靠候选位点;Cheng等[70]基于进化理论的机器学习方法(evolutionarily informed machine learning)对基因型-表型关系进行预测,通过分析拟南芥和玉米转录组数据,鉴定了进化上较保守的氮素响应基因,再使用XGBoost和GENIE3分别根据性状特征和转录调控网络中转录因子的关联性,对鉴定的基因进行排序,最后通过突变体构建鉴定了8个与氮素利用率(nitrogen use efficiency)相关的转录因子;Hu等[71]整合了基因组、转录组及代谢组数据,通过ML-LASSO(multi-layered least absolute shrinkage & selection operator)分析了3种组学数据及其对应的遗传特征(genetic features),并通过预测模型提升了水稻测产的准确性;Sprenger等[72]结合转录组及代谢组标志物预测马铃薯耐旱性,使用随机森林模型提取转录组及代谢组标志,先实现耐旱性的正确预测(95.7%),再通过简化得到的20个代谢物和转录本构成的最小标志物组合(a minimal combination of metabolite and transcript markers),为育种中耗时耗力的干旱胁迫试验提供了新的解决方案;华中农业大学的熊立仲和张建团队结合无人机可见光相机对水稻抗旱动态响应的关键阶段进行采集,基于改进后的VGG-16网络提取水稻群体抗旱表型组(如卷叶、含水量及抗旱指数等),最后通过GWAS鉴定了111个候选位点,除已报道的抗旱位点外,还包含了34个潜在的抗旱位点[73];中国科学院分子植物科学卓越创新中心的韩斌院士团队和南京农业大学的周济团队合作,先通过经济型无人机对多点多季的水稻群体低空采集大量基于时序图像序列,再通过开源AirMeasurer平台融合二维三维图像处理和机器学习算法,提取不同生育时期的水稻静态(如植株高度、冠层覆盖度和各类植被指数等)和动态表型组(即不同农艺性状在关键生育期中的变化速率),并以此构建预测模型对关键生育期(如抽穗期)进行动态预测,最后还对提取的各类生长表型进行QTL定位和GWAS分析,鉴定了多个可靠的基因位点及全新的候选位点[74]。

3.3 AI在病虫害检测及预防中的应用

在全球气候变化导致极端气候频发的大背景下,农作物病虫害发生呈种类多、程度重、频次高、区域广的趋势,严重影响全球的粮食安全,据估病虫害每年造成的全球农作物损失高达2 200亿美元[75]。近年来,AI在植物病虫害自动识别、程度分类和预测预报等领域的应用得到了长足发展,其研发策略可分为传统机器学习和深度学习2个方向。使用传统机器学习首先需要基于领域知识选取与农作物病虫害高度相关的特征(如颜色、形态、纹理等),以此构建特征向量;然后利用不同的监督式机器学习算法(如支持向量机、贝叶斯决策、随机森林等)完成对象识别和特征分类[76]。这类方法需要对病害类型、发病进程和严重性等有深入的了解,基于特征工程(feature engineering)构建分类器(classifier)。该方向的缺点是开发过程较为繁琐,人工选取的特征较敏感,因此构建的模型可能会缺乏泛化性,难以在田间复杂环境中区分相似或并发型病害(concurrent diseases);此外,如果获取的病虫害数据包含不完整或错误的特征,精心构建的分类器也将无法正常运行[77]。

深度学习算法的应用为病虫害特征提取提供了鲁棒性较高的解决方案[78]。特别是大量开源标记数据集的出现(如Plant Village、IP102、AI Challenger 2018等[79]),使AI模型的开发效率、训练和测试集构建、算法调试及应用场景都得到了大幅提升[38]。但开源数据集大多在可控条件下采集,并不能代表田间复杂多变的病虫害情况,尤其是这类病害集缺少不同基因型、生长时期、地区和发病程度的元数据(metadata);因此,基于这些数据集训练的模型在不同生育期中识别田间病害时准确率较低,很难在农作环境下大规模应用[80]。现阶段的病虫害检测一般还会结合不同成像技术(如热成像、多光谱或高光谱成像、荧光成像和核磁共振成像等获取植物散发的各类辐射)和病虫害引起的植物颜色、形态、蒸腾速率、植被冠层和密度等特征信息开发AI算法[81]。其中一些较成功案例有:Itakura等[82]利用CNN对柑橘的荧光光谱进行分析,通过荧光光谱峰值变化监测柑橘的成熟度和染病程度;Nagasubramanian等[83]通过高光谱成像设备拍摄大豆健康或感染炭疽病的叶片样本,再基于3D-CNN学习高光谱图像中的关键波段中的光谱变化,以此完成对健康和感染大豆样本的分类;Wu等[84]通过无人机搭载的高清可见光相机获取数百个玉米品种的田间图像(2 526张健康、3 741张病害),再通过CNN实现对玉米叶枯病的精细化分类;华南农业大学和岭南现代农业实验室通过手机拍摄的方式获取数万张稻瘟病、假黑穗病、稻颈瘟、纹枯病、水稻白斑病和水稻褐斑病的图像集,再从5种与ResNet相关的模型中选取3个最佳子模型,通过集成学习(ensemble learning)完成最终预测模型的训练和终端部署[85]。

3.4 AI在栽培和生产上的应用

AI在栽培管理和农业生产中也有着广阔的应用前景。以预测不同生长条件下农作物产量和品质为例:1)在温室环境下,通过整合时间卷积网络(temporal convolutional network,TCN)和循环神经网络(RNN),Gong等[86]基于温室参数(温度、湿度、二氧化碳、光辐射等)及不同番茄品种的产量来预测温室内其他经济作物的理论产量;2)Moon等[87]结合CNN 和MLP检测甜椒坐果、膨大和成熟期的不同发育阶段,并使用模型预测甜椒在田间生长环境下的各种可能生长形态和品质分级;3)Riera等[88]以VGG-19为主干的RetinaNet 模型测算大豆豆荚数,并根据田间获取的大豆图像估计产量,完成了对不同大豆基因型农艺价值的排序;4)Bauer等[89]通过在线学习(online learning)动态优化浅层CNN模型,基于超大规模航空图像中将种植园中的生菜分为大、中、小3个类别,并以此评估生菜质量和预测可投放市场的产量(marketable yield);5)Ma等[90]综合利用多个公开数据集(如卫星图像、连续气象数据、土壤属性和玉米历史产量等),开发了基于Bayesian networks的超大规模玉米测产模型,并在多年(2010—2019年)数据验证中取得优于其他机器学习模型的结果;6)陈佳玮等[91]将轻量级MobileNetV2-YOLOV4检测模型集成于安卓智能手机中,通过手机俯拍的小麦冠层图像,在田间通过手机算力离线完成了单位面积麦穗计数和不同小麦品种的小区测产;7)东京大学的郭威团队基于主动学习(active learning)标注数据,为谷物穗检提供了详细的算法对比和多重优化后深度学习检测模型[92]。

农业人工智能也已成为世界现代农业发展的趋势,如国家农业信息化工程技术研究中心的赵春江院士[93]提出的“农业从信息化发展到数字化、网络化、再到智能化”,将大幅度提高中国农业生产的“效率、效能、效益”等战略目标。AI与物联网、农机和各类农业终端的结合既减少了作物栽培和农业生产中的人工干预,还提高了相关决策的准确性和时效性,增进了生产效率。例如:El Hoummaidi等[94]通过无人机绘制了迪拜的农业区地图,再结合可见光和近红外波段和ArcGIS中的深度学习检测算法分析了种植区中的植被覆盖程度和树林地理位置,为大规模可持续农业测绘提供了大数据支撑;华中农业大学的杨万能团队通过结合超像素和重量级Panicle-SEG-CNN模型对田间拍摄的水稻穗部图像进行分割,通过对不同水稻品种、田间环境、拍摄角度和生育时期的室内、外水稻图像的扩展训练,提高了算法的鲁棒性,为量化水稻关键产量构成因素提供智能系统[95];Reynolds等[96]结合分布式物联网传感器、表型工作站和云平台构建了CropSight 平台,将小麦生长预测模型部署到分布式工作站上,完成了对不同小麦品种的田间全生育期评估。此外,AI技术还被应用于农用车辆和无人机导航定位和性能监控上,如中国农业大学的张漫团队[97]和南京农业大学的周俊团队[98]结合激光雷达、全球导航卫星系统、多传感器同步、坐标系配准和实时牵引力控制等智能系统,基于RANSAC、crop-box和Bekker等算法,提高了在大田环境下农用车辆检测与识别障碍物的能力,优化了智慧农机的控制效率;此外,华南农业大学的罗锡文院士团队通过结合智能农机和近实时数据交互,在水稻生产中提出了智能无人农场模式,为今后智慧农业的发展提供了有益借鉴[99]。

4 展望植物研究中AI发展

全球气候的快速变化更加剧了全球范围内的政治和社会不稳定、劳动力短缺、农业用地萎缩、病虫害频发和极端天气等问题。因此如何经济高效保护农作物种质资源、加速新品种选育和各类农作物相关研究,其重要性和紧迫性不言而喻。作为中国七大“新基建”中的重点发展领域,在可见的将来AI会担负起应对全球挑战,高效助力习总书记提出的“促进农业全面升级、农村全面进步、农民全面发展”的乡村振兴战略。

通过AI技术与植物研究结合,实现世界领先的种质资源分类、品种选配、优质基因挖掘、农艺性状预测以及智能栽培和生产决策,需要从海量生物数据集中提取优质农艺性状与环境关联规律,通过基因工程和精准化育种设计、高效实现突破性品种的培育。当然对AI技术的选择需要根据各类植物研究中的应用场景进一步细分,在日益依靠大数据的生命科学领域发挥现阶段AI系统特有的大数据解析优势,为广大农业工作者提供可靠的解决方案。对于AI在植物研究中的发展,引用清华大学张钹院士提出“第三代人工智能”的理论体系[100]:未来的AI算法研发和应用可基于改善模型的可解释和鲁棒性,发展安全、可靠、可信及可扩展的AI技术。在寻求AI和植物研究高度融合的基础上,逐渐完成从“感知”进入“认知”的创新应用。

笔者领导的中国南京农业大学和英国剑桥作物研究中心联合表型实验室以多尺度植物表型组研究为切入点,通过各类AI模型构建了从细胞组织、器官植株,到小区大田等各层面的自动化、智能化性状提取算法系列(图4)。此外,该实验室还对融合领域知识和高维度生物数据集对AI在植物研究中的创新应用进行了有益尝试,包括:1)通过高光谱成像系统对植物丰富光谱特征完成采集后,基于数百个光谱波段及其光谱变化与各种植物生理生化指标进行关联,以此分析对应的植物健康和胁迫(如各类生物和非生物胁迫)状况;然而传统方法实现多维数据集的精细化分类非常困难,因此实验室先通过少量人工标记构建基底分类模型,再基于不同场景下数据扩展、在线学习和特征工程融合的方法扩充基底模型,以期生成泛化性高的高光谱植物表型分类算法;2)随着智能手机的普及,实验室还将AI模型通过模型压缩及部署技术(如TensorFlow Lite)在手机端离线完成数据采集、特征检测和分类预测,并通过与云平台互联动态改进分析精度(即通过强化学习同步改进终端和云端的模型),从而在田间通过智能手机算力近实时检测关键生育时期、产量构成因素和对植物病虫害定级;3)实验室还与剑桥大学Eves-van den Akker团队开展深度合作,通过实例和全景分割相结合的方法,基于对神经网络的逆向工程(reverse engineering)解析网络中梯度引导进化的方法,以此动态改进不同生育期中目标对象在检测网络中的权重分配,对TB级图像序列中的百万个线虫进行了精确且快速提取,并基于动态表型算法[74]预测全生育期的线虫表型差异,为基因组关联分析、重要分子标记精确定位及结果在分子育种中的快速应用提供了全新的思路。

图4 各类机器学习和深度学习模型在自动化性状分析中的应用(图片来源:周济实验室)Fig.4 Applications of varied machine learning and deep learning models in automated trait analysis (Image source:Zhou Ji Laboratory)

然而,现阶段各植物研究领域中对AI技术的应用还只是停留在对数据采集、处理和分析等特定任务上。AI算法和技术应用应该在融合多尺度、多生境、多源异构植物数据集、大规模校验和标准化生物数据,提高性状解析适应力和泛化力,以及结合软、硬件和自动化技术为育种、栽培和农业生产提供智能解决方案等方向上更进一步:帮助我们从海量的植物数据中获取生长规律;通过多组学融合和智能功能解析对环境变化下的选育趋势做出精准预测;加快基因挖掘和分子育种与栽培管理和农业生产的对接;在气候变化背景下,根据我国多元化的农业生态资源和品系差异提供定制化的应对措施。当然,这一轮AI浪潮中的创新和技术应用浩如烟海、灿若星辰。本文也只能以点带面,以期为AI创新应用在中国植物研究、遗传育种、栽培管理和农业生产中早日普及,为中国尽快达到并超越国际领先水平抛砖引玉、集思广益。

猜你喜欢

算法模型
一种去中心化的域名服务本地化模型
适用于BDS-3 PPP的随机模型
哪种算法简便
抑制OFDM系统峰均比的DHT-SCF联合算法
基于Lévy飞行的一种改进鲸鱼算法
不等式创新题的模型化解题探究
重要模型『一线三等角』
Travellng thg World Full—time for Rree
进位加法的两种算法
根据问题 确定算法