APP下载

AI预测可以代替科学实验吗?*
——以AlphaFold破解蛋白质折叠难题为中心

2021-12-02赵云波

医学与哲学 2021年6期
关键词:生物学解析蛋白质

赵云波

美国时间2020年11月30日,谷歌旗下的人工智能(artificial intelligence,AI)公司DeepMind宣布:“AlphaFold成功解开了一个困扰人类长达50年之久的生物学难题——蛋白质折叠问题。”[1]在第14届国际蛋白质结构预测竞赛(critical assessment of protein structure prediction,CASP)上打败了所有竞争对手。消息一经发出,有人惊呼“结构生物学家要失业了”。AI可能会带来一些行业性失业早已不是什么新鲜话题,但在人们分析哪些职业将受到影响时,科学家群体很难上榜。然而这一次,可能轮到科学家自己了。那么,AlphaFold真的“看”到了蛋白质结构吗?会带来结构生物学的革命吗?以此为核心推演开来,AI预测可以代替科学实验吗?AI计算推理知识是科学知识吗?AI可以代替科学家的工作吗?这些思考直接关系AI时代我们如何理解科学、如何发展科学等深层次问题。

1 蛋白质折叠难题及其主要破解途径

1.1 生物学结构分析的意义及蛋白质折叠难题

简单来讲,蛋白质是构成生物体的一类大分子,在生命过程中担任了重要的角色,生物体中很多生命活动都离不开蛋白质在其中发挥特定的作用,如动物血液、骨骼、皮肤、毛发等由内而外的组成部分中都有蛋白质,动物的繁殖、遗传、发育、生长等生命过程都离不开蛋白质。而蛋白质之所以能在生命活动中发挥出重要的功能取决于其自身高度复杂的空间结构。在生物学的很多领域,解析样本结构对于理解生命机理非常重要,正如沃森(James Watson)在1964年的一篇文献中所讲:“除非我们首先知道其结构,否则不可能在化学水平精确描述一个分子的功能。”[2]8实际上这一观点也正是其本人和克里克(Francis Crick)在1953年的《核酸的分子结构》一文中提出著名的DNA双螺旋结构的一个非常贴切的注解。也正是双螺旋结构的提出,分子生物学诞生,人类真正进入了从基因层面认识人自身、改造人自身,甚至“创造”人自身的时代,由此可见结构解析的重要性。对于解析蛋白质结构而言,在科学机理上科学家认为将揭示生命体内的第二遗传密码;在实际应用上可以推动疾病治疗、医药研发以及生产分解工业废物的酶等。

蛋白质一般是由几十到几百个氨基酸脱水缩合组成的多肽链,蛋白质氨基酸有22种,常见的20种。在肽链上一个具体的位置为什么出现特定的氨基酸而不是别的氨基酸,以及为什么与这一氨基酸前后相连的氨基酸也是固定的?这与分子生物学中心法则密切相关:“DNA转录RNA、RNA翻译蛋白质。”具体来讲,DNA上储存的遗传信息,也就是碱基序列首先转录到RNA上,再由RNA上的碱基序列编码特定的氨基酸序列,以此构成蛋白质的物质基础。特别是后来人们发现三个碱基形成一个密码子,对应编码某一具体的氨基酸,密码子在基因上的位置决定了氨基酸在肽链上的位置,形成了蛋白质的一级结构,或者,形象地讲就是一维线性结构。但是,此时的线性结构还必须折叠形成天然三维结构之后才能具备承担活体生物所需的独特功能。然而,50多年来科学家对蛋白质如何从一维结构快速、准确地折叠成具有生物功能的天然三维结构的认知依然非常有限,这就是生物学领域著名的蛋白质折叠难题。

1.2 开展蛋白质结构研究的两条主要途径

第一条途径是20世纪60年代以来生物学家借助实验仪器解析蛋白质结构,主要有三种方法,以下从实验仪器发展简史及实验仪器是如何与目标蛋白互动的角度简要介绍。

X-射线晶体学是生物学中传统的结构解析方法。上文中提到的DNA双螺旋结构的提出离不开威尔金斯(Maurice Wilkins)和富兰克林(Rosalind Franklin)获得的DNA的X-射线衍射图谱。人类最早“看”到其三维结构的蛋白质是由英国科学家肯德鲁(John Kendrew)、普汝士(Max Perutz)“相继运用X-射线衍射分析测定的肌红蛋白(1958年)和血红蛋白(1960年)晶体结构”[3]。X-射线也被称为伦琴射线,1895年由德国物理学家伦琴(Wilhelm Röntgen)发现并被广泛用于生物医学和工业领域。伦琴于1901 年获得诺贝尔物理学奖。X-射线是一种能量很强、波长很短的电磁波,通过晶体时因与晶体中电子发生作用而产生衍射,从而在背景上(探测器上)得到晶体电子密度分布,以此确定原子的位置,为解析晶体结构提供数据。X-射线晶体学对蛋白质结晶要求较高,但并非所有的蛋白质都可以很快形成晶体。另外,X-射线对晶体本身也能造成伤害,而且对于较为复杂的蛋白质结构解析乏力。

核磁共振技术来源于科学家对外磁场作用下原子核性质的研究。不考虑部分自旋为0的情况,原子核自旋产生核磁,但大量原子核随机热运动,核磁方向杂乱无章,对外不显磁性。20世纪30年代美国物理学家拉比(Isidor Isaac Rabi)发现,外加恒定强磁场后所有核磁场方向会与外磁场方向呈现出同向或反向的平行排列;再外加射频场,原子核自旋方向会发生偏转。20世纪40年代,瑞士物理学家布洛赫(Felix Bloch)和美国物理学家珀塞尔(Edward Mills Purcell)发现,当射频场关闭后,原子核回归到只有外加强磁场状态,并释放一次信号;再取消外加强磁场,原子核将回归最初的无序状态,并再次释放一次信号。这就是磁共振成像的基础。对于蛋白质结构而言,通过分析目标蛋白中原子两次吸收和两次释放能量的情况来推断其结构,拉比1944年获诺贝尔物理学奖,布洛赫和珀塞尔则分享了1952年诺贝尔物理学奖。此后一些科学家在此领域又获得多个诺贝尔奖,技术和算法也进一步得到改进,成像越来越清晰并被广泛应用于医疗以及蛋白质结构解析等科研领域。磁共振在较小的蛋白质结构性解析上优势突出。

冷冻电镜技术是后起之秀。2013年,加州大学旧金山分校程亦凡研究组和朱利斯(David Julius)研究组合作,首次在冷冻电镜技术解析蛋白质结构领域达到了预期的近原子水平分辨率,之后,许多X-射线晶体学无法实现的重要复合体及膜蛋白的原子分辨率结构得以解析,被称为结构生物学领域的一场革命。冷冻电镜技术起步于20世纪60年代,对其发展做出重要贡献的英国分子生物学家及生物物理学家亨德森(Richard Henderson)、美国德裔生物物理学家弗兰克(Joachim Frank)以及瑞士生物物理学家迪波什(Jacques Dubochet)于2017年获得了诺贝尔化学奖。冷冻电镜技术是将含有水份的目标蛋白通过液态乙烷快速冷冻成不含冰晶体的玻璃态冰包埋样品,以此避免电子束和真空腔对生物样本的破坏,然后激发电子透过冰层和目标蛋白发生的散色在背景(探测器)上形成信号,以此解析其结构。简单来讲,就是通过收集电镜激发的电子与样品的相互作用过程中所反馈的信号,在此基础上开展三维图像建构。与磁共振相反,冷冻电镜技术对大分子蛋白质结构解析优势突出,但对小分子蛋白效果不佳。

从科学活动的角度来看,以上方法尽管科学原理不尽相同,但在实验过程中都是借助实验仪器提升了人类感知目标蛋白结构的能力。从科学效果上看,上述传统实验技术除了各自的弊端,还存在耗时、费钱等问题。尽管实验方法在蛋白质结构解析方面已经取得了很大进步,但到目前为止,人类知道的蛋白质有2亿多个,但已知结构的蛋白质仅有17万个。因此,需要科学家探索新的路径。

第二条途径是通过智能计算来预测蛋白质结构。实际上,以上实验方法都需要和计算机算法紧密结合,例如,诺贝尔奖委员会评价弗兰克在冷冻电镜领域的主要贡献是“不同取向生物大分子颗粒在电子显微镜下得到不同的二维投影,再通过三维重构软件把获得的二维图像数据转化为三维结构模型”[4]。但是,通过智能计算开展蛋白质结构预测是与之在本质上完全不同的解析途径。

20世纪70年代,诺贝尔化学奖获得者、美国生物学家埃芬森(Christian Anfinsen)[5]提出:“蛋白质的氨基酸序列决定其三维结构。”这成为开展蛋白质结构预测的基本信念,也就是说,蛋白质的所有三维结构信息都蕴含在它的一维序列中。当时,科学家意识到如果能够计算出蛋白质序列中所有的单个氨基酸之间的相互作用,就可以预测其三维形状。然而,每种蛋白质有数十到数百种氨基酸,每对氨基酸可以以多种方式相互作用,每个序列可能的结构数量是天文数字,例如,“对于长度为100个残基的多肽链来说,若从可能的构象中随机筛选出一个特定的构象,需要时间为1 027年才能达到”[6]。计算科学家进入了这个领域,但进展同样缓慢。

1994年,美国科学家穆尔特(Moult)和他的同事共同发起了两年一次的CASP。在每届大赛中,组织方提供大约100种结构未知或尚未公布实验信息的蛋白质的氨基酸序列。一些小组通过算法预测每个序列的结构,而其他小组则通过实验确定其结构。组织者将计算预测与实验结果进行比较,并给预测一个全球距离测试(global distance test,GDT)分数。分数区间为0分~100分,其中90分以上被认为与实验方法相当[7]。就在当年,对于较为复杂的蛋白质结构,计算机测试成绩仅仅为20分。到了2016年,尽管通过借鉴与CASP目标蛋白密切相关的已知蛋白质结构,计算机测试成绩也只达到40分。

2018年,DeepMind研发的AlphaFold首次参加CASP(第13届),并取得较高成绩,Science网站发文开篇就评价到“事实证明,进军象棋和围棋只是个开始……DeepMind在(蛋白质结构预测)竞赛中获得了至高荣誉”[8]。2020年的第14届CASP,针对各种目标蛋白,AlphaFold在加强深度学习的基础上开展预测,GDT中位数得分为92.4分,对于最具挑战性的蛋白质的中位数为87分,比第二名高25分,远远超出了竞争对手。甚至可以分析X-射线晶体学很难解决的楔入细胞膜中的蛋白质结构,这是许多人类疾病的核心。

2 AI预测能否代替科学实验

AlphaFold在第14届CASP上的表现很快引起了科学界的关注。Science网站以《游戏发生了变化,AI在解决蛋白质结构方面取得了胜利》[7]为标题发文。Nature网站以《它将改变一切:DeepMind的AI在解决蛋白质结构方面实现了巨大飞跃》[9]为标题报道。CASP发起人之一穆尔特更是感叹:“我从未想过在我的有生之年可以见证这一伟大时刻。”[7]甚至有学者评价“这可能预示一场生物学的革命”[9]。但是,结构生物学革命真的来临了吗?AI蛋白质结构预测真的可以取代实验生物学家的科学实验吗?

2.1 从科学原理层面分析

以现有算法思维和途径看,AI能够高水平预测蛋白质结构需要满足一项前置性条件,而且,蛋白质结构解析也只是结构生物学研究的一个中间阶段。

第一,所谓的前置性条件是已经有必要,甚至必须有足量的数据储备,亦即足够多的已知结构的蛋白质。AI结构预测的基本原理是将已知三维结构的蛋白质作为数据集进行大量训练,输入一个蛋白质的氨基酸序列推算其三维结构,并和该蛋白质的实验结构比对,以此强化机器深度学习能力和对未知蛋白质结构的预测能力。简言之,就是大数据+智能算法。AlphaFold又进一步引入了新算法,而且在硬件上达到了16个TPU(tensor processing unit)级别,相当于100多个GPU(graphics processing unit)的计算机中央处理器,对所有17万种已知蛋白质结构进行了算法训练。也就是说,此次AlphaFold所取得的惊人成绩完全离不开实验生物学家已经弄清楚结构的蛋白质作为其比较或学习的模板。而且,AlphaFold蛋白质结构预测也并非解决了所有问题,即使在竞赛中,“它明显地在一种蛋白质上摇摆不定,这种蛋白质由52个小重复片段组成,它们在组装时会扭曲彼此的位置”[7]。

第二,所谓蛋白质结构预测也只是结构生物学研究的一个中间阶段,是指无论是实验结构解析还是AI结构预测,其最终目的是理解生命机理。正如美国普林斯顿大学颜宁教授所讲:“结构生物学的主语是生物学,是理解生命,是做出生物学发现。”[10]从亚原子到原子再到分子层面依然是物理化学过程,为什么分子层面的蛋白质及其组成的生命具有了化学活性且能够繁殖、演化?也就是说,分子层面的蛋白质发生了什么样的变化以及是如何变化的?解答这些问题才接近理解生命。但是正如上文所言,理解蛋白质功能必须理解其结构,而结构解析目前远远超出了人类的认知能力。也正因如此,很多实验生物学家将大量时间、精力投入到蛋白质结构实验解析上,也正因为这一进程发展缓慢且困难重重,才促使人们另辟蹊径,借助计算科学开展结构预测。在这个意义上说,实验解析或算法预测是开展蛋白质功能研究及认识生命机理的工具和手段,但是不能说因为在这方面目前还非常困难且是当下结构生物学的主要工作,作为工具和手段的结构解析或预测就成为了生物学的目的。要言之,AI在蛋白质结构预测领域做出了惊人的成绩,但这并不意味着AI明白地告诉了我们蛋白质折叠的过程与原理。

2.2 从理解科学层面分析

什么是科学?这大概是自科学诞生以来大家一直谈论而且常思常新的话题,可以有科学家的认识,也可以有人文学者的认识。从人文学科角度看,又可以有科学哲学、科学史、科学社会学等不同角度的定义和解读。但是,无论何种理解,可能大家都不会反对的是科学的一个核心传统就是对自然的观察与认识,并在此基础上形成关于自然的理论化知识。所以,我们往往称之为自然科学。此外,近现代科学发展日益离不开实验仪器与技术的支持,如人类并没有直接看到电流现象,而是通过安培表等显示的数据得以表征。尤其是对微观世界的认识,所达到的层次越来越远离人类的直接观察能力,越来越需要借助实验仪器的支持。为了发现新的基本粒子,动辄需要投入成百上千亿资金建设加速器和对撞机。所以,我们又常常将科学称之为实验科学。

但无论是安培表对电流的表征还是对撞机激发的基本粒子信号,一个本质上的共同点在于它们都是通过实验仪器与物质本身发生相互作用,通过收集和分析物质本身发回的“应答”信号来认识物质本身。简言之,离开物质本身,我们对物质的认识将一无所获。

解析蛋白质结构的传统方法,无论是X-射线晶体学、冷冻电镜技术观察还是磁共振,依然是通过实验仪器与目标蛋白质自身存在的质子或电子发生交互作用而得到回馈信息,并以此为依据解析其结构。正如诺贝尔奖委员会这样评价冷冻电镜技术:“科学突破往往建立在对人眼不可见物体的成功可视化的基础上……借助冷冻电子显微镜,研究人员现在可以冻结运动中的生物分子,并将他们以前从未见过的过程可视化。”[4]

但AlphaFold所做的工作与上述科学实验有着根本的区别,它并没有与目标蛋白这种认识客体发生任何直接或间接的交互作用,而且也并不依赖于这种交互作用,完全依靠历史数据和智能分析推算出了目标蛋白的结构。

瑞典生物学家里哈斯(Anders Lijas)等[2]6提到:“结构生物学领域集中在一个经典共识:要真正理解某事,我们需要看见它(的结构),也可以说‘眼见为实’。”但是,AlphaFold所呈现出的让人亲眼所见的目标蛋白的图像结构是否为“实”,却需要我们辨析。正如里哈斯等[2]6进一步解释所谓的经典共识:“这个共识对于宇观研究对象如天文学与天体物理、宏观研究对象如设计机器及修理汽车与钟表、微观研究对象如生物系统或粒子物理都是如此。结构生物学是试图使生物学中的亚细胞及分子客体(结构)可视化并以此来理解机理的科学。”

客体可视化,很明显,这里是指在一项科学活动中研究主体借助实验或技术手段感知到原本超出了人类自身感知能力和范围的研究客体。具体到解析目标蛋白结构中,就是指十分之一纳米级的蛋白质结构空间远远超出了人类自身的直接感知能力,需要借助于实验仪器与目标蛋白的互动接收到目标蛋白回馈的信息形成可认知的数据或图像。要言之,客体给予(也许是被动地给予)主体感知信号。

但AlphaFold给予研究主体的可视化图像并非来源于目标蛋白自身,正如前文所详细介绍的,是来源于大数据统计与智能预测,并没有形成一个传统意义上的主体认知客体的完整环节,得到的结构图像并非来源于目标蛋白自身。因此,从实验科学根本特点来讲,不能说这样的预测可以代替科学实验,得到的图像、信号也不能简单地就被确定为科学知识。

3 AI时代的科学与科学革命

3.1 科学与经验验证

从实证主义科学观来看,科学被定义为实证基础上的关于自然的体系化知识;科学发现被理解为由三个内在紧密关联而且往复循环的阶段构成:观察(实验)-猜测(假说)-验证;在此基础上形成科学理论的确证观,即理论必须由经验证实。当科学哲学由“证明的逻辑”走上“发现的逻辑”,特别是英国科学哲学家波普(Karl Popper)指出相对于科学知识结构的研究,更重要的是研究科学知识的发展,由此,在科学观上发生一个重大的变化,就是由确认的观点代替确证的观点。但是,尽管发生了这样的观念变化,“确认的观点并不排斥确证的基本思想。确证的合理的基本思想是强调经验验证,而经验验证对于一切真正的科学认知来说,都是不可或缺的必要条件”[11]141。而且,“通过观察实验获取原始数据是科学认识的基本条件和基本活动”[11]138-139。

除非未来AI能够自行与自然对话、自主设计科学实验、开展科学发现活动,否则目前AI所做的工作还处于科学实验的辅助阶段,特别是对理论假说的建构具有启示和借鉴意义。例如,对于实验科学方法获得的尚无法达到理想认知状态的结构图像,结合 AI结构预测结果可以予以补充、修正或启发。毋庸置疑,这必将在促进科学发现上起很大的推动作用。但整体上讲,目前阶段AI蛋白质结构预测和人脑在储备了大量关于蛋白质结构的经验性知识基础上猜测目标蛋白质结构在性质上是一样的,只不过前者更快、更形象化,而且可能也是更接近事实。也许AI应用于结构生物学给我们带来的是一个全新的课题,那就是需要我们认真思考和研究,AlphaFold是如何预测出蛋白质结构的?正如有学者提出:“怎么理解这个算法成功的原理?怎么跟原有的热力学、物理学等基本原理相融相通?”[10]

3.2 科学革命的逻辑

谈到科学革命,大家很容易与科学历史主义建立联系。美国科学哲学家库恩(Thomas Kuhn)是在攻读物理学博士期间转向科学史与科学哲学,他的科学革命的结构:“常规科学-危机-科学革命-新常规科学”,主要是建立在物理学史的史料基础之上,“一般而言,这种结构形式比较符合物理学、化学领域发生过的科学革命(也不尽然),而未能圆满解释生物学科的科学革命”[12]185。但引发科学革命的原因是出现原有理论范式无法解释的反常现象,对我们分析生物学革命还是有启发意义的。正如美国科学哲学家劳丹(Larry Laudan)尽管不同意库恩科学革命的不可通约性,“革命不像库恩所说的那么革命,常规也不像库恩所说的那么常规”[12]226,但同样认为,科学革命是新发展出的理论对反常现象的解释力愈来愈强。

正如上文分析,AI蛋白质结构预测完全建立于原有的“蛋白质的氨基酸序列决定其三维结构”的基本信条上,所预测出的结构并没有发现对这一信条的反常现象,恰恰相反,如果AI预测的蛋白质结构被实验证明是完全符合实际结构的,那AI所做的工作恰恰是对这一信条的肯定。而且,结构解析还只是生物学科学发现的一个环节,即使AI发展到了对所有结构预测都能达到与事实完全相符合的阶段,其科学意义也仅在促进发现新的、重大生物学理论,但AI预测本身并不是重大生物学理论发现。所以,从是否颠覆了原有生物学理论范式或者构建了更具解释力的新理论层面看,目前AI结构预测还未达到带来结构生物学革命的阶段。

3.3 AI与科学

但是,科学活动的AI时代毕竟走来了,带来了以往科学研究所不曾见过的新手段、新工具,在这个层面上,可以认为它是结构生物学的一种革命。

第一,学科交叉是伟大科学发现的一条重要途径。翻看科学史,这样的例子比比皆是。上文讲到的DNA双螺旋结构的创造性提出与X-射线晶体学密不可分。而遗传学鼻祖孟德尔,之所以能在实验生物学的研究还远远没有进入分子层面的时代,仅靠豌豆个体及其代际之间的性状特征就超越一个多世纪创造性地提出性状遗传规律,这与他本人有统计学基础密不可分。因“对冷冻电镜技术的发展做出突出贡献”而获得2017年诺贝尔奖的三位科学家都有物理学背景,获得的也并非生理学与医学奖,以至于当年就有人评论他三人是“物理学家因帮助生物学家得到今年的诺贝尔化学奖”[13]。AI本身就是计算机科学、语言学、脑神经科学、物理学、生物学等多学科交叉的结果。在现阶段,AI成果已经应用于各学科领域,成为科学发现的有力助手,如“解放”结构生物学家。

第二,让结构生物学家将更多的精力放在机理研究上。解析蛋白质结构的目的是理解蛋白质为什么有如此多样且重要的功能,从而增进人们对生命的理解。但是,以往的蛋白质结构解析方法耗费了结构生物学家大量的精力和时间,传统X-射线晶体学往往在实现蛋白质结晶阶段就动辄需要数十年,创造性活动集中在了“看”到蛋白质结构,而不是理解生命。即使这样,得到的图像经常无法给予我们一个清晰的三维空间结构。将AlphaFold预测结果与实验生物学家所得图像结合分析,会极大推进对蛋白质三维空间的构想,在这种意义上讲,AI介入结构分析将有利于科学家从结构分析中解脱出来,将更多的精力和创造性活动集中在理解生命机理的生物学目标上。

4 结语

人类自诞生以来就开始了对我们所处世界及自身的探索和认知活动,近代科学革命以后更是加快了这一进程,主要特征之一就是科学方法的巨大进步。当代科学新进展不断催生新的科学方法和实验技术,反过来又帮助人类加快、加深对自然和自身的认识与见解。尤其是在15世纪以来人类进入了科学的时代之后,现在我们进入了科学时代中的AI时代,AI在广泛应用和促进社会发展的各个领域的同时,也在科学研究领域逐渐显现出强大的功能。生物医学领域很多方面的突破性进展也日益离不开AI的支撑。但是,AI到底在目前阶段对科学是否带来革命性变革、抑或到底是在哪些方面或层面起着至关重要的作用,需要我们就具体科学领域具体分析。就结构生物学而言,以AlphaFold系列算法预测蛋白质结构为代表,已经表明作为分析和预测工具的AI在科学研究中显现出了强大的威力,但是在科学的道路上推进对人自身的认识和对生命的理解,尚需要其与实验科学同步推进。

猜你喜欢

生物学解析蛋白质
蛋白质自由
人工智能与蛋白质结构
三角函数解析式中ω的几种求法
初中生物学纠错本的建立与使用
基于项目式学习的生物学概念教学研究
初中生物学纠错本的建立与使用
睡梦解析仪
复合场中类抛体运动解析
对称巧用解析妙解
高中生物学中“一半”的涵义