生物大分子过渡态搜索算法及其中的机器学习*

2024-01-06杨建宇席昆竺立哲

物理学报 2023年24期

杨建宇席昆竺立哲

(香港中文大学(深圳)医学院,瓦谢尔计算生物研究院,深圳 518172)

1 引言

生物分子实现功能时,常伴随着结构的巨大转变,即生物分子的功能性构象变化[1-3].利用实验方法,往往只能获取上述转变过程前后重要的稳态结构,如X射线(X-ray macromolecular crystallography)[4]、核磁共振(nuclear magnetic resonance,NMR)[5]、冷冻电子显微镜(cryo-electron microscopy,cryo-EM)[6]等;或者揭示分子结构变化中的部分特征,如荧光共振能量转移(fluorescence resonance energy transfer,FRET)可给出少数目标残基间的距离变化[7]等.因此,仅依赖实验方法难以阐明生物分子转变过程的完整信息.

全原子(all-atom)分子动力学(molecular dynamics,MD)是从原子尺度全面描述生物分子动态行为的标准手段[8].但和化学反应仅涉及反应活性中心内的数十个原子不同,构象变化所涉及的原子数目巨大,极端情况下可包括溶质的全部原子,甚至环境中脂类和溶剂分子的原子[9-36].众多的原子及其三维坐标带来了两个重要的瓶颈.

首先,在计算效率方面,复杂大分子百万级的原子数量意味着需要计算万亿级数量的原子间作用力,即使在目前最优的通用硬件上,人们所能完成的MD模拟时长也仅在微秒量级[8,37],距离生物分子的实际功能性动力学行为毫秒级的发生时间仍有巨大差距.为缓解该效率瓶颈,数十年来,人们发展了各类增强采样算法,其中较有代表性的算法包括副本交换[38-45],选择性温度积分增强采样(selective integrated tempering sampling)[46-49]、局部抬升(local elevation)[50-53]、构象洪泛(conformational flooding)[54-56]、元动力学(metadynamics)[57-59]、高斯加速动力学[60-62]等.

更为重要的是,在数据分析层面,尤其是在提取过渡态信息这类理论化学家最关心的问题上,巨大的原子数量导致了维数灾难.搜寻过渡态的结构或特征信息是准确刻画和解释所采样本中动力学机制的重中之重.然而,即使是在采样数据充足的情况下,使用不恰当的分析手段(即机器学习语境下的降维算法),过渡态区域都将被扭曲以致相关信息丢失.

在已有大量模拟数据的场景中,可借助tICA(time-lagged independent component analysis)[63-65]利用已有数据中蕴含的动力学信息进行降维,或运用马尔可夫态模型(Markov state models)[66-78]等分析算法提取动力学信息来应对维数灾难,并间接推测过渡态信息.但这类算法中并不直接含有过渡态的定义,因而超出了本文范畴.对此类算法感兴趣的读者可参看其他综述[63,66,68,75-78].

在生物大分子模拟领域,因其计算效率低下,数据匮乏是常态,因此人们对能高效搜寻过渡态的采样算法需求强烈.但受限于维数灾难,仅有以下两类采样策略可供选择.

1) 依赖CV的定向降维.在不具备先验数据时,依据直觉猜测少量有物理意义且可能重要的坐标,即集合变量(collective variable,CV),强行定向降维到该预选的低维CV空间,而后在CV空间内搜寻过渡态[79-95].代表性方法: 温和爬升动力学(gentlest ascent dynamics,GAD)[79-81]、有限温度弦方法(finite temperature string,FTS)[82-87]、快速断层扫描法(fast tomographic,FT)[88-90]、基于旅行商的路径搜索(travelling-salesman based automated path searching,TAPS)[91-95].

2) 非CV依赖的高维搜索.事先不降维,坚持在高维空间内完成采样和过渡态搜索过程,事后再进行降维分析[96-101].代表性方法有过渡路径采样(transition path sampling,TPS)[98-101].

尽管上述算法已在一定范围内取得成功,但在面对复杂生物分子时,仍面临诸多限制.其中,对于依赖CV的搜索算法,最直接的问题便是如何从较高维度空间中选取合适的CV;而对于非CV依赖的路径采样算法,则是计算资源消耗过大和有效采样率过低的问题.

近年来快速发展的机器学习及相关衍生算法(如强化学习、生成式建模等),已成功应用于解决诸多传统的复杂生物问题[102-112],如生物结构预测及生物分子相互作用的研究[105],或基于人工智能开发蛋白质从头设计算法[106],或借助于机器学习实现蛋白质结构准确预测的trRosetta线上服务[107],或实现生物分子冷冻电镜高分辨率结构重建的解析算法[108]和蛋白质间相互作用位点的快速预测[109],以及蛋白质与小分子、RNA等复合物结构性质的预测[110,111].因此,将机器学习与现有过渡态搜索算法进行有效融合,有望成为未来过渡态搜索研究实现进一步突破的可行方向.

本文将首先回顾依赖CV的过渡态搜索算法的发展历程,厘清其基本原理及潜存问题.随后,聚焦于非CV依赖的TPS路径采样算法,着重介绍其融合了强化学习的最新版本.最后,探讨一种新型的过渡态搜索策略,即结合生成模型和GAD,在保留原高维空间过渡态信息的低维空间内实现过渡态搜索.完整的算法总结已展示于表1中.

表1 主要过渡态搜索算法的总结分类Table 1.Classification of the algorithms for transition state searching.

2 依赖CV的过渡态搜索算法

如前所述,为了准确阐明生物分子功能性动力学的微观机制,需要在传统采样算法的基础上,发展可获取上述转变过程过渡态信息的过渡态搜索算法,包括依赖CV[82-95]和非CV依赖算法[96-101]两大类.对于依赖CV的算法,需在缺乏对体系的先验数据和认知的条件下,将高维相空间{x}“定向降维”至少量的依据经验或直觉定义的CV上(arbitrary guess).而后续的计算采样和过渡态搜索则发生在由这些CV构成的低维空间(CV1,CV2,···)内(图1(a)).

图1 (a)依赖集合变量的过渡态搜索示意图,需由生物分子(以丙戊酸二肽为例)体系所在的高维相空间(phase space)选取少量集合变量CV强行“定向降维”,后在此低维CV空间利用非路径类方法或路径方法,找到过渡态(Transition State),并给出微观机制解释(mechanism interpretation);(b)非路径类的GAD算法原理示意图;(c),(d)两类路径类搜索算法原理示意图Fig.1.(a) Illustration of the flow-chart of the collective variables (CVs) based transition state searching.A low dimensional space must be constructed with the CVs,which are arbitrary a priori guess about the mechanism.The transition state(s) is then determined by either the non-path or path methods.(b) The non-path method GAD.Path methods of (c) finite temperature string and(d) fast tomographic.

低维CV空间中的过渡态搜索,依照采样开始时的已知信息可分为非路径算法和路径算法.非路径算法以GAD算法为代表,而路径算法以finite temperature string[82-87]和快速断层扫描法[88-90]为代表.前者可在仅有一个稳定态已知时开启过渡态搜索,而后者需事先已知至少两个稳定态,通过寻找两个稳定态之间的最小自由能路径(minimum free energy path,MFEP),而后获得沿路径的自由能分布确定过渡态位置.此外,两者的区别还有,前者采样过程是主动“爬山”(即向高能区域运动,图1(b)左红),而后者是先通过施加外力促使分子强行翻山越岭得到能量过高的初始路径(图1(b)左蓝),再设法使路径“整体下山”,落入附近的最优路径MFEP (图1(b)左黑).

2.1 非路径类过渡态搜索

GAD是非路径类过渡态搜索的代表性算法,在预设的低维CV空间,从亚稳态或任意状态出发,可在低维势能面空间内,直接完成过渡态搜索[79-81].如图1(b)所示,此算法的原理为由低维势能面空间内的任意一点出发,根据以下规则:

来确定每轮迭代时移动至下一步的位移方向,即沿势能函数梯度变化率的最小方向进行小步长移动,最终收敛于鞍点位置(即过渡态).其中=(F(x),n)n,F(x)为分子体系在根据当前低维CV空间内的势能梯度计算得到的作用力;而n被设定为趋近于势能函数海森矩阵最小特征值对应的特征向量,即指向曲率最小方向,其需要基于(1b)式反复迭代达到收敛,在此期间,γ则控制H对n变化的影响能力,以此消除势能函数中的噪音.简单而言,(1)式的规则将引导分子不断沿势能坡度最缓的方向逆势攀登,直至收敛停滞于过渡态.

2.2 基于路径优化的过渡态搜索

对于基于路径优化进行过渡态搜索的算法,根据其输入不同,可主要分为两类: 1)需要高质量预选集合变量CV的路径优化算法,包括finite temperature string[82-87]和快速断层扫描法[88-90];2)基于路径集合变量(path collective variable,PCV)的路径优化算法,即基于TAPS算法[91-95],此方法中避免了高质量预选集合变量的困境,可高效且快速找到最优转变路径.当构建完路径优化的低维空间后,需要从目标系统的两个稳定态结构出发,产生一条较为粗糙的转变路径[114-116],而后对此路径进行迭代优化(路径整体下山),并最终收敛于最优路径(MFEP)[82-95];继而便可通过计算MFEP的自由能图景,准确给出微观转变机制和过渡态信息[57-59,117].

2.2.1 Finite Temperature String

当基于传统的增强采样算法(如steered MD,climber MD,targeted MD等[114-116])快速得到描述目标生物分子过程的转变路径后,前人发现还需要通过选取合适的集合变量信息,来构建低维空间和完成对初始转变路径的进一步优化,从而得到最优路径,即最小自由能路径(minimum free energy path,MFEP).作为研究此类问题中的代表算法,finite temperature string的优化策略[82-87]较为简洁(以swarms-of-trajectories版本为例[87]),见图1(c).通过对连接转变路径(由State A到State B)的所有节点,依次分别完成大量(swarms)非常短时长的随机初始速率MD采样后,在预选的低维空间对采样结果聚类,找到出现概率最高的构象,作为代表性的采样节点(图1(c)中sampled node).这样做是为了在路径上各节点附近做非常局部的采样,从而估计各节点目前所在位置的自由能梯度,等效于让各节点沿着当前所在位置的自由能梯度最大方向稍作移动(下山),类似于势能最小化问题中的最速下降法;通过再优化节点分布来保证相邻节点间距离相近(equidistant nodes,图1(c)),进而得到新一轮的转变路径.

通过不断重复上述迭代策略,路径将最终收敛到达最小自由能路径MFEP.最终便可通过伞形采样等[117]方法获取沿此MFEP的自由能景观(free energy landscape)[82-87],进而给出微观机制解释和得到相应的过渡态信息.

2.2.2 快速断层扫描法

快速断层扫描法与前述的finite temperature string方法较为相似,亦需基于经验或随机预选取集合变量来构建低维空间[88-90],而后在此低维空间进行路径搜索,找到MFEP,如图1(d)所示:

首先,在选定的低维度空间内,均匀选取转变构象(每个构象称为节点,共N个节点)来代表初始转变路径(由State A到State B);随后,对于每个节点,都在垂直于当前路径的超平面空间内进行相同时长的MD模拟采样,在采样过程中还需引入SHAKE算法[118]以避免其离超平面空间过远,同时,结合自适应偏势MD方法(adaptively biased molecular dynamics,ABMD)[119]来提高其采样效率;接着,针对每个节点的采样轨迹,直接将采样的终态结构进行连接,保存为新的转变路径(如图1(d)中黑色虚线代表的第i轮结果和黄色虚线代表的第i+1轮结果).按照上述流程反复迭代,将最终得到MFEP,及相应自由能景观分布,从而阐明其微观转变机制并确定目标过渡态信息.

2.2.3 基于旅行商的自动化路径搜索算法

在基于集合变量的搜索算法中,还存在一种基于路径集合变量PCV的新型算法[120],即基于旅行商问题的自动路径搜索算法(TAPS).TAPS巧妙地避开了其他路径优化算法中集合变量的选取问题,同时基于并行化和GPU加速,快速得到较高维度空间中的最优路径(MFEP),给出相应的微观转变机制和过渡态信息(图2)[91-95].

图2 (a) PCV构建[120]和TAPS Method[91-95,121]算法原理示意图;(b)基于伞形采样方法得到的TAPS算法确定的MEK1由Loop-Out到达Loop-In转变过程最小自由能路径(MFEP)的自由能图景及相应的微观转变机制[92]Fig.2.(a) Illustration for the construction of PCV and the flow-chart of the TAPS method;(b) TAPS revealed the free energy landscape and the transition states for the transition from the Loop-Out state of MEK1 to its Loop-In state[92].

具体来讲,在使用TAPS方法时,需提供目标生物系统的两个稳态结构和连接其转变过程的初始路径;而后从初始路径中确定转变过程中变化较大的所有结构域,并以这些结构域的重原子(图2(a)中丙戊酸二肽结构中以球形显示的原子)为参考,通过计算构象间均方根位移偏差(root mean square distance,RMSD)来评估构象差异,并从初始路径中在保证相邻构象间适度的差异基础上,均匀选取构象(即节点)来代表整个转变过程;接着,基于此少量节点组成的转变路径,便可利用PCV的计算公式得到二维的路径集合变量低维空间: 即PCV-s和PCV-z.其中,对于任意构象x,参照目标路径计算得到的PCV-s代表其沿路径方向的投影位置;而PCV-z表示其距离参考路径的平均距离,见图2(a)[120].通过在此路径集合变量空间内,快速完成路径搜索,将最终确定目标转变过程的最优路径(MFEP),如图2(a)中基于多维度标度方法(multidimensional scaling method,MDS)[122]得到的二维路径搜索过程展示,从黑色的初始路径快速搜索到达绿色的最优路径(MFEP).

此处以丙戊酸二肽由C7eq到C7ax的转变为例,完整展示TAPS进行路径优化的主要过程,包括以下四步(见图2(a)中下方白色框内的TAPS迭代流程).

步骤1基于转变路径节点间结构差异(dx,i)和节点编号(i=1,2,···,N)信息,利用PCV[120]构建路径优化的二维空间: 沿路径方向,PCV-s((2a)式)和垂直于路径方向,PCV-z((2b)式),而后从每个节点出发做采样,采样时在PCV-s方向加入限制偏势,阻止分子在平行于当前路径的方向运动,但允许其在垂直于当前路径的超平面内任意运动;同时,为了后续步骤4补入节点时能有更多候选构象,在PCV-s进行元动力学(well-tempered metadynamics[123])采样.

步骤2对于每个节点的采样轨迹,通过获取最接近轨迹PCV-z中位值的结构,并按照上轮编号连接为新的转变路径(蓝色实线).

步骤3经步骤1非局部的垂直空间采样后,节点顺序很可能已发生改变需要重排.本算法将节点重排转化为旅行商问题[121],并通过插入虚拟点(即与其他任何节点间的距离为零)来将旅行商问题的闭环解转化为节点顺序编号.

步骤4去除转变路径范围外节点,并在距离较远的相邻节点间补入新节点.

最终,通过不断重复迭代上述1—4步的路径优化过程,将最终搜索到MFEP并结合伞形采样等算法[117]得到沿MFEP的自由能景观分布,进而给出微观转变机制解释和确定相应的过渡态信息.

以TAPS对丝裂原激活蛋白激酶激酶(MEK1)由Loop-Out状态转变为Loop-In状态的研究为例(图2(b)),实验发现其在传递生物信号中时需经历Loop-Out态到Loop-In态的转变,即两个α螺旋(α0和α1)的局部翻转以及连接螺旋的Loop进入激活口袋;利用TAPS方法同时考察上述过程中涉及的所有重要残基,在较短的采样总时间(短于32.6 ns)内便得到了MFEP(图2(a)最右侧的MDS结果内的绿色线)[92];沿收敛的MFEP进一步得到了相应的自由能图景(图2(b)),进而获得了主要转变机制和两个关键过渡态结构(TS Ⅰ和Ⅱ).此研究所新发现的R227:L235及Y229:E255极性接触作用,也被成功用于解释实验关于R227或Y229的点突变造成MEK1无法激活的现象[124,125].

尽管TAPS算法巧妙地规避了预选CV空间定向降维带来的试错成本,但仍需选择计算RMSD所需的原子集作为输入信息.这意味着在复杂大分子的过渡态搜索中,即便TAPS的整体效率相比依赖CV的方法已有大幅提升,它仍在事先对所研究构象变化的机制做出了一定假设.

3 基于路径采样的过渡态搜索

目前所有算法中,只有以TPS为代表的路径采样方法在事先对构象变化机制未作任何假设,因为TPS将构象转变路径直接定义在了高维相空间内.传统TPS通过大量随机的不外加偏执势的无偏采样,得到一个过渡路径系综(transition path ensemble,TPE),见图3(a).最终通过对TPE的后处理分析,选取合适的集合变量以描述过渡态[98-101](图3(b)左);最近,通过引入强化学习范式(reinforcement learning),该方法实现了自适应无偏采样(图3(b)右),并采用符号回归(symbolic regression)完成机制解析[113,126].

图3 路径采样算法的基本原理示意图 (a)路径采样中生成新相空间路径的shooting move;(b)传统过渡路径采样(左侧)的随机蒙特卡罗采样与过渡态分析原理[98-101],融合强化学习的路径采样(右侧)在学习过程中不断促进采样起始点选择向过渡态集中[113]Fig.3.Schematics of path sampling methods.(a) Shooting move: select a phase space point on the current path,make a small perturbation to this point (redraw random initial velocities) and perform a set of simulations.(b) Path sampling is built upon the committor probability pB.The traditional transition path sampling (left)[98-101] selects shooting points randomly and uses Monte Carlo for sampling;the transition state is characterized through post-analysis: choosing the CVs with the highest and narrowest distribution of P(TP|CV);the new reinforcement path sampling (right)[113] chooses shooting points adaptively and directly learns the committor probability pB with maximized P(TP|x).Symbolic regression of pB is used for mechanism interpretation.

3.1 过渡路径采样

3.1.1 相空间中过渡态的定义committor probability

由于TPS中的路径直接定义在相空间,相应地过渡态也无法直接套用低维空间中的鞍点(saddle)来具象地表征.假设我们能通过某些CV定义出两个稳定态A和B (并同时假设A和B中间不存在第3个稳定态C),那么A和B之间的过渡态就能通过committor probability来定义.

对相空间中的任一点,都可以从其出发运行大量MD模拟并统计其中有多少比率分子是在抵达稳态B之前到达了A,另有多少比率相反在到达了A之前抵达了B.这两种比率pA和pB就是这一点对稳态A和B的committor probability.显然在不存在第3个稳态的前提下pA+pB=1.相应地,过渡态则可以定义为由相空间内所有pA=pB=0.5的点所组成的集合.同时,依据过渡路径理论(transition path theory)[96],我们知道对相空间中的任一点x而言,它是属于连接A和B反应路径,即过渡路径(transition path,TP)的其中一点的条件概率是

而此条件概率在过渡态上pA=pB=0.5 时将达到其峰值,即过渡态上的点是所有相空间点中最有可能属于某条反应路径的.这一点对路径采样算法至关重要.

3.1.2 Shooting move新相空间路径的生成

假设已利用传统增强采样算法(如climber method/steered MD/targeted MD等[114-116])得到一条连接A到B的转变路径,便可以在此转变路径中抽选一个点xsel;随后,对xsel做出微扰Δx(典型做法为根据给定温度的麦克斯韦-玻尔兹曼随机重置所有分子的初始速率),而后以xnew=xsel+Δx为新的初始条件进行多次无偏MD模拟采样.其中,每次MD模拟采样的终止条件为此采样路径到达了目标态A或B中的一个;当这些轨迹中既有到达过A也有到达过B态时,将到达过A态的任意路径和到达过B态的任意路径连接便成为由A态到达B态的转变路径.该过程被称为shooting move (图3(a))[127].

路径采样过程就是不断迭代选定xsel,而后进行Shooting的过程.经过迭代最终会得到从A到B转变的路径系综TPE[128,129].但传统TPS和其强化学习新版本在xsel的选择策略上有所不同.

3.1.3 过渡路径采样的shooting move策略

在原版TPS中,xsel的选择是完全随机的.同时,shooting move的迭代是马尔科夫链蒙特卡罗的串行过程(图3(b)左).因此,TPS天然欠缺并行化能力.

3.1.4 从路径系综中提取过渡态信息

经shooting move迭代得到路径系综后,传统TPS需要用户自行定义CV来帮助解释其中蕴含的机制、提取过渡态信息.根据(3)式,如果所选的CV能够较好地表征过渡态,即无限趋近pB,那么P(TP|CV) 应该呈现窄而高的分布.但由于P(TP|CV)无法直接计算,需要通过贝叶斯推测间接计算:

其中P(CV|TP) 可直接从TPE计算获得,P(TP) 需经额外长时间无偏采样算出,而Peq(CV) 是CV上的平衡态分布,也需通过额外的伞形采样获得.在用户选择的CV中,以P(TP|CV) 分布最窄最高者最能表征过渡态和A到B的转变机制[98-101].

3.2 基于强化学习的路径采样

仔细分析原版TPS的后处理分析过程,不难看出其对蒙特卡罗迭代采样结果的要求较高,需确保所得TPE在过渡态附近有充足样本,但由于其xsel的选择是完全随机,这在面临较大的生物分子体系时是难以实现的.

因此,Jung等[113]于近期开发了基于强化学习(reinforcement learning)的路径采样算法.与原版TPS仅在数据处理分析阶段隐性地使用(4)式不同,新框架直接将P(TP|x) 用作了强化学习中的目标函数(通过最大似然估计将其最大化),用以训练以深度神经网络表达的committor probabilitypB(图3(b)右).因此,在此强化学习过程中,P(TP|x)的最大化意味着算法会自适应地选择xsel,自发将其聚焦至过渡态附近(即pB=0.5,图3(b)红线).

而后续对转变机制的解释,即神经网络pB物理含义的挖掘则可通过符号回归(symbolic regression)达成,将pB(x) 的神经网络表达为容易理解的简单解析式[125,126].

3.3 路径采样算法的适用场景

值得强调的是,无论是传统TPS还是强化学习路径采样,二者的理论基础都是pA+pB=1,即不允许稳态A和B之间有第3个稳定态存在.这意味着路径采样只能处理单个能垒,即只能表征单个过渡态.然而,生物大分子的运动复杂,亚稳定态数量众多,很难保证已知的两个稳定态之间只有一个能垒.这也限制了路径采样在生物大分子模拟中的应用.

4 融合GAD与降维算法的可能方案

经过对上述算法的简单回顾,可以看出近年来依赖CV的路径搜索算法和非CV依赖的路径采样算法都已呈现与计算机科学和机器学习算法深度融合迈向自动化的发展趋势,但依赖CV的GAD方法尚无相似案例可循.我们推测一个可能的发展方向是将GAD在低维空间搜索过渡态的能力与降维算法结合起来.自然地,这对降维算法的性能提出了新的要求.因此,有必要先对现有降维算法的设计思想进行简要梳理.

4.1 现有降维算法

降维是无监督机器学习的传统分支,其在生物分子模拟中的广泛应用已有综述阐明[130],此处不再赘述.但在目前众多的降维算法中,显式利用时间序列信息,即动力学信息,进行降维的仅有时间结构独立成分分析(time-lagged independent components analysis,tICA)方法[63-65].但经tICA降维所得的低维tIC空间已被限定只能是原高维空间的线性组合,而能够表征跃迁过程和过渡态的坐标很可能是原高维坐标的非线性函数.其他现存降维算法,因在降维过程中,只关注保留高密度区域信息(即稳定态信息),常会将高维空间过度扭曲以致过渡态信息丢失(图4(a)).因此,现存降维算法都无法与GAD联用.

图4 物理化学家需要怎样的降维算法 (a)现有降维算法范式不保留过渡态信息,不利于机制解析;(b)可能的替代范式,基于生成模型研发可保留过渡态信息的可逆降维算法,并与低维空间搜索过渡态的GAD联用Fig.4.Requirements on dimensionality reduction algorithms by physical chemists.(a) Current paradigm for dimensionality reduction and the main difficulties for the transition state searching.(b) Proposed alternative paradigm for transition state searching:combine dimensionality reduction that preserves transition state information with GAD.

4.2 基于生成模型的可逆降维及过渡态搜索

近年来,可逆神经网络和生成模型的发展,为研发能够保留过渡态信息的新型降维算法提供了良好契机.首先,通过可逆神经网络,我们可以期望利用深度学习训练出一个可以进行双向映射的生成模型,即在将高维的全原子轨迹信息映射到某一低维空间的同时,拥有把生成的低维空间样本逆投影回原空间的能力.这样便可利用GAD在低维空间搜得鞍点结构,再经逆投影自动得到完整的高维过渡态结构.

当然,这一构想的实现难点是必须保证在降维过程中,低维空间保有和原高维空间一致的动力学特征以及概率密度信息,即保留过渡态信息.这里我们建议参考tICA中直接使用动力学信息进行降维的做法.此外,为保障GAD在低维空间的顺利运行,该生成模型应能为低维空间自动拟合出连续可导的自由能面.

5 结论

生物分子功能机制的有效调控有赖于对其转变过程微观机制的全面考察,其中以获取其主要转变路径中的过渡态信息最为关键.当预设静态集合坐标较为容易、可强行定向降维时,前人开发的GAD算法、finite temperature string和快速断层扫描法,已成功阐明了诸多生物过程的微观转变机制,但当面对复杂转变过程时,仍易出现预设集合变量常不合理,需要消耗大量资源试错.近年出现的基于旅行商的自动路径搜索算法TAPS,则有效避免了集合变量的预设问题,还在并行化和GPU加速的基础上,提升了自动化程度和过渡态搜索效率.

在完全无需事前降维、不依赖集合变量的路径采样类算法中,也已出现了通过融入强化学习思想实现自适应的高效率采样及过渡态分析优秀变体.但只能处理单个能垒和过渡态搜寻的特点限制了这类算法在生物分子模拟中的应用.

因此,研发可保留过渡态信息的新型降维算法或是将机器学习进一步融入过渡态搜索的可行方向.在此,我们建议基于生成模型研发此种高质量降维方法,并将之与GAD联用,从而做到从任意状态出发,快速捕捉其周围的过渡态信息.