混合量子-经典算法:基础、设计与应用

2021-11-19陈然一鎏赵犇池宋旨欣赵炫强王琨王鑫

物理学报 2021年21期

陈然一鎏赵犇池宋旨欣赵炫强王琨王鑫

(百度研究院量子计算研究所,北京 100193)

量子计算作为一种新兴的计算范式,有望解决在组合优化、量子化学、信息安全、人工智能领域中经典计算机难以解决的技术难题.目前量子计算硬件与软件都在持续高速发展,不过未来几年预计仍无法达到通用量子计算的标准.因此短期内如何利用量子硬件解决实际问题成为了当前量子计算领域的一个研究热点,探索近期量子硬件的应用对理解量子硬件的能力与推进量子计算的实用化进程有着重要意义.针对近期量子硬件,混合量子-经典算法(也称变分量子算法)是一个较为合理的模型.混合量子-经典算法借助经典计算机尽可能发挥量子设备的计算能力,结合量子计算与机器学习技术,有望实现量子计算的首批实际应用,在近期量子计算设备的算法研究中具有重要地位.本文综述了混合量子-经典算法的设计框架以及在量子信息、组合优化、量子机器学习、量子纠错等领域的研究进展,并对混合量子-经典算法的挑战以及未来研究方向进行了展望.

1 引言

量子计算是基于量子力学与计算机科学的一门新兴学科,被认为在人工智能、信息安全、生物制药、量子化学等领域能带来极具潜力的应用.特别地,通用量子计算机理论上可以高效地解决经典计算机无法高效解决的大数分解[1]、数据搜索[2]、量子模拟[3]等问题.随着学术界与工业界对量子计算技术研发力度的逐步加大,量子计算硬件的技术在不断地进步[4-7].尽管如此,目前的技术离通用量子计算机要求的保真度、相干时间等条件还有一段距离.因此,从目前已实现几十量子位到未来实现通用量子计算这段时间,如何利用好当前不断增强的有噪中规量子(noisy intermediate-scale quantum,NISQ)计算设备[8],是一个至关重要的问题,也是当前量子计算领域的一个研究热点.

NISQ 计算设备有从几十到几百的量子位,这些量子位是没有纠错的物理量子比特(而非逻辑量子比特),只能进行相干时间有限的不完美的量子操作.在追寻量子计算优势的过程中,学者们基于NISQ 计算设备进行了诸多应用的探索,涵盖了组合优化[9]、量子化学[10]、量子物理[8]、机器学习[11,12]等诸多方向,目标是尽可能利用NISQ 设备的能力去完成特定的对于经典计算相对有挑战的任务.

基于NISQ 设备,最常见的算法模型为混合量子-经典算法,旨在借助经典计算机的力量尽可能发挥NISQ 计算设备的能力去解决具体的问题.混合量子-经典算法的一部分任务由量子计算设备完成,然后通过经典计算调整量子计算部分的可调参数,反复迭代最后输出结果.由于采用的电路拟设可以由NISQ 设备高效实现,混合量子-经典算法被认为可以基于近期设备发挥量子优势.混合量子-经典算法在诸多领域有着广泛应用,其中最具有代表性的包括求解组合优化问题的量子近似优化算法(quantum approximate optimization algorithm,QAOA)[13]与求解基态能量问题的变分量子本征求解器(variational quantum eigensolver,VQE)[10,14].囿于目前对外开放的量子设备有限,同时又涉及经典与量子设备之间的交互,目前此类混合算法通常在模拟平台[15-17]上进行小规模开发,然后通过硬件平台验证效果.量桨[15]是国内较为完善的混合算法开发平台,借助技术领先的产业级深度学习框架飞桨[18,19],通过深度学习赋能量子计算领域的前沿研发.

本综述就混合量子-经典算法的概念、原理、应用实例、挑战与瓶颈等方面进行详细的介绍.具体的文章结构如下:第2 节介绍混合量子-经典算法中的基本概念与设计思想;第3 节列举混合量子-经典算法在不同领域中具有代表性的若干应用;第4 节讨论混合量子-经典算法目前面临的主要挑战;第5 节进行总结.

本文常用的符号如表1 所列.

表1 主要符号表Table 1.Notations.

2 基本概念

混合量子-经典算法的核心在于将计算任务转化为优化问题.以最具代表性的变分量子本征求解器(VQE)[10]为例,VQE 将求解哈密顿量H的基态能量E0问题转化为整个密度算符(量子态)集合上的优化问题:

其中D表示所有与H维数相同的密度算符的集合,而 Tr[Hρ] 可以通过对量子态的测量得到.进一步地,如果将量子态ρ视作从某个固定量子态ρin出发,经过一个参数化酉变U(θ) 演化之后的量子态ρ=U(θ)ρinU(θ)†,则VQE 可以表示为一个参数空间上的优化问题:

通过调整参数θ以最小化C(θ),VQE 最终得到目标基态能量E0.

从VQE 的例子中可以看出,混合量子-经典算法通常包含一个精心设计的损失函数C,使得当C取最小(或最大)值时可以实现计算任务.随后,混合量子-经典算法通过调整一个参数化酉变U(θ)最小(或最大)化损失函数,从而实现计算任务.值得注意的是,由于损失函数实现了从实数(可调参数)到实数(测量结果)的映射,混合量子-经典算法可以使用经典优化方法来优化可调参数θ.可见,算法结合了量子设备的计算能力与经典设备的优化方法,故得名混合量子-经典算法.典型的混合量子-经典算法流程如图1 所示.

由图1 可知,实现一个混合量子-经典算法必须考虑如何设计损失函数将计算任务转化为优化问题,以及如何构造一个参数化酉变(如果算法处理的任务涉及到经典数据,则需要额外的编码过程将数据转换成量子数据.详见3.4.1 节).此外,混合量子-经典算法中采用的经典优化方法往往会对算法的效率和准确度产生影响.特别地,相比于不基于梯度的优化方法,解析梯度以及解析高阶导数因为需要运行更少的量子电路来决定优化方向成为混合量子-经典算法所关注的重点.本节接下来将就这几个混合量子-经典算法中的基本概念展开讨论.

图1 混合量子-经典算法流程Fig.1.Diagram for hybrid quantum-classical algorithms.

2.1 损失函数

损失函数是混合量子-经典算法设计的核心.一般来说,为保证函数值可以在量子设备上通过测量高效计算,混合量子-经典算法中的损失函数具有如下形式:

其中ρj是一组输入量子态,Hj是一组厄米特算符,表示在电路末端进行Hj测量的结果,fj是一组经典函数,表示对测量结果的经典后处理.由混合量子-经典算法的框架可知,损失函数的设计必须满足:当且仅当损失函数达到全局最小时,计算任务求得解.这被称为混合量子-经典算法的忠实性条件[20].对于VQE 算法,由于其损失函数直接设为哈密顿量的测量值,忠实性条件自然满足.

需要指出的是,考虑到在近期设备上的适用性,混合量子-经典算法的损失函数必须能够高效地计算.根据厄米特算符Hj的种类,计算损失函数的方法可大致分为以下几种:

1)Hj是泡利算符.此时损失函数可以直接通过对量子态的泡利测量得到.特别地,在许多常见的物理模型(如伊辛模型)中,Hj写成局部泡利算符的线性组合:

其中Pj,k是泡利算符,且只不平凡地作用在局部的量子比特上.若每一个Pj,k最多只作用于m个量子比特,则称损失函数为m-局部的.局部损失函数相较于全局损失函数在梯度消失问题上被认为更具有优势[21](详见4.3 节).

2)Hj是密度算符σ.此时计算任务往往包含计算量子态之间的态重叠(Tr[ρσ]),或量子态的纯性(Tr[ρ2]).这类的损失函数可通过交换测试[22]或其变种破坏性交换测试[23]在量子设备上计算(电路实现分别如图2(a)和图2(b)所示).同时,由于密度算符之间的Frobenius 距离可以写成如下形式:

图2(a) 交换测试电路;(b)破坏性交换测试电路;(c) 哈达玛测试电路Fig.2.(a) Swap test circuit;(b) destructive swap test circuit;(c) Hadamard test circuit.

故密度算符的Frobenius 距离也可以由交换测试得到,其常见于量子态制备相关的任务.

3)Hj中包含酉算符.由于酉算符自身不是厄米特算符,此时需要对酉算符进行变换,常见的变换包括哈达玛测试[24],用于计算

哈达玛测试的电路实现如图2(c)所示.同时,通过将哈达玛测试电路输入端的|0〉替换为-i|1〉)即可计算 Im(Tr[Uρ]) .

2.2 参数化酉变

作为典型的NISQ 算法,混合量子-经典算法实现的关键在于采用近期设备可实现的参数化酉变.参数化量子电路(parameterized quantum circuit,PQC)是一种通用的参数化酉变实现方式.在PQC 中,电路一般采用分层结构:

式中L被称为电路的层数.由于设备噪声的存在,近期设备所能提供的有效的电路宽度(量子比特数n)和深度(层数L)将受到限制.同时,为使电路能够在近期设备上高效实现,在电路的每一层Ul(θl)=Vl(θl)Wl中,参数化的酉门Vl(θl)=Πke-iθkAk/2一般采用单比特旋转门或含参双比特门(ZZ 门);而不含参的酉门Wl作为连接层,一般由临近量子比特间的CNOT 或CZ 两比特门构成,为电路提供纠缠能力.参数化电路的结构也常被称为拟设.由于参数化量子电路的逻辑结构与设计思想和机器学习中的神经网络相似,参数化量子电路又被称为量子神经网络(quantum neural network,QNN).

在针对特定问题的算法中,可以通过问题的解的先验信息针对性地设计电路拟设(如组合优化问题中的量子交替算符拟设[9]等).而在针对一般问题的电路结构设计中,或当问题的解不存在先验信息时,电路结构的每一层Ul(θl) 往往采用相同的结构,即Ul(θl)=U(θl)=V(θl)W.文献[25]列举了若干常见的硬件高效拟设.此外,文献[21]设计了一种交错分层拟设.这样的拟设在宽度或深度增大时会面临电路可训练性变差等问题.相对地,一些每层结构各不相同的电路拟设在特定任务下拥有更好的表现.下面介绍几种特殊的的电路拟设.

1) 量子感知机[26,27].类比于经典神经网络中的感知机模型,在量子感知机模型中,每个神经元对应一个量子比特,神经元之间的连接对应作用在两端的量子比特上的酉变.量子感知机模型及其对应的量子电路模型如图3(a)所示.一种耗散量子感知机模型[27]在节省量子比特数方面具有一定优势.

2) 量子卷积神经网络(quantum convolutional neural network,QCNN)[28].在QCNN 中,电路各层被进一步分为卷积层和池化层.卷积层电路由参数化的酉门构成,而在池化层中,电路通过测量部分量子比特减小系统的维度.此外,一种树张量网络[29]也采用了类似的结构逐层减小系统的宽度.QCNN 和树张量网络的结构如图3(b)所示.由于系统的有效宽度随层数快速减小,QCNN 等技术有望避免梯度消失问题[30].

3) 影子电路[31].受到经典影子学习[32]的启发,影子电路模型通过对多次局部酉变和局部测量结果的后处理学习目标特征.在每一次影子电路的运行中,参数化的酉门只作用在部分系统上,然后对这部分系统进行测量,这种部分系统的测量信息被称为“影子”;最后,将所有的“影子”进行经典后处理(例如全连接的经典神经网络)以提取特征.影子电路模型如图3(c)所示.由于采用了局部的电路和测量,影子电路模型在节约计算资源(需要训练的参数量)和可训练性方面更有优势.

图3 (a) 量子感知机;(b)量子卷积神经网络;(c)影子电路Fig.3.(a) Quantum perceptron;(b) quantum convolutional neural network;(c) shadow circuit.

参数化量子电路的设计目前主要面临两个挑战:其一是如何在有限的深度下保证拥有足够的表达能力和纠缠能力来完成任务,其二是如何保证参数的可训练性.第4 节将就这两个问题作进一步讨论.

2.3 优化方法

由于混合量子-经典算法将损失函数的优化任务“外包”给了经典计算机,绝大多数经典优化方法都可以用于混合量子-经典算法中的优化步骤.常用的混合量子-经典算法的经典优化方法中,基于梯度的方法有批量梯度下降、ADAM 优化、涉及多样本的随机梯度下降(stochastic gradient decent,SGD)、以及基于梯度估计的同步扰动随机逼近算法(simultaneous perturbation stochastic approximation,SPSA)等.由于混合量子-经典算法中损失函数的解析梯度可以在量子设备上直接计算(详见2.4 节),SGD 和ADAM 被广泛应用于各类混合量子-经典算法,特别是算法的经典模拟[33]中;同时,非梯度的优化方法包括下山单纯形法、粒子群算法、贝叶斯估计等,这些优化算法的详细内容可参阅优化理论相关教材[34].

值得一提的是,基于参数化量子电路特有的属性,专门针对混合量子-经典算法的优化方法也相继被提出.一种基于梯度的优化方法被称为量子自然梯度[35]优化.相比于传统的梯度下降法,量子自然梯度优化在每轮迭代中参数更新时需额外计算因子g+:

其中g为Fubini-Study 度量张量,g+表示g的伪逆.更进一步地,由于Fubini-Study 度量张量g的分块对角矩阵近似也可以在量子设备上直接计算(详见2.4 节),结合解析梯度∇C,整个量子自然梯度优化的参数更新便可以在混合量子-经典算法的框架下实现.相比于传统的梯度下降法,量子自然梯度在一些VQE 问题中具有更快的收敛速度.

另一类针对混合量子-经典算法的非梯度优化方法被称为量子序列最小优化[36-38].此类优化方法的关键在于利用了损失函数的如下性质:当损失函数(3)式中的后处理函数fj均为一次函数,且参数化酉门Vl(θl)=Πke-iθkAk/2中的生成元Ak满足=I时,固定其他参数,损失函数C是任一参数的周期为 2π 的正弦函数.基于此,量子序列最小优化方法在优化参数时,可以选取一个或一组参数并固定其他参数,直接将选取的参数调至当前最优,随后对所有参数重复这一过程直至收敛.相比于传统的梯度下降法,量子序列最小优化在一些VQE问题中具有更快的收敛速度.

2.4 解析梯度

混合量子-经典算法的一大优势在于其损失函数的梯度可以在量子设备上直接计算.不失一般性,假设损失函数不包含对测量结果的经典后处理:

显然,包含经典后处理的损失函数可以利用链式求导法则得到.

参数平移规则[39,40]是计算混合量子-经典算法中解析梯度的基本工具.该规则表明,当参数化酉门Vl(θl)=Πke-iθkAk/2中的生成元Ak满足=I时,形如(9)式的损失函数对参数θk的偏导为

式中C(θk±π/2)表示C中参数θk±π/2 而其他参数保持不变.因此,通过改变目标参数后计算两次电路的输出,可以得到损失函数关于目标参数的梯度值.进一步地,在一些基于梯度的优化算法中需要用到高阶导数信息(如黑塞矩阵等),此时反复利用参数平移规则即可求解相应的高阶导数.

除参数平移规则之外,另一种计算参数的方法[41]将偏导式(10)表示为

式中U-(U+)表示参数θk对应的参数化酉门之前(之后)的电路,即U-=Ul(θl)···U1(θ1),U+=UL(θL)···Ul+1(θl+1).因此,当P也是酉算符时(P通常为局部泡利算符),梯度值也可以通过引入一个辅助比特经由哈达玛测试(见2.1 节)计算得到.

最后简单介绍量子自然梯度中的Fubini-Study度量张量的近似计算[35].文献[35]表明,Fubini-Study 度量张量有分块对角矩阵近似g=diag(g(1),g(2),···,g(L)),且对角子矩阵g(l) 的矩阵元满足

可见,通过对电路运行结果进行测量可以直接得到度量张量的分块对角矩阵近似.

2.5 计算精度

本节的最后简单讨论混合量子-经典算法中计算损失函数时达到的精度与所需的测量次数.不失一般性,设待计算的损失函数为C=Tr[Hρout],其中ρout表示电路输出量子态.由于量子力学的内禀随机性,损失函数C实际上通过测量结果估计得到.为此,首先将H分解到泡利测量算符上:.随后,损失函数C可按如下方式估计:

1) 在泡利算符Pj上对ρout进行T次测量.由于泡利测量只有两种测量结果,记+1 结果出现的次数为M0,—1 结果出现的次数为M1,记Xj(1)=(M0-M1)/T.

时,估计误差有 1-δ的概率小于ϵ,即Pr[≤ϵ]≥1-δ.因此,当m=O(poly(n)) 时,损失函数可以通过测量在量子设备上以任意精度高效地估计.

3 应用实例

3.1 谱信息估计

由于物理粒子的密度算符、哈密顿量等物理量的矩阵描述都是厄米特矩阵,粒子的各种特性往往能被对应物理量的谱信息(本征值)很好地描述;另一方面,量子电路模型也能直接处理密度矩阵(量子态)和哈密顿量(可观测量).因此,对厄米特矩阵的谱信息估计是混合量子-经典算法的一个重要也是直接的应用.

VQE 是谱信息估计中最典型的一个例子.在VQE 中,基态能量直接对应厄米特矩阵的最小本征值;同时,VQE 基于“对任意量子态的测量值的期望都不小于最小本征值”这一性质设计损失函数,从而成功求解基态能量.受VQE 启发,提取更多谱信息的混合量子-经典算法被相继提出.

3.1.1 子空间搜索-量子变分本征求解器

子空间搜索-量子变分本征求解器(subspace search VQE,SSVQE)[43]是VQE 算法的一个直接拓展.SSVQE 求解目标哈密顿量的基态以及前K-1个激发态能量,亦即求解厄米特矩阵最小的K个本征值.在SSVQE 中,损失函数对K个正交单位向量(通常选取计算基向量)经过参数化电路后的测量值加权求和:

其中|ek〉为H第k小个本征值对应的本征向量,即H的第k激发态.因此,当损失函数优化到最小时,测量得到Tr[HU(θ)ρkU†(θ)]即为厄米特矩阵第k小个本征值,亦即待求的基态或激发态能量.

3.1.2 变分量子态对角化

对混态的谱分解(对角化)有助于我们理解量子态的纠缠性质.变分量子态对角化(variational quantum state diagonalization,VQSD)[44]算法求解酉变U使得目标态ρ经过酉变后在计算基上对角化,即.在VQSD 中,记=U(θ)ρU†(θ),损失函数提供了两种设计:

其中D表示整个输入量子态上的(完全)去极化信道,Dj表示仅对第j个量子比特作用的(完全)去极化信道.显然C1和C2等于0 当且仅当ρ～实现了对角化.因此,通过优化损失函数至0 即可完成量子态的对角化.同时,文献[44]分别设计了两种电路用于计算两个损失函数.文献[44]指出,由于C1拥有更简单的计算电路,而C2拥有更好的可训练性,在实际训练中可以根据量子比特数对两种损失函数进行加权求和作为最终的损失函数.

值得一提的是,由于哈密顿量和输入量子态在损失函数中具有对偶性,3.1.1 节SSVQE 中对正交量子态加权求和的技巧也可用于量子态对角化,如文献[20]就基于该技巧实现了量子态的本征值求解.

3.1.3 变分量子奇异值分解

奇异值分解作为谱分解的扩展,在数据压缩、推荐系统等领域具有重要应用.变分量子奇异值分解(variational quantum singular value decomposition,VQSVD)[45]实现任意方阵M的奇异值分解.VQSVD 中,损失函数定义为

其中是一组互相正交的纯态,ωk是严格单调减小的正实数序列.文献[45]证明上述损失函数取到最大值当且仅当

此外,由于对两方纠缠态的施密特分解等价于纠缠态向量重排矩阵的奇异值分解,文献[46]通过对优化两个局部参数化电路实现施密特分解.本质上,文献[46]和VQSVD 相当于对待分解的矩阵采用了不同的编码方式:VQSVD 将矩阵分解为酉算符的线性组合,而文献[46]相当于将矩阵重排为两方量子态对应的向量.

3.1.4 迹范数估计

3.2 距离估计

在量子设备上制备特定的量子态是一项重要的基本能力,例如在变分量子本征求解器中任务的目标即可认为是制备一个量子系统的能量基态.在制备量子态后,离不开验证和刻画的过程.在这之中就会涉及到量子态之间距离估计的函数.这里主要讨论常用的两种距离估计函数[47],即迹距离D

以及态保真度F

3.2.1 迹距离估计

由于对一般量子态间的迹距离的大小判断属于QSZK-complete 复杂度类[50],而QSZK (quantum statistic zero knowledge)包括了BQP (bounded-error quantum polynomial time)复杂度类,因此即使在量子计算机上迹距离的估计目前也不存在高效算法.由于迹距离具有如下性质:

其中P的优化范围是所有POVM 元(满足0 ≤P≤I的半正定矩阵),文献[49]基于该性质,并通过奈马克扩张定理引入一个辅助比特,将POVM元的优化转化为酉矩阵上的优化,证明迹距离满足

其中UA→R(XA)=TrA[U(XA ⊗|0〉〈0|R)U†] .因此,通过最大化损失函数C=Tr[|0〉〈0|R UA→R(ρ-σ)]即可得到ρ,σ间的迹距离估计.值得一提的是,在文献[49]中,(24)式由(20)式令H=1/2(ρ-σ)直接得到.

3.2.2 保真度估计

用经典方法计算保真度F需要先对量子态ρ和σ进行量子态层析来获取密度算符的矩阵表示,然后在经典计算机上按照(22)式进行计算.由于希尔伯特空间维度随着量子比特数呈指数增长,这种方法通常认为是困难的.随之而来的问题就是,在量子设备上直接估算态保真度是否可行,是否更高效.这种思路下的主要问题在于保真度计算公式中涉及到对量子态的非整数幂的操作,没有已知的量子算法可以精确完成这一任务.针对这一问题,文献[20]提出了一种混合量子-经典算法用于近似任意混合态σ和低秩态ρ之间保真度的方案(variational quantum fidelity estimation,VQFE),并给出对保真度估计的上下界.其主要原理是通过对ρ对角化获取其在本征子空间上的谱信息然后计算σ在该基组表示下的矩阵元素从而得到对保真度的估计.进一步地,文献[49]基于乌尔曼定理(Uhlmann’s theorem)给出了计算任意混合态之间保真度的方式.通过纯化子程序,先分别获得需要测量保真度的两个量子态ρA和σA的纯化态|ψ〉AR和|φ〉AR.然后通过纯化中辅助量子比特的自由度以及经典优化算法去最大化两个纯化态之间的态重叠,即可获得对保真度的估计:

其中A表示原始问题的空间,R表示纯化子程序中引入的辅助量子比特的空间.

3.3 组合优化问题

组合优化问题是指从离散的可行解集合中找出最优的一个解,如旅行商问题、最大割问题等著名的NP 困难问题都属于组合优化问题.这些问题都可以抽象为最小化(或最大化)一个目标函数D(x),其中x为一组离散的二进制变量.

要在量子计算机上解决经典组合优化问题,需要先把它转化成量子优化问题.最直接的做法是将原问题的目标函数D(x)编码为哈密顿量HD,使得该哈密顿量的基态对应原优化问题的解[51].这样,组合优化问题就变成了求解哈密顿量基态的问题,即找到一个量子态|ψ〉使得

最小,而这正是混合量子-经典算法擅长的.根据VQE 的思想,可以利用参数化量子电路寻找态|ψ(θ)〉=U(θ)|s〉,其中量子态|s〉为量子电路运行前的初始态,θ为量子电路中可优化的参数.

量子近似优化算法(quantum approximate optimization algorithm,QAOA)[13]提供了一种设计参数化量子电路的思路,该算法最初由Farhi等[52]提出,专门用于解决组合优化问题.与量子绝热算法(quantum adiabatic algorithm,QAA)[52,53]类似,QAOA 受到绝热定理的启发,构造类似绝热演化的参数化量子电路来求解哈密顿量HD的基态.根据绝热定理,如果一个系统的哈密顿量随时间的演化由H(t)=(1-t/T)HB+tHD/T给出,且初始时该系统处于哈密顿量HB的基态,那么通常经过足够长的演化时间T,系统最终会处于哈密顿量HD的基态.因此,只需要准备一个基态易于制备的辅助哈密顿量HB,将其基态作为初始量子态借助Trotter 乘积式来近似演化哈密顿量H(t),最终便能得到哈密顿量HD的基态,也即原组合优化问题的最优解.这个演化过程可以近似为如下的参数化酉变:

其中,UD(γj)=e-iγjHD和UB(βj)=e-iβjHB分别是哈密顿量HD与哈密顿量HB对应的参数化酉变;γ,β是可以优化的参数;p则是参数化酉变的层数.

事实上,QAOA 的思想不仅可以解决组合优化问题,由其推广得到的一类参数化量子电路,即量子交替算符拟设电路,可广泛应用于其他问题[9].

3.4 量子机器学习

量子机器学习就是量子算法和机器学习的有机结合.经典的神经网络分为两部分:神经网络和优化器.而量子机器学习,就是把经典的神经网络换成量子的神经网络并由量子计算设备执行,并且在经典设备上进行量子神经网络的参数优化,即使用经典的优化器去优化量子神经网络.通常情况下,量子神经网络是由参数化量子电路表达的.量子机器学习有望利用量子的并行运算的特性对经典的机器学习算法进行加速.下面讨论几种较为常见的量子机器学习问题:量子分类器[31,39,41,54]、量子生成对抗网络[55,56]和量子自编码器[57,58].

3.4.1 量子分类器

在机器学习中,分类问题是极其重要的监督学习问题.分类过程实质上是一个给数据贴标签的过程,当输入数据满足某个条件的时候,就给该数据贴上相应的标签,从而完成分类.分类问题通常会给定一个训练包含N个样本的数据集{(x(k),,其中x(k)是数据点,y(k) 是数据的标签.该任务的目的是通过训练数据集训练神经网络,使得该神经网络在遇到没有处理过的数据时能够做出正确的分类.在量子分类器的框架下,量子神经网络主要表达形式为参数化量子电路,Mitarai 等[39]以及Farhi 和Neven[41]采用参数化量子电路的结构分别完成了二分类任务和手写数字的分类任务.

通常情况下,给定的数据集是经典的数据,所以分类器第一步需要做的便是把经典数据编码成可在量子设备上可以执行的量子数据(量子态),即x(k)→|ψ〉(k).下一步需要把参数化量子电路U(θ)作用在编码后的量子态上,由此得到U(θ)|ψ〉(k) .随后,把损失函数定义为真实标签和某个可观测量O的期望值的距离,即

使用经典优化器对损失函数进行优化,通过不断调整参数化量子电路中的参数,使得损失函数收敛至最小值.值得注意的是,编码方法以及量子神经网络结构并不唯一.合理的编码方式和神经网络能够提高分类器的运行速度和预测准确性,因此,针对不同的问题,应比较并选用更优的编码方式.目前常用的编码方式[59,60]包括基态编码、振幅编码、角度编码和IQP 编码.关于神经网络表达能力将在4.2 节详细讨论.

值得一提的是,文献[31]提出了影子量子学习方法,利用作用在局部量子比特上的影子电路实现多分类任务.数值实验结果表明,相比于已有的量子分类算法,该算法具有更强大的分类能力,同时大幅减少了网络参数,降低了训练代价.此外,量子核方法[59,61-63]也是实现量子分类器的可行方案.和经典核方法一样,量子核方法也是先通过特征映射把原始数据映射到特征空间里,然后寻找超平面把数据分类.从理论上来说,相较于经典的核方法,量子核方法在处理分类问题时有平方级的加速效果[64].

MNIST 作为常用的数据集,常常在分类任务中作为基础测试的数据集.Wang 等[65]在光量子平台上实现了对MNIST 数据集中的手写“0”和“1”进行分类,三层结构的分辨准确率达98.58%,五层结构的分辨准确率达99.10%.在影子量子学习方法中,本课题组使用35 个参数使得MNIST的二分类任务准确率达到99.52%.而在MNIST十分类任务中,在使用928 个参数的情况下,准确率达到 87.39%[31].

3.4.2 量子生成对抗网络

生成对抗网络(generative adversarial network,GAN)[66]在经典学习中扮演着重要的角色.GAN 通常由生成器和判别器两部分组成,其中生成器接受随机的噪声信号,以此为输入来生成期望得到的数据;判别器判断接收到的数据是不是来自真实数据,通常输出一个P(x),表示输入数据x是真实数据的概率.

量子生成对抗网络[55,56,67](quantum generative adversarial network,QGAN)的目的是利用量子计算设备加速经典生成对抗网络的训练.相比于GAN,QGAN 生成的是量子态,而不再是经典数据.在QGAN 的框架下,生成器G和判别器D分别对应着两个参数化量子电路UG和UD.生成器的目标是最小化损失函数,从而达到生成的数据以假乱真的效果;判别器的目标是最大化损失函数,要尽可能地分辨出哪些是真实数据,哪些是生成器生成的数据.可以把训练过程视为博弈的过程,训练的结果会使得生成器和判别器达到纳什均衡点,即生成器具备了生成真实数据的能力,而判别器也无法再区分生成数据和真实数据.一般情况下,量子对抗生成网络的优化函数都可以写成以下形式:

其中C根据任务的不同而相应变化.值得注意的是,实际过程中,通常采用交替训练的方式,即先固定G,训练D,然后再固定D,训练G,不断往复.当两者的性能足够时,模型会收敛,两者达到纳什均衡.

QGAN 由经典的GAN 发展而来,所以QGAN也继承了经典GAN 的不足,比如训练不稳定、训练效果局限于网络框架等.在经典领域,WGAN(Wasserstein GAN)[68]解决了GAN 的缺陷.相应地,在量子领域,QWGAN (quantum Wasserstein GAN)[69]的提出也提升了QGAN 效果.如今,量子对抗生成网络的方法已经被应用到各种任务上,比如概率分布的学习[70-72]、量子态的学习[56,73]、量子电路的学习[69]以及纠缠的探测[74].

3.4.3 量子自编码器

量子自编码器和经典自编码器一样,都是由编码器和解码器组成,是用于压缩数据,进行特征降维的一种算法.在量子自编码器中,输入的数据为复合量子系统AB的量子态ρAB.将编码器E=U(θ)(即参数化量子电路)作用在量子态上,得到U(θ)ρABU†(θ).该步骤将量子系统AB的信息编码到量子系统A上.对于量子系统B,只需要对他们进行测量并丢弃即可,即ρ˜A=TrB(U(θ)ρABU†(θ)).至此,已经完成了信息的压缩.在进行解码时,需要引入与系统B维度相同的系统C,并且固定其量子态ρC.随后将解码器D=U†(θ) 作用在整个量子系统A+C上,得到还原后的量子态=U†(θ)[ρc ⊗TrB(U(θ)ρABU†(θ))]U(θ)[57].

在量子自编码器中,损失函数一般有两种定义方法:

1) 由于量子自编码的任务是对数据进行编码并解码,希望输出的量子态ρout和输入的量子态ρin尽可能地相似,所以损失函数定义为两个量子态之间的保真度F,即

2) 在还原被压缩信息的时候,需要引入另一个固定的纯态量子系统C,与系统A进行耦合.相对应地,压缩过程可以理解为量子系统A和量子系统B解耦的过程,由此可以定义损失函数为压缩后的量子系统和引入的量子系统ρC之间的保真度,即

值得注意的是,待编码的量子态所包含的纠缠资源量在一定程度上决定了量子自编码器的效果.简单地说,如果量子态ρAB含有的量子资源超过了量子系统A所能容纳的上限,那么量子自编码器必然会导致信息的损失.文献[58]设计了一种可以在量子退火机上运行的绝热算法进行量子信息的压缩.和其他的量子自编码器相比,该算法充分利用了测量所得到的信息,在一定程度上解决了信息损失的问题.

3.5 量子纠错

量子纠错[75-77]可表示为如下过程:1)编码信道U将k个逻辑量子比特的量子态|Ψ〉编码到n个物理量子比特,得到逻辑量子态|Ψ〉L;2)逻辑量子态|Ψ〉L经过噪声信道N,该噪声信道由具体硬件设备决定;3)纠错信道W尝试纠正噪声对逻辑量子态的影响,该信道使用辅助量子比特探测并纠正错误;4)解码信道U†(编码信道U的逆)从物理比特解码还原量子态.整个过程如图4所示.编码信道U和纠错信道W决定该纠错方案的性能:复合信道U†◦W ◦N ◦U和理想无噪信道越接近,纠错效果越好.然而设计高效的纠错方案是极具挑战性的任务.近年来,研究人员尝试利用经典机器学习技术提高量子纠错效率[78-88],这类工作属于典型的混合量子-经典算法.使用混合量子-经典算法实现量子纠错的优势在于构造参数化电路时可以综合考虑硬件设备的特点,比如所支持的量子门类型以及拓扑结构等,设计出更高效的硬件相关的纠错方案.下面介绍两个具有代表性的探索工作.

图4 量子纠错基本框架:量子态 |Ψ〉使用编码信道 U 编码,经过噪声信道 N后使用纠错信道 W纠正错误,最后使用解码信道 U† 解码,还原输入量子态Fig.4.Framework of quantum error correction.The quantum state |Ψ〉 first is encoded by the encoding channel U,then passes the noise channel N,and then is corrected by the correction channel W,finally is recovered by the decoding channel U† .

文献[78]提出量子变分纠错算法QVECTOR(variational quantum error corrector).该方法的基本思路是将如图4 所示的编码信道U和纠错信道W表示为参数化量子电路U(·)=U(θ1)(·)U†(θ1)和W(·)=W(θ2)(·)W†(θ2) .我们期望复合信道U†(θ1)W(θ2)NU(θ1) 等效或者逼近理想无噪信道,因此定义如下形式的平均保真度作为损失函数:

其中μ(ψ) 表示哈尔测度.直观上而言,该损失函数刻画了上述纠错方案在输入量子态上的平均表现行为.当F(θ1,θ2)=1 时,对应的参数化量子电路U(θ1)和W(θ2)实现了对噪声信道N的完全纠错.可采用更高效的酉2-设计[89]或近似酉2-设计[90]进行随机采样量子态来估计损失函数(32)式.实验数据表明,相对五比特量子纠错码[91,92],QVECTOR算法在处理特定噪声时有更好的效果.

由图4 可知,设计合适的编码信道U精确地制备逻辑量子态|Ψ〉L是量子纠错中的关键任务.文献[79]提出使用混合量子-经典算法制备|Ψ〉L,其核心思想是分析|Ψ〉L的数学性质将之编码为某个哈密顿量H的基态本征向量,调用变分量子本征求解器求解H的基态能量和本征向量,对应的参数化量子电路即为编码信道.该方法的关键步骤是构造哈密顿量H.下面以稳定子码[93]为例给出H的构造方法.假设S为某单量子比特纠错码的稳定子码且其稳定子为S=〈g1,···,gK〉.著名的例子包括五比特量子纠错码[91,92]、Steane 纠错码[94]和Shor 纠错码[95].由稳定子码定义可知,对任意k=1,···,K均有表示|Ψ〉L的正交态,定义算符,易见OL|Ψ〉L=|Ψ〉L.算符OL编码逻辑量子态|Ψ〉L的系数信息.定义哈密顿量

3.6 其他应用

本节介绍3 种不直接属于上述分类但具有代表性的混合量子-经典算法.选择这些算法的原因在于它们使用的技巧具有一定代表性和启发性.

3.6.1 量子线性求解器

变分量子线性求解器(variational quantum linear solver,VQLS)[96-98]实现线性方程组Ax=b的求解.不失一般性,假设b是归一化的.VQSL首∑先将矩阵A分解为酉矩阵的线性组合A=,随后根据归一化向量b制备对应的量子态|b〉,并将|0〉态输入参数化电路得到|x〉=U(θ)|0〉,然后最小化损失函数:

3.6.2 纠缠检测

变分纠缠检测(variational entanglement detection,VED)[99]利用了转置映射的准概率分解[100].对于密度矩阵,转置映射T将其映射为.对于两方量子态ρAB,量子纠缠存在的一个充分条件是ρAB在B系统上部分转置后的最小本征值小于0,这种方法被称为PPT 准则(positive partial transpose criterion)[101].据此,VED 通过估计ρAB部分转置后的最小本征值检测两方纠缠.由于转置映射不是完全正的,不能在物理设备上直接实现,文献[99]将转置映射分解为泡利门的线性组合,随后基于准概率分解对电路进行随机采样得到相应损失函数的无偏估计.文献[99]同样给出了其他纠缠判定条件对应映射的泡利门分解.

3.6.3 吉布斯态制备

吉布斯态是量子模拟、多体物理研究等诸多领域的关键步骤.给定哈密顿量H,其对应的吉布斯态表示为

其中β=1/(kBT) .由于吉布斯态使得系统自由能最小:

其中S为量子态ρ的冯诺依曼熵S(ρ)=-Tr[ρlogρ],基于该性质可以设计混合量子-经典算法,通过最小化自由能制备吉布斯态.对于量子态的自由能在量子设备上的估计,文献[102,45]分别提供两种方法:文献[102]将冯诺依曼熵中的对数运算展开成三角级数并截断,随后设计电路估计自由能;而文献[45]直接将冯诺依曼熵展开成泰勒级数并截断,随后利用交换测试计算态重叠和高阶态重叠(即Tr[ρ2] 和 Tr[ρ3]),从而估计自由能.

3.6.4 虚时演化

虚时演化[103]是研究量子系统的工具,被广泛应用在许多物理领域,包括量子力学、统计力学和宇宙学.在实时演化中,一个哈密顿量为H的量子系统的传播函数为 e-iHt.在虚时演化中,由于时间τ=it为虚数,该系统的传播函数为 e-Hτ.显然,演化的时间越长,系统的能量也就越低,最终会稳定在系统的基态能量E0,即τ →∞,Esys→E0.因此,虚时演化算法可用于求解子系统的基态.由于虚时演化过程是数学的而非物理的,如何模拟演化过程是虚时演化算法的关键.

基于虚时演化的特殊性质,文献[104,105]提出了使用变分量子电路对虚时演化进行模拟,并计算化学系统的基态能量.首先,需要制备一个追踪态|ψ(θ(τ))〉=V(θ(τ))|0〉,其中,V(θ(τ))=UN(θN)···Uk(θk)···U1(θ1)代表着一系列酉门,这里可以把V(θ(τ))当作参数化量子电路.当τ=0时,代表着量子系统的初始态.随后,对V(θ(τ)) 的各个参数进行更新

其中(τ) 是量子电路的自然梯度.随后通过迭代NT=τtotoal/δτ次,来模拟虚时从τ=0→τ=τtotal的演化过程.当模拟的时间足够长时,便能够得到系统哈密顿量H的期望值的最小值,即

4 挑战

尽管混合量子-经典算法已经在理论和实践上被证明在求解特定问题时具有高效的表现,该领域仍然存在若干开放性问题与挑战.本节主要介绍3 种对混合量子-经典算法效果的制约因素和潜在的解决思路,分别为噪声影响、电路表达能力以及可训练性.

4.1 噪声影响

作为一类NISQ 算法,噪声对混合量子-经典算法的影响值得深入研究.大体上,量子噪声可以分为相干噪声和非相干噪声.相干噪声的产生可能是由于硬件校准的精度,导致在执行一个量子门U(θ)时实际执行的是U(θ+δ) .通常来说,相干噪声对于经典优化方法来说并不构成很大的影响,特别是SPSA 这种本身就会对参数产生随机扰动的优化方法.量子设备的非相干噪声往往会对损失函数的整体景观产生影响,使其变得平坦或改变最值的位置,如图5 所示.文献[106]和文献[107]分别从数值和理论上研究了泡利噪声对QAOA 算法的影响,并指出QAOA 算法对低强度泡利噪声具有一定抗性;文献[108]进一步探究了QAOA 算法的误差上界与噪声和量子Fisher 信息相关;文献[109]指出泡利噪声直接导致混合量子-经典算法的梯度消失问题;文献[110]表明,在一部分计算任务中(如变分量子编译),尽管噪声使得损失函数整体变得平坦,但不会影响最优参数的取值,因此不影响算法最终结果的正确性;文献[111]表明噪声会破坏参数空间的对称性,导致部分全局最优解变为局部最优,从而增加优化难度;文献[112]对比了有噪条件下混合量子-经典算法和经典算法的复杂度,证明了在大噪声条件下混合量子-经典算法相比于经典算法不再具有优势.

图5 无噪(左)与有噪(右)条件下损失函数景观对比Fig.5.Comparison between noise-free (left) and noisy (right) cost function landscape.

4.2 电路表达能力

2.2节曾提到,在参数化量子电路的模型设计中,为使参数空间能够对应尽可能多的酉变,从而使优化过程覆盖尽可能大的解空间.参数化量子电路的表达能力可直观地理解为电路取遍所有参数时能表达的酉变范围的大小.一般来说,更深的电路具有更强的表达能力,但电路深度同时会带来更严重的噪声和可训练性问题.因此,如何权衡电路深度与表达能力,以及如何设计表达能力更强的电路模型是混合量子-经典算法面临的重要一项挑战.

目前,一种电路表达能力定义基于电路输出量子态的平均高阶张量积和对应哈尔积分之间的Frobenius 距离.由于该距离与电路输出量子态对间的保真度分布直接相关,最终采用参数化电路与哈尔分布输出的保真度分布之间的K-L 散度对电路U(θ) 表达能力进行量化:

其中DKL(A‖B)表示概率分布A,B之间的K-L 散度;P(U,F)表示电路U在输入|0〉且参数θ成随机均匀分布时,随机输出的一对量子态间的保真度的概率分布;PHaar(F) 表示一对满足哈尔分布的随机量子态间的保真度的概率分布且有解析表示:PHaar(F)=(d-1)(1-F)d-2;d是系统希尔伯特空间的维度.由于P(U,F) 可以通过对电路参数采样后测量估计,表达能力因此可以在近期设备上有效计算.文献[25]首先定义并计算了若干常用参数化电路模型的表达能力;文献[113]进一步比较了常见的硬件高效拟设与交错分层拟设的表达能力,指出后者相较于前者,在提供更强的可训练性的同时保留了几乎相当的表达能力.文献[114]从理论角度证明了损失函数的梯度方差的上界与电路表达能力有关.

值得一提的是,文献[25]基于梅尔-沃勒克度量定义了电路的纠缠能力,即电路平均能提供多少纠缠.电路纠缠能力在一些量子态制备任务中起到关键作用.

4.3 可训练性

目前混合量子-经典算法的可训练性主要指的是由贫瘠高原现象对优化过程造成的困难.贫瘠高原(barren plateau)现象[115]最早于2018 年被提出,当混合量子-经典算法所选取的非结构化的拟设电路U(θ) 进行随机参数初始化时,算法对应损失函数C(θ) 的梯度方差在采样的平均意义下会随着问题规模n的扩大呈现指数递减.直观来看,这种现象会使得问题的优化曲面变得非常平坦(故称贫瘠),从而使得为了达到确定优化方向的计算精度所需的测量数变得非常巨大(如果无法达到测量精度要求,电路的优化过程可能会接近于随机游走),最终导致基于梯度或者非梯度的优化方法[116]都很难找到全局最小值.产生这种现象背后的数学原因在于非结构化的电路在随机初始化参数时满足酉2-设计的性质[117].相关证明和避免贫瘠高原现象的理论研究也是围绕这个核心性质展开的.值得注意的是,文献[115]中的结果部分表明了4.2 节中提到的电路表达能力和可训练性之间的权衡关系.当电路的深度增加时相应的表达能力增强,但同时梯度的方差(可训练性)也会逐渐减小.

近些年,随着对混合量子-经典算法的深入研究,相应的可训练性解决方案也在陆续提出.针对贫瘠高原现象,文献[118]提出了一种初始化参数θ的方案.其核心思想在于通过先选取部分参数随机初始化,然后特定剩下的参数使得整个电路由一系列的单位阵构成.这样可以减少电路中的随机性从而破坏酉设计的性质获取可训练性.文献[119]进一步提出了分层训练的方案,即使用若干初始层训练然后依次添加电路结构和层数.除了上述通过设计初始化训练方案,基于特定问题启发设计的电路结构[9,120]通常认为对于大规模的问题依然是可以训练的.此外,3.1.2 节提到的通过重新设计损失函数将其表达为局部损失函数的形式(只同时测量部分量子比特)[21]也被证明可以有效应对可训练性问题.然而很多算法的损失函数是否存在这样的表达形式依然未定.最后,有研究表明噪声[109]和过度的纠缠能力[121]也会造成类似现象并阻碍训练过程.可以说,可训练性问题至今依然是混合量子-经典算法长远发展的一大挑战.

5 总结与展望

本综述介绍了混合量子-经典算法的基本概念,此类算法在量子化学、机器学习、组合优化、量子信息等领域的研究进展以及算法目前面临的主要挑战.一方面,可以看到混合量子-经典算法已为许多领域问题提供了有效且具备潜在优势的解决方案,同时可以结合优化理论和机器学习中的现有技术,尽可能在近期量子设备上发挥量子计算的能力,推动量子计算与机器学习的融合创新.另一方面,我们也认识到混合量子-经典算法作为一个相对“年轻”的研究方向存在若干瓶颈,包括对电路表达能力的理论分析工具不够完善,对算法规模的可扩展性有限,大部分算法的量子优势缺乏严格的理论和实验证明等.如何克服这些混合量子-经典算法的瓶颈以及探索其在更多领域的应用,将是混合量子-经典算法未来重要的发展方向.此外,张量网络作为连接经典与量子计算的数学模型,已经从理论[122,123]和应用[124,125]层面启发了机器学习领域的许多研究方向.因此,这一工具在近期量子设备上的探索同样值得关注.随着量子硬件能力的不断提升与混合量子-经典算法技术的不断发展,相信具有量子优势的近期量子设备实用化应用将有望实现.