面向问题生成的预训练模型适应性优化方法研究

2022-04-19苏玉兰朱鸿雨武恺莉

中文信息学报 2022年3期

苏玉兰，洪宇，朱鸿雨，武恺莉，张民

(苏州大学计算机科学与技术学院，江苏苏州 215006)

0 引言

问题生成(Question Generation，QG)任务旨在借助语境的理解，实现问句的自动生成。现有基于SQuAD[1](Stanford Question Answering Dataset，SQuAD)数据集的实验场景中，问题生成系统的输入是一条蕴含目标答案的陈述句，输出则为一条针对目标答案的目标疑问句。例1给出了该数据集中问题生成任务的数据样例。

问题生成任务是一种遵循语义编码和解码规律的任务。其中，语义编码的目的是对陈述句的语义信息进行分布式表示，而语义解码则是一种依赖编码表示，自动生成问句形式的文字序列的过程。从而，前人研究主要采用端对端的模型架构，并通过结合神经网络的表示学习和分布式计算能力，实现问题生成。同时，基于端对端模型的注意力机制[2]、拷贝机制[3]和指针网络[4]也被相继提出，并显著提高了问题生成的性能。

例1：

陈述句：the game’s media day, which was typically held on the tuesday afternoon prior to the game, was moved to the monday evening and re-branded assuperbowlopeningnight.

<译文：通常在赛前周二下午举办的媒体日改为周一晚上，并被重新命名为超级碗开幕之夜。>

目标疑问句：what new name was given to the media day ?

<译文：媒体日被赋予了什么新的名字？>

近期，预训练语言模型在自然语言处理领域得到了广泛的应用。其在大规模通用语言学资源中获得的充沛语义信息量，促使其在特定上下文语境中的词项语义编码更为确切。同时，编码解码架构既可复制于下游任务的表示学习和判别过程，也可应用于端对端的生成过程。因此，本文尝试将预训练语言模型引入问题生成任务。初步实验证明，利用近期提出的UNILM-V2[5](UNIfied Language Model，UNILM)预训练模型进行测试，问题生成的性能取得了约5个百分点的BLEU4值提升(1)对比对象为自注意力编码和指针解码模型。。同时，Chan 等[6]利用BERT的问题生成模型，也取得了近似的性能。

然而，直接套用预训练语言模型的端对端生成架构，且在训练过程中实现模型微调(Fine-tuning)的应用方法，存在明显的适应性问题。最为明显的“欠适应”现象来自暴露偏差[7]和掩码异构。其中，暴露偏差发生于问题语句的解码阶段，体现为逐词解码过程中“被暴露”的上下文信息的不对等性，即训练过程可暴露Ground-truth的正确上下文，测试阶段只能暴露上一时刻预测的不可靠上下文。相对地，掩码异构现象贯穿整个编码和解码过程。表示学习的目标任务差异，是导致掩码异构的根本原因。具体地，语言模型的预训练过程执行的是“完形填空”式的词项解码任务，且词项的掩码可随机指定。但是，问题生成任务则需要解码整个未知问句，掩码的对象是当前解码时刻的全部后续信息。本文第2节将通过实例详细解释暴露偏差和掩码异构。

本文假设，当上述暴露偏差和掩码异构现象得到缓解的时候，预训练语言模型将在问题生成任务中发挥更为积极的作用，即适应性得到提升。为了验证这一假设，本文选择UNILM-V2作为实验对象，并将其作为基线模型。在此基础上，对UNILM-V2的训练过程进行了两项改进。其一，利用基于噪声暴露的强化训练方法缓解暴露偏差问题；其二，借助迁移学习在任务相关的扩展数据集上二次训练端对端模型。特别地，本文从其他阅读理解和问答数据中选取候选样本，利用启发式规则抽取问答对子，并借此构建扩展数据集ARQG(Answer-selection and Reading-comprehension for Question Generation)，专门用于支持迁移学习过程。

本文继承前人的实验设置场景，使用SQuAD[7]中的{疑问句、答案和语段上下文}三元组进行句子级问题生成实验。若在实验中利用了数据集中的答案信息，即针对原数据集中给定的答案生成指定问题，我们将其称为答案可知的问题生成任务；若不利用答案信息，即对生成问题的答案不做限制，我们将其称为答案不可知的问题生成任务。实验结果证明，当利用噪声暴露和迁移学习方法进行适应性优化之后，UNILM-V2模型在上述两种任务场景下和全部评测指标上，都获得了性能提高。本文的主要贡献包括：

(1)详细探讨了现有预训练语言模型对问题生成任务的适应性，并着重说明了暴露偏差和掩码异构是导致“欠适应”问题的重要因素；

(2)验证了基于噪声暴露的强化训练方法，有助于缓解暴露偏差问题，并有效提高问题生成性能；

(3)构建了针对问题生成任务的外部数据集ARQG，并通过在ARQG上的迁移学习，缓解跨任务训练中的掩码异构问题，促进了预训练模型的微调过程对新任务的适应能力。实验证明，这一方法对问题生成过程产生了积极影响。

本文组织结构如下: 第一节简要介绍问题生成任务的相关工作；第二节借助实际样例具体解释暴露偏差和掩码异构问题；第三节描述基于预训练模型UNILM-V2的问题生成模型；第四节详述适应性优化策略，包括噪声暴露的具体方法、迁移学习策略和扩展数据集ARQG的构造过程；第五节介绍实验设置，包括数据集、超参配置及评价指标；第六节分析实验结果；第七节总结全文。

1 相关工作

问题生成研究在国际上刚刚起步，但符合生成模式的语义编码和解码研究则较为充实。本节首先围绕问题生成任务，概述近期出现的前沿技术；其次，本节简单介绍预训练语言模型中的生成技术。

问题生成传统的问题生成任务多数基于神经网络模型。Du等[8]首次使用基于注意力机制的端到端模型解决答案不可知的问题生成任务(Answer-agnostic QG)，实验证明基于神经网络的解决方法明显优于基于规则的解决方法。Scialom等[9]使用Transformer[10]框架解决问题生成任务，并研究了不同策略对停用词的解决效果。Zhou等[11]在陈述句中加入了词汇特征和答案信息，同时使用拷贝机制[3]来解决答案可知的问题生成研究(Answer-aware QG)。Dong等[12]使用问题类型信息，通过问题分类模型对目标答案的类型进行预测，并将其加入到问题生成过程，以此生成具体的问句。Chan等修改了预训练模型BERT的掩码策略，让非针对生成任务训练的预训练模型适用问题生成任务，并从中取得不错的性能。

预训练语言模型近期，预训练语言模型在自然语言处理领域备受关注。BERT[13]和XLNet[14]在众多自然语言理解任务中取得了显著的成果。MASS[15]在模型的编码器中加入部分掩码，通过编码器、解码器及注意力机制在解码端生成该部分掩码。UNILM-V1[16]对生成任务的目标句子做掩码，并通过BERT的MLM(Masked Language Model)任务得到被掩码的部分。UNILM-V2[5]在UNILM-V1的基础上加入基于部分自回归的掩码策略，使模型能对连续的mask部分进行整体预测，增加了模型对词块的理解和生成能力。这些预训练语言模型在自然语言生成任务中取得了重大突破。

2 预训练模型适应性分析

本节结合问题生成案例，解释由暴露偏差和掩码异构导致的预训练模型适应性问题。

暴露偏差是较为常见的适应性问题。“暴露”特指上下文信息的先验已知性，呈现为对特定编码时刻开放的可靠语境。“暴露偏差”指的是训练阶段和测试阶段暴露的信息量相互迥异。其成因可归结为如下两点：

(1)现有基于端对端模型的语言生成方法，往往为了加快训练阶段中模型的收敛速度，在解码的每个时刻，直接暴露标准问句原文的上下文信息(Ground-truth Context)。

(2)测试阶段，原文的上下文信息皆是预测对象，存在于黑箱之中，不可在任何解码时刻作为已知条件进行暴露，由此，每个解码时刻可用的上下文信息只能是端对端模型预测的结果，而这些结果中不可避免地存在错误。

因此，“暴露偏差”实际上是可靠上下文信息量的差异，训练阶段可靠信息量大，测试阶段可靠信息量少。暴露偏差往往导致测试性能低于预期，即与训练阶段和开发阶段的可观测性能有着较大的差异。以预训练语言模型为底层结构的端对端问题生成系统，也无法避免暴露偏差现象。表1中给出了一项应用实例，其面向例1中陈述句进行编码，并解码为一条疑问句。由表1可见，如果这一实例用于训练端对端模型，则解码器在每个时刻可以使用的上下文信息，是正确疑问句中确切的先验词项(即表1中训练阶段目标列的词项)；相对地，如果这一实例是测试样本，则处于测试阶段的解码器，并不能使用标准的上下文信息作为已知条件进行下一时刻的预测，只能依赖自身前n个时刻(n>1)的词项预测结果，作为“并不标准”的上下文信息(即表1中测试阶段实际列的词项)。对于后者而言(测试阶段)，任何一个时刻的错误预测，都将直接或间接影响后续的预测，导致一定的错误累积。例如，表1中的实例，在预测阶段的第二个步骤(2nd Step)即产生预测错误，对后续的一系列词项的生成都将产生误导。

表1 暴露偏差现象的实例

掩码异构出现于预训练模型应用阶段，主要由以下两个原因造成：

(1)模型在预训练和微调训练时使用的掩码方式和学习目标不同。如BERT，在预训练时仅需要生成一句话中掩码的部分，且其在生成时能捕获的信息更加丰富。即使是为生成任务训练的预训练模型UNILM，其在预训练时，也仅仅在BERT的基础上减少模型可捕获信息，进而让其进行简单的类似于完形填空式的生成任务。

(2)与传统模型相比，预训练模型规模庞大，在训练阶段使用的训练语料也更为丰富。以问题生成任务为例，问题生成任务是一个端到端的生成式任务，需要模型在理解给定陈述句或陈述句和答案的情况下，逐字地生成目标问题中的每个字。因此，问题生成任务的难度天然大于大部分语言模型的任务，当下游任务训练数据不足时，我们很难将庞大的语言模型完美转化为下游任务需要的模型。

3 基于UNILM的问题生成模型

本文将预训练语言模型UNILM-V2作为基准模型，并利用该模型构建问题生成系统。本节首先概述UNILM-V2模型的应用方法。

给定某一陈述句C={c1,c2,…,cm}和目标答案A={a1,a2,…,an}，问题生成的目标是自动预测疑问句Y=y1,y2,…,yt中的词项序列。其中，m、n、t分别为C、A、Y的长度，A为C中连续的片段。此外，MASK={m1,m2,…,mt}为模型中的掩码部分，mi为yi(10%)或词表中随机词汇(10%)或[mask]标志(80%)。最终，模型的输入如式(1)所示。

X=([CLS],C,[SEP],Y,[SEP],MASK,[SEP])

(1)

其中，模型输入词向量表示包括三部分，词嵌入向量、位置向量和分割向量。[CLS]为包含整个输入部分语义信息的标志，[SEP]为区分输入中不同句子的分隔标志。在答案不可知的问题生成任务中，C=(C)，在答案可知的问题生成任务中C=(C,[SEP],A)。此外，MASK部分包含词的个数与Y相同，且MASK部分每个词嵌入中的位置向量和分割向量与Y中的对应项相同。

X输入至多层Transformer[10]后，将进行多头自注意力计算以得到最终隐状态。其中，C与Y的多轮自注意力计算如式(2)、式(3)所示。

MASK部分为模型拟合真实目标疑问句部分，在使用强制学习的训练过程中，其捕获的信息都为正确信息，具体自注意力计算如式(4)所示。

(4)

经过多轮多头自注意力机制计算后，得到最终MASK部分隐状态作为生成的目标疑问句隐状态。

4 预训练适应性优化

4.1 基于噪声暴露的强化训练方法

为了缓解暴露偏差问题，ERNIE-GEN[17]在预训练与下游任务训练时，在目标生成部分中加入噪声，使其在各类生成任务中表现出色。本文借鉴该方法并基于此进行研究，在没有ERNIE-GEN预训练模型加持情况下，在其余生产任务场景下使用噪声处理方法能否获得相同出色的表现。

给定原始疑问句的词向量表示Y={y1,y2,…,yt}，通过噪声处理，将Y中词汇随机更换为词表中词汇的词嵌入表示，形成新的蕴含噪声的表示Y′={y′1,y′2,…,y′t}。如表2所示，经过噪声处理之后，每个时刻，MASK部分所捕获的信息将包含部分错误信息，即表2中“noise”部分。

表2 噪声处理实例

本文使用超参ρ控制噪声在目标疑问句中的占比。模型的输入表示如式(5)所示。

X′=([CLS],C,[SEP],Y′,[SEP],MASK,[SEP])

(5)

本文将X′输入多层Transformer，C部分的多轮自注意力计算如式(2)所示，Y′部分的自注意力计算如式(6)所示。

(6)

如表2中噪声处理实例所示，在训练的第三、四、七和九个步骤，模型都相对上个时刻多捕获了一个无效信息，即表中噪声(noise)。MASK部分在模型中的自注意力计算如式(7)所示。

(7)

由此，在与真实目标疑问句计算损失进行拟合时，将训练模型注意力，把注意力放在捕获的正确信息上，从而减少噪声，即错误信息对之后时刻的影响。模型训练过程中，MASK部分与真实目标疑问句Y进行拟合，其损失计算如式(8)所示。

(8)

其中，L(·)表示交叉熵损失函数。

通过上述训练方式，模型在生成时读取到上一时间步的信息，将不再完全的为真实值信息，其中还包含着部分错误信息。这样使得模型能部分程度地发现这些错误，从而在预测阶段，减轻生成的错误信息对之后生成步骤的影响。

4.2 利用迁移学习的微调方法

针对掩码异构问题，本文构造了针对问题生成任务的迁移学习数据集ARQG，以两轮微调的学习方式让语言模型能初步适应较为困难的问题生成任务，进而在目标数据上进行表示学习训练。

首先，本文让预训练语言模型在ARQG数据集上进行第一轮粗略学习。ARQG数据集中的问答语料来源广泛且形式多样，能让语言模型初步转化为一个较为全面且泛化能力较好的问题生成模型。此时，模型在大规模的问答语料上执行问题生成任务后，能够初步匹配问题生成任务。

接着，让模型在目标数据集上进行微调。此时的模型已初步具备一定理解及生成能力，即使目标数据集在数量上有所不足或者在样本分布上不太均匀，也能保证模型能够在目标数据集上地适应很好。

4.3 ARQG数据集构造(来源与启发式规则)

本文从不同领域的答案选择和阅读理解数据集中抽取了大量问答对构造为ARQG数据集，该数据集的具体数据来源和数量如表3所示。ARQG数据集中包含针对答案可知和答案不可知两种不同问题生成任务的数据。针对答案不可知任务，本文从当前公开的答案选择数据集TREC-QA[18]、WikiQA[19]、ASNQ[20]及WPQA[21]中抽取共计8万余条数据构造为(陈述句，目标疑问句)二元组。针对答案可知任务，本文从当前公开的阅读理解数据集NewsQA[22]、TriviaQA[23]及NQ[24]中抽取共计19万余条数据，构造为(陈述句，答案，目标疑问句)三元组。同时，以上两种数据中还包括句子级与段落级两种不同长度的构造手段，使ARQG数据中囊括问题生成任务中的各种数据形式，这些高质量的问答数据让模型能在第一轮微调时学习到较为丰富的语义信息和问答语言规则，提升模型的鲁棒性，对模型在之后目标数据集上的学习有很大帮助。

为了使构造的ARQG数据集能较好地针对问题生成任务，本文对不同长度量级句子的最大长度以及不同类型数据之间的比例进行了控制，其详细数据信息如表4所示。

对于阅读理解数据集中的数据，其给定的答案大多来源于某一段落，由于本文主要针对句子级问题生成任务构造迁移学习数据集，为了控制数据集中的数据长度分布能契合迁移学习的第二轮任务，使模型迁移学习的效果达到最佳，本文仅抽取包含答案的那一句话作为陈述句(80%)。同时，为了增强模型对长文本信息的处理能力，本文额外补充了部分段落级数据，在抽取数据时将整个段落作为陈述句(20%)。最后，本文将其构造为(陈述句，目标疑问句，答案)三元组。

5 实验配置

5.1 实验数据集

本文在SQuAD[1]数据集上验证所提方法的有效性，该数据集包含536 篇维基百科文章和100k的问答对，并且要求答案是段落的一部分。本文使用前人基于SQuAD阅读理解数据集划分的句子级问题生成数据集进行实验，具体实验数据如表5所示。

表5 SQuAD数据统计

•split1Du等[8]将SQuAD中公开的所有数据随机划分为训练集(80%)、开发集(10%)和测试集(10%)。

•split2Zhou等[11]将SQuAD的训练集作为该任务的训练集，将SQuAD的开发集随机划分为开发集(50%)和验证集(50%)。

5.2 超参数设置

本文基于unilm1.2-base-uncased模型(12-layer，768-hidden，12-heads)进行微调。在ARQG上进行第一轮微调时，batch_size设置为256，学习率设置为1e-4，陈述句和目标疑问句的最大长度分别设置为412和56。在SQuAD上进行第二轮微调时，batch_size设置为48，学习率设置为2e-5，陈述句和目标疑问句的最大长度分别设置为192和42。两轮微调中，噪声比例ρ设置为0.4。

5.3 评价指标

本文使用BLEU[25]、METEOR[26]及ROUGEL[27]来评价生成的疑问句，使用现有开源的评价方法包计算上述值。BLEU用来评价候选文档在一组参考文档上的平均N-gram 精度，并对过短的句子进行惩罚。BLEU-n表示计算 BLEU值使用N-grams统计共同出现的次数，常用计算值BLEU-1、BLEU-2、BLEU-3和BLEU-4。METEOR是一种基于召回率的评价指标，通过考虑同义词、词干和释义来计算生成的句子和参考答案的相似度。ROUGE(Recall-Oriented Understudy for Gisting Evaluation)是一种面向n元词召回率的评价方法。本文使用ROUGEL进行评价，该值基于最长公共子序列统计共现词次数。

6 实验结果与分析

6.1 性能对比分析

为了验证本文方法的有效性，我们与以下问题生成模型进行比较：

(1)Du等[8]从SQuAD中抽取问答对构造为split1数据集(未使用目标答案)，使用基于注意力机制的端到端模型解决答案不可知问题生成任务。

(2)PLQG[28]是一个基于端到端架构的模型，使用自注意力编码器和指针解码器来增强模型对较长文本的处理和信息捕获能力。

(3)BERT-HLSQG[6]修改了BERT模型，并将语料中的答案信息高亮表示出来，将其应用于答案可知的问题生成任务。BERT-HLSQG是当前句子级问题生成任务的最高性能模型。

表6列出了上述方法和本文方法在答案不可知任务上的实验性能，表7列出了上述方法和本文方法在答案可知任务上的实验性能。

表6 答案可知任务实验性能对比表

表7 消融实验结果表

实验结果表明，本文方法在各类评价指标上均超过基线并达到最高。Du等[8]和PLQG[28]用传统RNN模型解决问题生成任务，并且使用强制学习方法训练模型，这种训练方式容易出现暴露偏差问题。同时，模型在单一语料上的学习能力十分有限，使其无法更好地理解文本中的语义信息并生成高质量疑问句。BERT-HLSQG[6]虽然使用了预训练模型BERT，在一定程度上加强了模型对语义的理解，但在其工作中可以发现，该模型仍然使用强制学习方法训练模型，使得模型在预测时无法生成质量较高的问句。

本文在UNILM-V2模型的基础上进行实验，抛弃一般RNN模型所使用的强制学习训练方法，在生成目标中使用真实值、噪声随机混合的训练方法，以缓解预测阶段的错误信息对其后生成信息的影响。如表6、表7所示，在答案可知的问题生成任务中加入噪声时，模型在split1数据集上BLEU_4、METEOR和ROUEGL分别达到了19.98%、23.47%和48.85%，模型在split2数据集上BLEU_4、METEOR和ROUEGL分别达到了21.78%、24.23%和50.33%；在答案不可知任务中加入噪声处理后，BLEU_4、METEOR和ROUEGL分别达到了17.7%、20.99%和44.64%。由此可见，噪声处理能增强模型发现错误的能力，并减轻该错误对实验结果的影响。

此外，本文在预训练模型UNILM-V2的基础上进行训练，并额外补充了大量高质量问答数据以进行迁移学习，如表6、表7所示，当在答案可知的问题生成任务中加入噪声处理并使用ARQG数据预先进行一轮微调时，模型在split1数据集上BLEU_4、METEOR和ROUEGL分别达到了20.31%、23.66%和49.30%，模型在split2数据集上BLEU_4、METEOR和ROUEGL分别达到了21.95%、24.37%和50.20%；当在答案不可知任务中加入噪声处理并使用ARQG数据预先进行一轮微调时，BLEU_4、METEOR和ROUEGL分别达到了17.90%、21.02%和44.76%。由此可见，ARQG数据对答案可知与答案不可知两个问题生成任务有明显的性能提升。

最后，本文在split1上不使用答案信息进行消融实验，本文选取UNILM-V2作为基线模型，具体结果见表7。在分别使用噪声暴露的强化训练方法(+noise)和使用ARQG数据集进行迁移学习(+ARQG)的情况下，模型性能较基线模型均有所提升。在将二者结合的情况下，模型性能达到最佳。因此，本文方法是有效的。

6.2 噪声处理分析

为了验证本文所提噪声处理方法的有效性，并找到模型训练时真实值与噪声的最佳比例，我们在SQuAD语料上对超参ρ的取值进行了实验，实验结果如表8所示。

从实验结果中可以看出，加入噪声机制之后，模型性能均有部分提升，不同的噪声比例对模型性能提升的影响不同。实验发现，在ρ取值为0.4时，实验性能达到最高。在对实验生成的疑问句与目标疑问句进行对比分析后发现，加入噪声的模型在生成疑问句时能较好地解决暴露偏差问题。即使在预测阶段出现了一些生成错误，在之后的时刻，模型的注意力也不会过多地关注上一阶段生产的词汇，从而有效地忽略该错误以减轻这个错误对之后生成阶段的影响。

表9中给出了一些加入噪声之后模型对有效解决暴露偏差问题的样例。在例1中，基线模型在生成“what”之后错误地生成了“was”和“the”，并将该错误信息传递到了之后生成的每一个阶段，使得模型一错再错，生成几乎完全错误的疑问句。在加入噪声处理后，虽然模型仍生成了错误信息“was”和“the”，但由于本文在训练过程中就强调了模型对错误信息的判断能力，使得模型可以发现上一阶段的错误，并正确地生成“new name”。并且，在此之后模型也能判断出生成信息中的错误部分，进而生成正确信息“the media day”。同样地，在例2中，模型能很好地忽略错误信息“regions are the”，并生成相比于基线模型质量更高的疑问句。

表9 噪声处理对解决暴露偏差有效的样例

6.3 ARQG数据分析

预训练模型UNILM-V2是在大规模未标注语料上进行训练得到，为了使其模型中蕴含的通用语义表示能更好地适应问题生成任务，本文构造了一个针对问题生成任务的迁移学习数据集ARQG。该数据集中包含来源于答案选择任务和阅读理解任务的大量高质量问答对，对问题生成任务天然适配。其次，该任务中存在不同长度量级、不同领域、不同数据形式(答案可知和答案不可知)的数据，将该数据集作为源语料进行第一轮微调时，可极大地丰富模型对长短文本的关键信息捕捉能力、对不同领域数据的文本的语义理解能力，以及对问题生成中不同任务的处理及生成能力，从而使模型能在目标领域中学习得更好。

本文使用两轮微调的方式验证ARQG数据集对问题生成任务的有效性。如表10所示，本文在三种不同数据上进行实验，先使用ARQG数据进行第一轮微调(不加噪声处理)，之后再在目标数据集上进行第二轮微调。实验结果显示，在ARQG数据集上进行微调后，答案可知和答案不可知的问题生成任务相较于基线都有部分性能提升。由此可得出结论，即使模型无任何改动，仅仅使用ARQG数据集进行迁移学习，模型的性能仍能有所提高，验证了迁移学习的可行性和ARQG数据集在问题生成任务上的有效性。

表10 ARQG数据集有效性对对比

7 总结与展望

本文在答案可知和答案不可知的问题生成任务上进行实验，验证了本文所提噪声处理方法可相对缓解暴露偏差问题，并证明了模型在本文构造的ARQG数据集上进行迁移学习，可使得模型在目标数据集上学习得更好。

未来的工作中，我们将针对暴露偏差问题进行进一步的研究。当前模型虽能缓解该问题，但在实际应用中，这种处理方法容易出现语义歧义问题。如标准疑问句为“如何使用筷子吃饭？”，在传统RNN模型中，可能会生成“如何使用剪刀剪发？”这种错误问句；加入噪声处理后，模型可能会意识到“剪刀”这个错误，从而生成“如何使用剪刀吃饭？”这种具有语义歧义的问句。此外，使用外部数据进行两轮微调的方法在实际应用中也会出现效率较低的问题。在之后的工作中，我们将着重研究如何解决以上两点问题，使模型在实际应用中能高效地生成高质量疑问句。