APP下载

基于孪生神经网络的行文一致性测评研究

2022-06-14刘杰张文轩李亚光张逸超周建设

北京理工大学学报 2022年6期
关键词:人物性格行文一致性

刘杰,张文轩,李亚光,张逸超,周建设

(1. 首都师范大学 信息工程学院,北京 100048;2. 北方工业大学 信息工程学院,北京 100144;3. 首都师范大学 中国语言智能研究中心,北京 100048)

如何对行文内容进行提取、评测是作文评测研究的重点. 以人物记叙文为例,其写作任务是结合某一类人物的性格特点、故事情节,由此完成以人物形象为主旨的作文写作. 其中人物形象主要由人物外貌、语言、动作、故事场景等要素构成,同时突出核心人物的人物性格. 所以具体到行文一致性判别任务,则需要结合全文和各个具体的描写片段信息,从多个角度对人物形象的构成要素进行提取与评测,是一个多维度的评测任务.

现有用于作文评测任务的方法,所抽取的文本信息主要是文本的浅层特征. 虽然能实现以语料库驱动的针对文本句式句群、用语习惯和词语搭配的测评,以及全文主题的分类,主题词、特征词的提取,但准确性无法达到本文这一复杂任务的要求. 对于这种篇章级别的评测任务,目前的篇章级行文一致性度量模型仅考虑待测作文的全文行文一致性,对于文本详细的语义块之间的一致性没有予以考虑.而人物类作文需要考虑作文中人物形象、性格、故事,三者的一致性. 比如:描写性格慈祥的母亲不能用勇敢的故事去衬托她;正义行为的刻画与负面外貌的描写具有矛盾性. 因此,行文一致性不仅需要对全文的主题进行判断,还需要判断作文语义块之间的语义一致性. 通过对全文、段落、语句的联合,更加准确的完成行文一致性的评测.

针对上述问题,本文提出了一种测评行文一致性的孪生匹配网络(Match_Net_Siamese)模型. 首先,对待测作文的全文主题进行主题提取,即分别通过对人物性格形象描写与事件描写进行语义特征建模,并利用神经网络的方式完成两者关系的对应训练.其次,判断是否出现了内容主题不一致的情况,即人物形象特征、性格、故事情节三者描述内容要一致,共同突出一个作文主题,最终对全文进行行文一致性评分.

另外,在数据处理和实验过程中,针对外部数据库依赖以及TF-IDF 文本向量的稀疏性问题,本文使用无监督的Biterm-LDA 模型进行文本事件主题提取,从而解决对手工标注的依赖.

目前,国内对于作文自动测评的研究主要集中在对汉语写作教学软件的研究与设计[1],以及高考作文自动评分方面. 这些研究主要采取自然语言处理技术,抽取待测作文中的文本信息,通过监督型机器学习模型,将其转化成分类或回归问题,实现作文的评级或评分. 在这些研究中,用于作文评测所抽取的文本信息主要是文本的浅层特征,比如关键词逆文档频率信息、句法结构,与词性信息、分级词汇频率等,这是鉴于自然语言处理领域中利用浅层文本特征实现文本分类/回归任务的方法. 另外,有研究运用了机器学习、计算语言学的诸多技术,实现了文本主题聚类和分类,并在此基础上生成了话题词表及常用句型语料库,从模型选择和词多样性特征抽取两个方面研究作文自动评分技术. 或者利用作文中的排比、比喻等修辞手法以及诗词引用来表征作文的文采. 付瑞吉等[2]提出一种基于卷积神经网络(CNN)和双向长短时记忆(BiLSTM)网络的混合神经网络结构进行中学生作文的优美句识别,并和CNN、BiLSTM 网络进行了对比. 实验证明,混合神经网络的准确率最高. YANG 等[3]针对作文自动评分任务,首次引入BERT 并提出采用多个损失函数来进行. 使用排序损失函数进行度量学习,同时加入回归损失函数进行互补. KUO[4]研究表明Bi-lstm 在进行作文隐喻检测任务上的有效性,证实了其性能优于传统的线性分类模型. MAYFIELD 等[5]提出模型的优劣不仅需要考虑其性能也要考虑模型所需要的人工成本以及算力成本,针对作文自动评分任务把传统算法与BERT 进行综合比较,结果表明虽然BERT 性能达到了最佳,但其花费了传统算法100 倍的时间进行计算,同时相比传统算法提升的性能不超过5%. 因此针对作文自动评分任务,传统算法在计算成本与时间成本上仍具有一定的优势. 深度学习方法则在性能提升上更有优势. 以上研究对作文自动评分任务的发展起到积极的推进作用.

针对行文一致性评测任务,需要获取篇章级别的语义特征. 目前现存的篇章级行文一致性度量模型主要有基于修辞结构理论的方法[6],以及基于中心理论的方法[7]. 这些方法从统计学的角度定义了篇章级实体出现的句法角色及其转换频率与全文行文一致性的关系,并假设优质的作文中实体间的转换关系一定满足在训练集上学习到的关系,因此建立概率模型度量未知文本的行文连贯程度. 最终,研究者利用人工文本一致度评分与模型打分的相关程度度量模型的有效性.

以上的研究虽然能实现语料库驱动的针对文本句式句群、用语习惯和词语搭配的测评,也可以实现对于全文主题的分类及主题词、特征词的提取,但对于本文所提出的复杂任务还无法达到所要求的准确性. 对于新闻推荐任务,需要同时考虑实体之间的关联信息和深层次的语义联系[8]. 对于作文行文一致性判断认为,需要同时判断作文整体一致性和作文语义块之间的语义一致性. 对于人物类作文,需要同时考虑作文中人物形象、性格、故事,三者的一致性:描写性格慈祥的母亲不能用勇敢的故事去衬托她;正义行为的刻画与负面外貌的描写具有矛盾性. 因此,人物类作文行文一致性分析包括作文表层的主题一致性、情感一致性、人物性格和事件的一致性,其原理是一样的,因此方案都是相同的,都需要(情感−全文)、(主题−全文)、(人物性格−故事描写)、(事件话题−事件描写)的对应建模.

基于以上分析,本文提出了一个全新的无监督模型,实现了作文行文一致性测评任务. 模型构建使用了孪生神经网络结构,实现了抽象语义层面的作文人物性格形象特征与故事描写特征的相似度度量.

1 行文一致性判别模型

1.1 作文的中心思想提取

如何提取作文的中心思想特征是一个重要挑战.本节通过对作文的中心思想部分出现的规则、形式、位置进行分析,创新性地提出了一个作文中心思想提取的解决方案.

一般来讲中心思想信息(人物性格形象)基本可以从直接的关键词、关键搭配的匹配技术以及间接的文本语义推理技术获得,但由于作文中对核心人物的部分性格描写可能比较隐晦,关键词搭配的直接抽取不能获得与核心人物性格有关的全部信息.因此本文提出使用语义逆向推理技术,将核心人物相关段落转化为人为设置的性格类型分布,从而作为性格关键词的补充,二者结合形成人物性格特征.除此之外,与核心人物有关的外貌描写可能也与人物形象相关. 因此,本文从4 个方面完成对作文核心人物的性格形象特征(即中心思想特征)的提取:关键人物出现的频率;与核心人物相关的外貌描写匹配;显示性格关键词;隐式性格特征.

具体地,为待测作文抽取中心思想特征时,需要完成以下流程.

1.1.1 关键人物出现频率

本文通过构建人物-代词元组序列,以及代词的上下文环境,将每个代词映射到一个人物类别上,最后为作文中出现的所有人物按出现频次排序,出现最高频次的人物即设定为本文所描写的核心人物.

1.1.2 核心人物的外貌描写

通过人工遴选的方式选取了共计186 个频率较高的外貌类名词,作为选取外貌搭配的种子名词. 合并表1 中无标签训练集和验证集的所有文本,在这些文本中抽取所有频次大于30 的外貌搭配. 利用LTP 语言云平台按照固定句法模式抽取文本中所有固定的搭配,构建外貌搭配字典. 最终获得了共计98 个有信息价值的外貌搭配. 之后抽取每篇作文核心人物出现的句子中所包含的外貌搭配,使用TFIDF 进行文本表示,从而作为文本的外貌搭配特征.

表1 数据集信息Tab. 1 Dataset information

1.1.3 显示性格关键词

通过人工遴选的方式获得了共计682 个频率较高的性格词语,形成本题所需的性格列表. 对性格词进行同义词与近义词扩展,在此使用哈工大同义词林工具识别性格词库中的同义词/近义词信息. 哈工大同义词林可以计算两个中文词语间的语义相似度,本文取阈值=0.9,规定相似度在此阈值之上的两个词互为近义词,若相似度为1 则为同义词. 最终获得了所有性格词的同义词/近义词列表. 记性格词c对应的近义词列表为:S imlist[c]={(j,sim(c,j))}j∈{1,2,···,682} 其 中sim(c,j)为词语c和j在同义词林中的相似度. 之后抽取每篇作文核心人物出现的句子中所包含的性格关键词及其搭配作为对文本有价值的性格词特征.

1.1.4 隐式性格特征

本文采用Biterm-AT 模型[9]作为隐式性格特征向量抽取的模型工具. 首先,从核心人物出现的语句中,通过间隔 Collapsed Gibbs Sampling 方法多次采样获得每个词的标签分配向量,再将多次采样获得的标签分配向量取平均值,接着通过公式(1)对抽取到的标签分配向量进行平滑.

式中:nd为多次采样后标签a 平均出现的次数;α为线性平滑因子,本文将其设为0.001,最后获得了33(总标签数)维的概率分布向量.

由于全体标签中包括了人物类别和性格类别的标签,而此时已经根据关键人物列表提取了文本中所有出现的人物频率,所以不再需要人物类别的概率作为特征. 因此,这一步中需要过滤掉所有人物类别的分布概率,只保留余下 18 维性格类别对应的概率即可. 最后重新归一化这18 维的性格类别向量,形成最终的隐式性格特征向量.

根据上述的步骤从待测作文中提取中心思想,即核心人物特征向量,涵盖了对人物类别、外貌、显示性格关键词与隐式性格的逆向推理的特征提取过程,这四步分别提取了77 维、132 维、682 维和18 维的特征信息,最后,拼合这部分向量,获得描述作文核心人物特征的909 维向量. 在此后的模型训练与预测中,针对所有作文均应用人物性格向量进行核心人物形象的形式化定量表示.

1.2 作文故事段落文本提取

作文行文一致性评测主要评测作文的中心思想以及作文内容的一致性问题. 因此除中心思想(人物性格形象)外,行文还需要对作文其他部分进行特征表示,这些部分包括主要人物出现故事描写特征以及作文整体的主题特征.

1.2.1 故事描写特征

首先,利用LTP 工具,对表1 中所示的标注训练集_L 中包含7 600 多篇仅标注了人物类别的作文进行分词和词性标注,过滤掉性格词库中所有性格关键词,最后利用TF-IDF 文本表示方式将集合中所有的文本表示为TF-IDF 向量形式. 由于每篇文本均对应一个人物类标注,因此,可以利用卡方特征选择方法选取最重要的前5 000 个单词作为事件类的关键词,对于每篇作文,将其转化为TF-IDF 向量表示,如此则获得了 5 000 维的文本TF-IDF 向量.

1.2.2 作文主题特征

LDA 模型是基于机器学习的一种无监督学习方法,该方法通过在单文本层面获取共现词对以实现主题挖掘[10]. 本文利用Biterm-LDA[11]进行主题建模,抽取核心人物出现的故事段落的主题分布. 此模型结合了LDA 的单文本主题建模能力与 BTM 短文本主题建模质量的优势. Biterm-LDA 模型可以实现对训练集文本的主题概率建模、逆向推理主题-词多项式概率分布、以及对测试集中未知文本的主题分布的后验推理等任务. 训练主题模型的超参数设定为α=0.1,β=0.01,主题数K=180.

使用上述主题抽取方案为所有与核心人物相关的目标文本抽取后验主题向量特征,特征维度为180 维,将这部分特征与TF-IDF 向量拼合,形成最终的作文故事段落文本的特征量化表示.

1.3 行文一致性判别模型

在本文所述的作文特征提取方案中,针对作文的人物性格形象描写和故事描写段落分别抽取了特征向量,本节将讨论如何利用这两部分的数据构建模型,完成对行文一致度的判别,即本文提出的Match_Net_Siamese 网络.

针对作文的人物性格形象特征与故事特征的语义级对应问题,设计了直接应用神经网络模型实现人物性格形象特征与故事特征之间的对应关系训练.本模型设计的动机是将同一篇作文中的人物性格形象描写向量与故事描写向量映射到相近的抽象语义空间内,而不同人物对应的故事描写向量与该篇作文的人物性格形象向量在映射后,会出现较远的距离.

图1 展示了本文所提出的Match_Net_Siamese 神经网络模型的示意图.

图1 中,左下角部分为从每篇文本中抽取的人物性格形象向量(中心思想),右下为从每篇文本中抽取的故事描写向量,在网络的第一层,这两个向量分别被线性映射激活. 由式(2)给出.

图1 Match_Net_Siamese 模型示意图Fig. 1 Match_Net_Siamese model diagram

式中Wl_1_fig为第一层对人物性格形象向量进行线性映射的矩阵,形状为[200,820];Xi,fig为输入的人物性格形象向量,此后经过激活函数激活,得到200维的人物抽象特征,记为Layer_1_fig.

与此同时,故事向量同样被矩阵Wl_1_story线性映射至一个200 维的空间,Wl_1_story形状为[200,5 180],之后经过激活函数激活. 激活后的抽象故事特征记为Layer_1_story. 在第一层中,网络不共享参量,对人物性格形象向量与故事向量的映射过程彼此独立.

网络的第二层实现利用同一组的参数,将人物抽象特征与故事抽象特征映射到同一欧式空间内,对人物抽象特征与故事抽象特征的计算用同一个映射矩阵W_C和偏置b_c,其中W_C维度为[75,200],b_c为列向量,维度为75. 如此,最初的每一对人物形象性格向量与故事描写向量被映射到同一个欧式空间内. 在这个空间中,网络优化的目标是使来自同一篇文本内的人物形象性格向量与故事描写向量邻近,使来自不同核心人物的作文人物形象向量与故事描写向量的距离而疏远.

图1 的模型中,本文首先将维度不同的人物形象向量与故事描写向量映射到同一维度,再使用一层共享权值的神经网络进行最终的抽象特征提取,最后,再在最终的抽象特征空间计算样本的相似度,后面的网络权值共享、相似度度量与优化的设计参考了孪生神经网络(Siamese neural network, SNN)模型. 网络的损失函数如下:

式中:Xi,fig为训练集中第i篇作文的人物性格形象特征向量;Xi,st为训练集中第i篇作文的故事描写特征向量;Xj,st为训练集中第j篇作文的故事描写特征向量,其中,第j篇与第i篇作文的核心人物不同. 下文中,为叙述方便,将彼此对应的人物性格特征向量与故事向量称为正例,否则为反例. 实际训练时,输入数据为3 个向量,前两个为对应的人物性格特征向量与故事特征向量,然后再从与该篇作文核心人物不同的所有作文中随机取出一篇,取其故事描写特征向量,组成一组训练数据. 这组数据经两层网络映射后,使用式(3)可以计算出它的损失. 其中,β为正例损失强度稀疏,Ffig、Fst分别指将原始人物性格形象特征/故事描写特征映射至网络最后抽象层的函数. cossim 函数是向量余弦相似度函数,公式如(4).

公式(3)中的损失来源于两部分,公式(3)右边第一项为正例损失,第二项为负例损失. 需要说明的是,如果训练数据中来自不同的核心人物的人物性格特征与故事特征向量在最终的抽象向量空间内余弦相似度≤0,则不做惩罚,这类似于“不敏感代价”的处理方式,实践中发现如此设计可以一定程度上具有抗过拟合的效果.

为考察本文所使用的Match_Net_Siamese 模型中,第二层孪生网络的设置是否确实能提高网络判别的准确性,这里还设计了普通的映射网络模型与其做对比实验. 图2 展示了没有孪生网络参量的Match_Net_Vanilla 模型示意图.

图2 Match_Net_Vanilla 模型示意图Fig. 2 Match_Net_Vanilla model diagram

该网络与Match_Net_Siamese 的区别在于第二层到第三层抽象特征的映射中,网络不共享权值,对抽象的人物/故事特征分别以各自的网络第二层参数进行线性映射后激活,激活后的特征为最终的抽象语义特征.

1.4 Match_Net 的参数设定

在Match_Net_Siamese 模型中,本文使用0.000 6作为学习率,对于Match_Net_Vanilla,使用该模型能够达到最好效果的学习率0.000 5. 两个模型选择的批大小为64,模型在一次优化训练中处理32 个正例和32 个反例. L2正则化向参数Lamda 选择为5×10−5,训练轮次为20,并使用指数下降法动态调整学习率,设置折损率decay_rate 为0.8,即每个学习轮次后将学习率折损0.8 倍,动态的学习率有助于更好地调节训练步长,使得模型训练易于收敛,避免在损失函数的局部极小点进行剧烈震荡.

2 数据与人工评分方案

2.1 数据集

本文使用了大约7 000 篇作文作为机器学习模型的训练、验证,这部分文本均有人物类别标注. 此外,为挖掘人物性格与主题间的对应关系,本文将其中一部分文本进行了性格标注,每篇文本的核心人物类别限制在1 个,但性格类别可以是多个,所以这是一批多标签的文本集合. 除此之外,为训练无监督的主题模型,本文收集了大约4 万篇无任何标注的作文,用于无监督主题模型的训练和测试. 模型验证集中含有401 篇人工行文一致度评级后的作文,本文将利用模型验证集,对最终的行文一致性测评模型的通用性、可行性和准确性进行评估.

2.2 人工评分方案

在模型验证集的标注中,课题组请领域专家(中小学语文教师)将401 篇作文按其行文一致度分为4个等级,标注从教师测评的角度,考虑作文中的人物性格形象与故事描写是否对应,故事描写是否以作文核心人物为中心,围绕核心人物展开、突出体现核心人物的性格特点,并且没有跑题.

每个等级的意义如下:

6 分:跑题或人物与事件无明显对应关系,事件描写离题,全文出现了多个人物不分主次.

7 分:人物与事件有对应关系,但人物性格不突出,事件描写太简略或冗杂,部分事件描写离题.

8 分:事件能体现核心人物的性格,能紧扣全文主旨进行事件写作. 全文基本能做到重点突出、内容具体.

9 分:事件紧扣核心人物的性格形象展开,突出人物的重点性格,细节周到、详略得当、层次分明,很好地刻画了核心人物.

以下给出标签信息,总计标签类别为15 类人物和18 类性格标签. 表2 和表3 中列举了这33 类标签的信息.

表2 人物标签信息Tab. 2 Figure label information

表3 性格标签信息Tab. 3 Disposition label information

实验在每次决定神经网络模型输入时随机抽取反例样本,训练/测试集比例为8∶2. 为真实地评估两个模型的泛化性能,在此采用五折交叉验证. 训练和验证时,对每批正例样本对随机选取负样本,而测试时,使用模型对测试集文本进行打分,并使用真实标注验证模型效果.

3 实验结果及分析

3.1 模型评测标准

本文将分析在无行文一致性评级信息的条件下,模型对于测试集上的正例样本和模拟生成的负例样本的分类性能. 对于每一对人物性格形象特征与故事描写特征,式(4)给出了两者在模型抽象语义空间内的余弦相似度,据此可实现模型对每一对特征主题是否一致进行分类. 本文以准确率(Precision)、召回率(Recall)及F1值作为评测标准. 此外,还为模型验证集中的401 篇文本,依据模型输出进行行文一致度打分,因此可对比模型评分与真实评分的拟合度.

3.2 两种Match_Net 行文一致性判别的二分类实验结果

本文在相同训练集与测试集上完成了对两种Match_Net 的训练和测试. 在此二分类实验中,以同篇作文中的人物性格特征与故事描写特征作为正例样本,以随机的不同作文中两部分特征作为负例样本,在一次实验中使用约 2 800 对样本对模型进行二分类测试. 其中,分类阈值取最大化模型测试集上真阳比例-假阳比例的值. 表4 和表5 分别给出了2 种模型在五折交叉验证后测试集上的平均分类结果.

表4 Match_Net_Vanilla 的分类实验结果Tab. 4 Classification experiment results of Match_Net_Vanilla

表5 Match_Net_Siamese 的分类实验结果Tab. 5 Classification experiment results of Match_Net_Siamese

图3 和图4 分别给出了两种Match_Net 模型的受试者曲线(receiver operating curve,ROC)测评结果,受试者曲线是在二分类任务中,利用逐步降低正例分类阈值对假阳性样本概率和真阳性概率进行统计后绘制出的从坐标(0,0)到(1,1)的曲线.

图3 Match_Net_Vanilla 的受试者曲线Fig. 3 Receiver operating curve of Match_Net_Vanilla

图4 Match_Net_Siamese 的受试者曲线Fig. 4 Receiver operating curve of Match_Net_Siamese

3.3 模型评分与真实人工评分的拟合度评测结果

为实际检验模型对于真实情况下待测作文行文一致性评级与真实人工评级的拟合度,本文利用已经训练好的模型进行实际评分,再将模型评分与人工评级作对比,以此检验模型在真实待测作文上的表现. 本文在表1 中列出了模型测试集信息. 其中人工评分分为6~9 四个等级,分别对应4 种行文一致性的符合程度. 公式4 的应用对象为人物性格形象向量与故事描写向量在模型处理的最后一层得到的抽象特征,依此公式可以得到待测作文人物性格形象描写与故事描写的余弦相似度,在−1~1 之间.

模型测试时,首先,抽取测试集中401 篇作文的人物性格形象特征与故事描写特征向量,然后计算这 401 对特征向量的余弦相似度,最后在除去离群的过大值和过小值后,根据其余相似度值的最大值和最小值,将这401 个余弦相似度值线性地映射至5.5~9.5 分之间,取其四舍五入后的整数作为模型的最终评分. 表6 和表7 分别给出了测试集上两种模型最终评级与人工评级的分类测试结果.

表6 Match_Net_Vanilla 的行文一致度评级结果Tab. 6 Rating results of writing consistency based on Match_Net_Vanilla

表7 Match_Net_Siamese 的行文一致度评级结果Tab. 7 Rating results of writing consistency based on Match_Net_Siamese

图5 展示了测试集中部分作文的行文一致性最终评测结果与人工标注的评级结果间的对比,其中,横坐标为评测算法最终给出的输出,是介于5.5~9.5 之间的连续实数,纵坐标为人工评级,分为6~9四个离散的整数.

图5 行文一致性评级结果可视化展示Fig. 5 Visual display of writing consistency rating results

3.4 实验结果分析

从两种Match_Net 对于行文一致性判别的二分类实验结果可以看出,共享网络第二层参量的Match_Net_Siamese 模型在平均准确率、召回率和F1值3 种测评指标上均优于不共享网络参量的Match_Net_Vanilla 模型. 共享参量的网络能够有效地降低过拟合对实验结果的损害,因为参量共享后网络的整体参量数降低,在网络第一层映射后,可以利用更少的参量提取文本更抽象特征,取得更优的效果.

从图3 和图4 可以看出,两种网络的训练结果均比较稳定,体现在ROC 具有比较高的重合度与AUC 的低标准差. 此外,共享网络第二层参量的Match_Net_Siamese 模型的AUC 值比较明显地低于无参量共享的Match_Net_Vanilla 模型,验证了使用Siamese 共享变量网络可以在本任务文本数据集上有效地提高模型的预测(判别)准确度.

据模型评分与真实人工评分的拟合度实验结果可知,按上述算法将模型对于人物性格形象特征与故事特征的抽象语义级相似度输出,通过Match_Net_Siamese 模型输出后再进行线性映射、四舍五入的方法,即可获得约84%的精准率和约83.5%的F1值,这个结果与普通神经网络结构的模型Match-Net-Vanilla 相比具有比较明显的优势. 模型测试集中6分作文较少,仅有9 篇,8 分作文较多,共计218 篇,7分和9 分作文的数量基本一致. 从实验结果上来看,利用Match-Net_Siamese 模型通过简单的线性映射获得的最终评级结果,与人工标注结果多数一致,在8、9 分作文中获得了比较高的准确率和召回率. 在6、7分作文中出现了一定的评分偏低的问题,但对于大多数高分作文均可以准确分类. 而基于普通神经网络结构的Match_Net_Vanilla 模型虽然对测试集中的模拟数据二分类结果尚可,在对于真实作文的评级实验中,难以取得较优的分类结果.

图5 中的4 个灰虚线矩形框内分别为4 类评级作文中分类正确的样本点,黑色样本点为分类错误的样本点. 可以看出,最终的评测算法能将多数8、9分作文准确分类. 对于部分作文,算法有评分偏低的倾向,这将在以后的研究中做进一步调整.

实验结果表明,引入孪生神经网络结构的Match-Net 模型在分类正确率、召回率、F1值指标上均优于普通神经网络模型. 且在该方案中,本文仅通过无监督的方法制订了从模型训练到实际应用的算法流程,在保证基本准确率的条件下解决了对人工标注数据的依赖的问题.

4 结 论

本文提出了一种评测作文中行文一致性的实现方法. 首先分别使用了无监督的Biterm-LDA 主题模型做事件主题抽取,使用了有监督的Biterm-AT 主题模型对全文核心人物出现的语句进行逆向性格特征推理. 然后利用本文的Match_Net_Siamese 模型将两部分特征进行相似度计算得到作文的行文一致性分数,并且利用自动评估和人工评估来衡量它的性能.实验结果表明,本文所提出的作文行文一致性测评方案在正确率、召回率、F1值指标上均优于普通神经网络模型,可适用于以下条件的作文行文一致性评测:作文的表现形式以中心思想为核心,其他部分围绕着中心思想展开并紧扣中心思想. 当然,还需要该类型的作文能用中心思想特征和其他作文部分特征来表示,并且表示的特征间具有一定的统计学规律,那么,仍可以用Match-Net 模型实现作文中心思想与其他辅助性段落的抽象语义级对应.

下一步工作将尝试更多的行文一致性测评方案,比如如何在弱监督条件下,通过一个深度学习/机器学习模型完整地获取文中的中心思想与辅助性故事特征表示,再实现行文一致度测评,这将可以直接根据模型的损失函数优化作文两部分内容的特征表示,也减少了对上游模型特征抽取或人工特征抽取的依赖.

猜你喜欢

人物性格行文一致性
商用车企业的3C零部件一致性管控新模式
离散异构线性多智能体系统的输出一致性
商用车CCC认证一致性控制计划应用
基于Paxos的分布式一致性算法的实现与优化
作文指导教学尝试与思考
《锦衣少年行》周行文:没有能与不能,只有想与不想
强化指导教学,提高学生作文水平
浅析《呼啸山庄》中环境对人物性格的影响
《水浒传》中的英雄与酒
解读《愤怒的回顾》中吉米愤怒的原因