基于文本挖掘的上市公司财务风险预警研究

2022-03-02梁龙跃

计算机工程与应用 2022年4期

梁龙跃，刘波

1.贵州大学经济学院，贵阳550000

2.贵州大学马克思主义经济学发展与应用研究中心，贵阳550000

随着经济全球化的发展，上市公司在实际运营中的竞争日益激烈，企业为了开辟新的利润空间，选择了多元化的投资经营方式，这在一定程度上促进了企业的持续发展。但在此过程中，一些公司缺乏财务风险的意识，使得发生财务危机的可能性增加。对于公司管理层来说，一旦公司发生财务危机，就会面临无法偿还债务、使得公司陷入破产的风险。对于投资者来说，公司发生财务危机会带来巨大的投资风险。因此，能够正确预测公司是否发生财务危机对于公司管理层和投资者来说具有重要的意义。一方面，公司管理层可以借此改变经营策略，防止公司陷入财务危机。另一方面，投资者可以了解企业的生存能力，及时规避投资风险。此外，正确预测企业财务危机，也有助于政府管理部门及时防范证券市场风险。

国内外学者先后使用不同的财务指标，针对不同的行业建立了不同的财务风险预警模型，但传统的预警模型通常基于上市公司的财务指标数据，而没有考虑财务文本与财经新闻等非结构化的文本数据，这些文本数据包含了大量的定性信息。Tennyson等[1]指出了财务文本信息对公司破产预测的重要作用，如上市公司年报中“经营情况讨论与分析”和“审计报告”章节的部分文本内容确实可以为公司财务风险预测提供增量信息[2-3]。“经营情况讨论与分析”一节对公司过去一年的经营情况做了一个总结性的陈述，同时对公司未来的发展做出了规划，而“审计报告”内容能够为政府和投资者了解企业真实的财务状况和经营成果提供依据，但是如何从中抽取有助于财务风险预测的信息向来是一个富有挑战性的难题。文本挖掘技术的发展，为分析文本信息提供了新的技术和方法。可以通过文本挖掘技术对文本数据中的定性信息进行量化分析，并将其转化为财务风险预警模型可以识别的文本特征，用于财务风险预测，提高模型的预测能力。

基于此，本文提出一种基于BERT（bidirectional encoder representations from transformer）与自编码器（autoencoder，AE）的文本特征提取融合模型，实现对上市公司年报中“经营情况讨论与分析”和“审计报告”章节文本特征的提取，并将此文本特征用于财务风险的预测，扩展了文本特征在财务风险预测这一领域的研究。此外，本文研究结果表明，加入上市公司年报的文本特征后，财务风险预警模型的预测精度得到显著提升，表明BERT-AE融合模型能够提取出对财务预警有用的文本特征，在今后的研究中，可将其应用于其他领域的文本特征提取。

1 文献综述

1.1 基于财务指标的研究

上市公司财务风险预测一直以来备受业界关注，大多数学者都是基于财务指标数据对其进行研究。Altman[4]运用多元统计分析中的差异分析方法，选取5个财务指标构建Zeta 模型对财务风险进行预测。但建立Zeta 模型有一个假设前提，即样本财务指标数据要呈正态分布，这与现实不相符合。Ohlson[5]以6 项财务指标为控制变量，建立了Logistic模型，其克服了Zeta模型的前提性缺陷并取得更好的预测效果，一度成为财务风险预测的主流模型。

随着机器学习的发展与应用，神经网络、支持向量机（support vector machine，SVM）、决策树等方法也被用来分析财务指标对财务风险预测的影响。较早的研究中，有学者使用不同的财务指标，以基于人工神经网络方法建立了财务风险预警模型，提高了财务风险预测的准确性[6-7]。最近3 年的研究中，方匡南等[8]选取90 个财务指标构建SGL-SVM 组合财务预警模型，同传统的Logistic模型相比较，该模型拥有更优的预测性能。宋歌等[9]以2007—2016年A股上市公司财务数据为研究样本，选取25个财务指标并使用深度学习模型建立上市公司违约预警系统，模型预测精度可以达到72%以上。Wang等[10]选取6 个财务指标，使用C50、CART 和随机森林3 种决策树模型建立财务危机预警系统，发现3个模型中随机森林模型拥有良好的分类和预测能力。以上学者通过构建不同的财务预警模型对上市公司财务风险进行预测，使得财务风险预测领域的研究不断取得突破，但研究都是以公司披露的财务指标数据为基础，忽略了公司披露的财务文本信息。

1.2 文本信息在财务风险预警中的应用

财务文本信息作为公司信息披露的一部分，是对公司当前经营状况以及未来发展前景的详细说明，可以为预测公司财务风险提供增量信息[11]。通常使用文本挖掘技术对财务文本信息进行分析[12]，通过文本挖掘技术提取相应的财务文本特征，用以预测公司未来财务状况。现有研究主要从基于规则的统计方法和深度学习方法实现对财务文本特征的提取。

从基于规则的统计方法来看，国内外学者主要通过构建词典、提取特定短语、词频统计的方法对财务文本进行处理。Hájek等[13]将公司年报中的文本与Hájek等[14]开发的金融字典进行比较，根据语义情绪对单词进行分类，并计算出单词类别的平均权重构建文本情绪指标，用以进行财务困境的预测。谢德仁等[15]参照Henry[16]、Loughran等[17]所使用的单词列表，从所有词语中手工选出正面和负面的情感词语，构建上市公司业绩说明会管理层语调，发现管理层语调能够提供关于公司未来业绩的增量信息。以上构建文本指标的方法均需要手工挑选情绪词，难以适用于对大样本的分析。陈艺云等[18]采用卡方检验的方法提取反映财务困境公司和正常公司的文本特征词构建违约倾向指标，并将此指标加入财务变量中，提升财务预警模型预测精度。但使用卡方检验提取特征词会产生低频词缺陷问题。

随着文本挖掘技术的不断突破以及公司财务风险预警研究领域的深入，有学者使用深度学习模型提取财务文本语义信息，并将其与财务指标数据结合起来用于财务风险预测，以提高模型预测精度。Matin 等[3]运用CNN 和基于注意力机制的RNN（recurrent neural networks）模型提取审计报告与管理层声明的文本特征，发现加入文本特征后的财务风险预警模型取得更优的效果。Matin等使用了CNN-RNN模型对文本特征进行提取，但CNN-RNN 模型在特征提取时存在一些问题。RNN 从输入文本的不同位置学到的同一特征无法共享，且其在进行反向传播时因为传播路径过长容易导致梯度消失或者梯度爆炸。CNN的单层卷积核无法捕获长距离特征，且池化层无法捕获单词的位置信息。这些问题均会使得文本信息丢失。此外，Matin 等的研究没有考虑提取的文本特征维度大小问题，若提取的文本特征维度较高，则不易区分文本特征间的信息，同时在进行财务风险预测时会出现模型拟合速度慢、容易过拟合等问题。针对这些问题，提出了一种BERT-AE融合文本特征提取模型。

BERT模型[19]基于Transformer[20]结构构造了一个多层双向的Encoder 网络，Encoder 层中的参数量相较于CNN 和RNN 模型较少，优化了模型过拟合问题。多层双向的Encoder网络使得BERT模型拥有了获取当前词上下文的信息、语义语法信息的能力，解决了CNN 和ANN只能捕获单一近邻文本语句关系的问题。自编码器（AE）[21]是一种无监督式学习模型，其泛化能力较强，不仅可以解决存在线性关系的数据降维问题，也可以解决存在非线性关系的数据降维问题，它能充分利用高维特征信息的同时解决高维特征所引入的“维数灾难”问题[22]。BERT后接AE组成的BERT-AE融合模型不仅能提取出更为丰富的财务文本特征信息，还能在充分保留文本特征的同时将高维的文本特征降至低维，使得文本特征更容易区分，提高了模型的泛化能力。该模型提取的财务文本特征与Word2Vec-CNN-AE、Word2Vec-LSTM-AE 提取的财务文本特征相比较，结果表明，BERT-AE模型提取的财务文本特征使财务预警模型预测的AUC值的提升效果优于对比模型。

2 研究设计

财务风险预测能够有效地降低风险和损失，国内外学者先后使用不同的财务指标、不同的模型进行预测，并通过对模型不断优化，获得了更好的预测效果。但是，有关此问题的研究仍然需要进一步的深入，例如获取有效的财务文本特征用于财务风险的预测。对此，本文使用文本挖掘技术提取财务文本特征，并将此特征用于财务风险预测。研究设计包含四部分：（1）数据获取；（2）文本特征提取；（3）财务预警模型构建；（4）对比实验。在数据获取中，本文将收集财务指标数据和文本数据，并对财务指标数据和文本数据进行预处理。在文本特征提取中，构建BERT-AE 融合模型提取财务文本特征作为财务指标数据的补充。在财务预警模型的构建中，以Logistic 回归、XGBoost、ANN、CNN 模型为基础，在财务指标中加入文本特征指标，比较加入文本特征前后模型的拟合效果。在对比实验中，分别使用Word2Vec-CNN-AE和Word2Vec-LSTM-AE提取财务文本特征，然后将其加入财务指标中，比较加入文本特征前后财务预警模型的拟合效果。

2.1 数据获取和预处理

2.1.1 财务指标数据获取和预处理

目前国内对企业财务危机没有客观全面的判别标准，本文参照国内学者一般做法，将两个会计年度财务状况出现异常而被特别处理（ST）作为公司陷入财务困境的标志。同时，为了处理数据不平衡对实证结果稳健性的影响问题，以1∶2 的方式对ST 公司与非ST 公司进行配对，并且进行配对的每组3个公司都处于同一行业或相似行业。我国上市公司t年的年度报会在t+1 年公布，因此上市公司在t+1 年是否被特别处理与其在t年年报公布是同时发生的。此时，若使用公司被ST 前一年的数据来预测当年该公司是否会发生财务危机会夸大模型的预测精度，因此将公司发生危机前两年的数据作为预测模型的输入数据。按上述原则，本文选取了2019—2020年新增的177家被ST公司和354家非ST公司作为研究对象，并收集其在2017—2018 年的财务指标数据作为实证分析数据，所有财务指标数据均来自国泰安数据库。

在文献[3，23-24]基础上，本文构建了5个一级财务指标，分别是偿债能力指标、盈利能力指标、经营能力指标、发展能力指标、现金流量指标。在一级指标之下提供了25个财务指标。具体指标见表1所示。

表1 财务指标表Table 1 Financial index

由于各公司披露的财务指标不一致，造成有些公司的财务指标存在缺失值。对于部分缺失值，本文采取了均值插补法对缺失值做补值处理。针对财务指标缺失比较严重的样本，本文样本缺失阈值为30%，当一个样本缺失值超过阈值时，就删除这个样本。统计结果表明样本数据中没有缺失值超过30%的样本，故本文对所有含有缺失值的样本做补值处理。

2.1.2 财务文本数据的获取

本文从东方财富网上获取2017年至2018年相对应的531家上市公司年报，使用正则表达式提取出年报中“经营情况讨论与分析”与“审计报告”这两章节的文本内容进行分析。提取出的财务文本数据为每家上市公司年报中“经营情况讨论与分析”和“审计报告”两个章节中各一条文本信息。其中，提取了“经营情况讨论与分析”章节中“概述”一节的内容，而“审计报告”的内容则全部提取，共包含了531条“经营情况讨论与分析”的文本数据和531条“审计报告”的文本数据。

2.2 文本特征提取

2.2.1 文本特征提取模型的构建

（1）基于BERT-AE的文本特征提取模型

基于BERT-AE 的文本特征提取模型如图1 所示。首先通过BERT 模型提取出财务文本特征，再引入AE神经网络对此文本特征进行降维。该模型在有效提取出财务文本特征的前提下，解决了文本特征维度较高问题。下面分别对文本特征提取模型中两项关键技术（BERT和AE）进行详细的阐述。

图1 BERT-AE文本特征提取模型Fig.1 BERT-AE text feature extraction model

（2）BERT模型

BERT 模型采用了双向Transformer 的Encoder 结构，并舍弃了Decoder 模块，但模型结构比Transformer更深，这样便自动拥有了双向编码能力和强大的特征提取能力。其结构如图2所示。

图2 BERT模型结构Fig.2 BERT model structure

BERT一大优点就是它是一个泛化能力较强的预训练模型。其训练主要由两个阶段构成：第一阶段为预训练阶段，第二阶段为Fine-tuning阶段。预训练阶段是在大型数据集上根据一些预训练任务训练得到。Fine-tuning阶段是利用预训练好的语言模型，处理具体的下游文本任务，包括命名实体识别、文本分类等。BERT的第一个预训练任务是Masked LM，其主要目的是让模型更为全面地根据全文理解单词的意思。BERT的第二个预训练任务是NSP（next sentence prediction），其主要目的是让模型能够更好地理解句子间的关系。本研究关注的是利用预训练阶段的BERT 模型进行中文文本特征提取任务。在Vaswani 等[20]的论文中，研究者训练了两个BERT模型，分别是BERTbase与BERTlarget，二者的区别在于参数量的不同，BERT 发展至今已经增加了多个模型，本文使用了其中的中文预训练模型，这也是唯一一个非英语的模型。

（3）自编码器

自编码器（AE）网络结构图如图3 所示，它由输入层、隐藏层和输出层组成，主要包括了编码（Encoder）和解码（Decoder）两部分。自编码器试图学习隐藏层中输入数据的某种表示形式以重构输出层中的输入，因此它的输出与输入基本相同，是一种尽可能重现输入信号的神经网络。此外，自编码器不需要用于学习特征的标签，以无监督的方式广泛用于特征提取，并且自编码器可以通过编码操作将高维度的输入数据映射到低维度的特征编码，达到降低数据维度的目的。

图3 自编码器结构Fig.3 AutoEncoder structure

如图3 所示，从输入层到隐藏层对应着编码功能，它将输入x映射到潜在表示空间h，其形式为：

其中，f是非线性激活函数，通常是Relu，W和b分别为编码器的权重和偏置。

其中，g是解码器的激活函数，W′是权重矩阵，b′是偏置矢量。

为了使解码重构后的与输入x一致，相应的损失函数为：

2.2.2 BERT-AE模型提取文本特征

本文财务文本特征提取步骤包括以下四部分，如图4所示。

图4 BERT-AE文本特征提取流程Fig.4 BERT-AE text feature extraction process

（1）删除字母、数字、汉字以外的所有符号。

（2）利用jieba库对文本进行分词，然后使用词频-逆文档频度（term frequency-inverse document frequency，TF-IDF）算法提取反映公司经营情况的关键词。因为BERT 的最大输入的编码向量长度为512，分词以后的词语较多，所以提取关键词的长度应控制在512范围内。

（3）使用中文预训练BERT模型将提取过后的所有文本信息进行编码，将得到的句子编码和位置编码一起作为特征输入到BERT的双向Transformer中，最终得到字向量序列S。将Si（Si是S中第i个向量输出表示）作为全连接层的输入，对文本信息进行提取，最终得到一个多维文本特征。

（4）为了解决上文提到的文本特征维度过高会引发的问题，本文使用自编码器（AE）对文本特征进行降维得到最终特征。

关键词提取就是从财务文本里面把跟这篇文本意义最相关的一些词抽取出来，提取出这篇文本的关键词，就可以大致了解文本要表达的意思。在步骤（2）中，本文使用基于统计的关键词提取方法中最常用的词频-逆文档频率（TF-IDF）算法对关键词进行提取，TF-IDF算法可以评估某个词语对于一个语料库中的某一段文本的重要程度。其中，词频（TF）表示某个词在给定文本中出现的频率，其表达式为：

其中，Mp,q为词p在文档q中出现的次数，Mq为文档q的总词数。某个词的TF值越大，说明这个词在文档中出现的次数越多。但并不是一个词出现次数越多越重要，有一些词在所有文本中出现的频率很高，如停用词，这类词对某一文本的代表性很差，对于此，引入逆文档频率（IDF）对每个词分配一个“重要性”权重，IDF 表达式为：

其中，N为所有的文档总数表示包含某个关键词的文档个数。

将TF 和IDF 综合考虑后，便可得到某一个词在某个文档中的表征性，TF-IDF定义如下：

TF-IDF算法兼顾词频与新鲜度，过滤一些常见词，保留能提供更多关于公司经营情况的重要词。本文参照Fan等[25]的做法，对提取的关键词进行词频统计，以验证提取出的关键词能够反映公司的经营情况。图5 中（a）和（b）分别为提取的被ST公司和正常经营公司的词云统计图，每个词语在图中的字体大小与它在模型中出现的频率成正比。表2为提取的被ST公司和正常经营公司的出现频率排名前10的关键词。

表2 出现频率排名前10关键词Table 2 Top 10 keywords in terms of occurrence frequency

图5 关键词词云Fig.5 Keyword WordCloud

从图5及表2可以看出，在被ST公司文本数据提取出的频率排名前10 的关键词中，出现了亏损、减少、下降等能反映公司出现问题的词语，而正常经营的公司则出现了实现、增长、提升等能反映公司状况良好的关键词，这些关键词能在一定程度上反映公司的经营情况。

在步骤（3）、（4）中，文本特征维度的选取对实验效果至关重要。首先，本文使用BERT提取不同维度的文本特征，再通过自编码器将不同维度的特征进行降维，同样的，降维时也选取了几个不同维度，两个步骤设置的文本特征维度如下：D1∈{32,64,128,256},D2∈{1,3,5,7}。经过多次实验比较，最终将D1设置为64，D2设置为1。

进行上述4个步骤的操作后，便可将财务文本数据转化为富含语义的财务文本特征。以第一条文本为例，第一条文本为一家被ST 公司的财务文本数据，提取了“调整”“亏损”“利润”“下降”等能够反映公司经营情况的关键词后，经过BERT-AE 模型便能提取出代表其语义的文本特征数据。提取出的文本特征数据结构如图6所示，提取的第一条财务文本特征数值为0.678 4。所有文本特征数据的取值在-1和1之间。

图6 文本特征数据结构示例图Fig.6 Example of text feature data structure

2.3 数据标准化

将提取出的财务文本数据与财务指标相结合后，为更好了解特征变量分布情况，对特征变量进行描述性统计分析，如表3所示。

表3 特征变量描述性统计分析Table 3 Descriptive statistical analysis of characteristic variables

从表3 中可以看出，利息保障倍数、应收账款周转率、存货周转率、股东权益周转率、净利润增长率、净利润现金净含量、现金适合比率、营业利润现金净含量等指标数据差值较大，为了提高模型拟合速度和拟合精度需要对数据进行标准化处理。Z-score标准化可以将不同量级的数据统一化为同一个量级，使数据的均值为0，方差为1，保证了数据间的可比性，其计算公式如下。

其中，z值代表原始数据与原始数据平均值之间的距离，x为某一具体原始数据，μ为原始数据的均值，σ为原始数据的标准差。

2.4 财务预警模型构建

本文首先基于财务数据指标构建了Logistic 回归、XGBoost、人工神经网络（ANN）、卷积神经网络（CNN）四个财务预警模型。然后分别将BERT-AE融合模型提取出的两个文本段特征以及两个文本段特征一起加入财务指标中，作为财务风险预测模型的输入数据。下面分别对财务风险预警模型进行介绍。

2.4.1 Logistic回归模型

Logistic 回归以线性回归作为理论支持，它可以将回归的结果通过sigmoid 函数映射到0 和1 之间，因为Logistic回归具有容易实现、训练高效的特点，被广泛运用于两类分类任务中，其模型为：

其中，pxi表示事件发生的概率，Xi表示解释变量。

2.4.2 XGBoost

XGBoost是一种基于梯度提升树的集成算法，它通过在数据上引入正则化损失函数构建若干个弱评估器，并把这些准确率较低的弱分类器整合为一个准确率较高的强分类器，不仅降低了模型过拟合的风险，还使得其分类表现比单个模型更好。由于XGBoost 使用了预排序、加权分位数、稀疏矩阵识别以及缓存识别等技术，故其拥有可以并行运算、算法的复杂度可控、泛化能力强的优点，其目标函数如下所示：

其中，l代表损失函数，yi表示第i个样本xi的真实值，表示第i个样本xi的预测值，fk表示第k棵树的预测函数。

2.4.3 ANN

人工神经网络（ANN）是由大量神经元组成的信息响应网络拓扑，通常一个神经网络由一个输入层、多个隐藏层和一个输出层构成，如图7所示。

图7 人工神经网络结构Fig.7 Artificial neural network structure

Ji表示ANN神经元的输出，其计算过程可表示为：

其中，wi表示第i个神经元的权重，xi表示第i个神经元的输入。

2.4.4 CNN

卷积神经网络与一般神经网络不同之处在于其基本结构由卷积层、池化层、全连接层堆叠而成，它的结构如图8所示。

图8 卷积神经网络结构Fig.8 Convolutional neural network structure

卷积神经网络输入层读入规则化的图像后，每一层的每个神经元会抽取一些基本的视觉特征，并通过卷积操作获得特征图。卷积层后面连接池化层对卷积结果进行降采样操作，在减少数据量的同时保留有用的信息。卷积层和池化层通常会交替使用以便获取更多有用的特征图，然后将特征图传输到全连接前馈网络层，实现对提取特征的分类识别。

2.5 对比实验

采用了Word2Vec-CNN-AE和Word2Vec-LSTM-AE模型提取的文本特征作为对比：

（1）Word2Vec-CNN-AE文本特征提取模型：模型以Word2Vec 训练词向量，把词向量输入到CNN 中，CNN通过卷积核提取每条数据中词语的信息，然后通过池化层和全连接层对文本特征进一步提取，最后通过AE 对文本特征进行降维。

（2）Word2Vec-LSTM-AE 文本特征提取模型：模型以Word2Vec 训练词向量，然后以LSTM 模型对文本数据再次进行特征提取，之后通过AE 对提取出来的文本特征进行降维。

将Word2Vec-CNN-AE 和Word2Vec-LSTM-AE 模型提取的财务文本特征分别与财务指标结合，验证提取出的文本特征对财务预警模型的预测精度的贡献率，并与BERT-AE模型提取的文本特征对财务预警模型的预测精度的贡献率做对比。

2.6 模型超参数调节

模型的超参数设置能够影响其预测精度及泛化能力，应根据不同模型的特点对其参数进行调节，找出最优的参数组合，进而得到最优预测结果。

对于Logistic 回归模型，本文设置的参数为学习率和最大迭代次数。因为Logistic回归利用最小二乘法求解，容易出现过拟合问题，所以本文引入了L1 与L2 正则化对最小二乘法进行优化，提高分类器的预测精度。对于XGBoost 模型，本文设置的超参数为弱学习器个数、正则化参数、学习率和树的最大深度。对于ANN模型，本文设置的超参数为隐层节点数、优化器、批大小和epoch。对于CNN模型，本文设置的超参数为隐层节点数、卷积核个数、优化器、批大小和epoch。各模型备选参数如表4所示。

表4 模型备选参数Table 4 Model candidate parameters

对于Logistic 回归与XGBoost，本文使用了网格调参法对加入文本特征前后模型的所有参数进行了调节，确定所有参数的最优组合。对于ANN 与CNN，先保持其他参数不变，对其中一个参数运用网格调参法进行参数调节，依次确定模型的最优参数。

2.7 模型评价指标

2.7.1 真正例率和假正例率

本文采用AUC 指标对模型进行评价，并绘制出模型的ROC曲线。在介绍ROC与AUC之前，先介绍真正例率（TPR）和假正例率（FPR）的概念。

在一个二分类问题中，可以根据真样本数据真实所属类别与模型结果组合分为真正例（TP）、假反例（FN）、假正例（FP）、真反例（TN）四种情况。令TP、FN、FP、TN分别表示其对应的样例数，可得到如表5的混淆矩阵。

表5 混淆矩阵Table 5 Confusion matrix

有了混淆矩阵之后，可以定义真正例率（TPR）和假正例率（FPR）为：

2.7.2 ROC曲线和AUC值

ROC的全称是Receiver Operating Characteristic曲线，其以FPR 为横轴，TPR 为纵轴绘制而出。模型预测性能的好坏可以通过ROC 曲线表现出来，它越靠近左上角，表明模型的性能越好。如果有A模型和B模型，A模型的ROC 曲线能完全“包住”B 模型的ROC 曲线，则可断言A 模型比B 模型拥有更好的泛化能力。但是两个模型的ROC 往往是相交的，这时为了比较两个模型的性能就需要用到AUC。AUC 的全称是Area Under Curve，是ROC曲线和x轴（FPR轴）之间的面积。因为AUC 综合考虑了分类器对正样本和负样本的分类能力，所以当样本数据不平衡时，分类器仍然能够做出合理的评价。

3 实证结果与分析

本文将531个样本按7∶3的比例划分训练集和测试集，用训练集训练模型，最后在测试集上对模型进行验证评估。本文首先使用了上市公司的财务指标数据作为模型输入变量对财务风险进行预测，然后在财务指标数据中加入BERT-AE 提取的财务文本特征，并将加入文本特征后的实验数据分为三组，分别放入模型之中进行财务风险预测。第一组为加入“经营情况讨论与分析”文本特征的数据（F1），第二组为加入“审计报告”文本特征的数据（F2），第三组为加入两个文本特征的数据（F1+F2），每组原始数据均为上述财务指标数据。同样的，对比实验也将进行上述的实验流程。

3.1 特征重要性分析

为了分析文本特征对财务预警模型的预测精度是否会产生影响，本文以BERT-AE 提取的财务文本特征为例，使用XGBoost模型对加入文本特征前后的数据指标进行特征重要性分析，并作出XGBoost模型的特征重要度排序图，如图9 所示。其中，（I）为基于财务指标数据的特征重要度排序图，（II）为加入“经营情况讨论与分析”文本特征（F1）的特征重要度排序图，（III）为加入“审计报告”文本特征（F2）的特征重要度排序图，（IV）为加入两个文本特征（F1+F2）的特征重要度排序图。

图9 XGBoost模型的特征重要度排序Fig.9 Feature importance ranking of XGBoost model

从（II）、（III）、（IV）中可以看出，在包含“F1”的26个特征变量中，“F1”对预测结果的重要性位列第14；在包含“F2”的26 个特征变量中，“F2”对预测结果的重要性排名第3；在包含“F1”和“F2”的27 个特征变量中，“F1”与“F2”对预测结果的重要性排名分别为第4 和第15。以上结果表明本文提取的文本特征能够对财务预警模型的预测精度产生影响。

3.2 财务预警模型实验结果分析

为了进一步分析文本特征对财务预警模型预测精度的影响，本文基于财务指标数据，将加入文本特征前后财务预警模型预测的AUC 值进行比较。得到的3 个实验具体的AUC值如表6所示，ROC曲线如图10所示。

图10 加入财务文本特征前后财务预警模型的ROC曲线Fig.10 ROC curves of financial early warning model before and after adding financial text features

表6 加入文本特征前后财务预警模型的AUC值Table 6 AUC value of financial early warning model before and after adding text features

3.2.1 基于财务指标数据预警模型结果与分析

通过将只放入财务指标数据的4 个预警模型在测试集上预测结果进行对比发现，Logistic 回归模型得到的AUC 值最低，为0.829 4。在两种深度学习模型中，ANN模型得到的AUC值优于CNN模型，为0.851 1。而XGBoost模型表现优于两个深度学习模型和Logistic回归模型，得到了最高的AUC值。

在基于财务指标的预警模型中可以发现，相对于深度学习模型而言，传统机器学习算法XGBoost模型预测效果更好，原因可能是在样本较少的情况下，传统的机器学习算法预测性能更优。在大量的标注训练数据下，

深度学习模型才能取到较好拟合效果，正如宋歌等[9]使用深度学习网络构建预警模型时发现，财务数据样本越多，模型预测准确率越高。

3.2.2 基于财务数据与财务文本预警模型结果与分析

由表6可以看出，BERT-AE模型提取的财务文本特征对4 个财务风险预警模型预测精度的贡献度大于Word2Vec-CNN-AE和Word2Vec-LSTM-AE模型提取的文本特征的贡献度。在4个财务预警模型中加入BERTAE模型提取的财务文本特征后，预测的AUC值提升最高，且4个财务预警模型的AUC提升值均大于1个百分点，其中CNN 的AUC 值提升均达到最大，分别为3.64个百分点、3.35个百分点和3.93个百分点。在BERT-AE模型提取的财务文本特征后加入财务指标的实验中，XGBoost 模型仍得到最高的AUC 值，分别为0.895 0、0.893 6和0.896 1，由此可见，使用BERT-AE模型提取的财务文本特征作为输入变量的XGBoost 模型具有更优的预测性能。

综上所述，在三组对比实验中，加入BERT-AE模型提取的财务文本特征后，预警模型的性能得到最好的增强。这表明使用BERT-AE融合模型能从公司年报中提取出有用的文本特征，将此特征用于公司财务风险预测模型中能够显著提高模型的预测精度。

3.3 加入文本特征后模型提升效果的横向对比

在Matin等[3]的研究中，其使用CNN-RNN（用NN表示）构建神经网络预测财务风险，然后将提取出来的审计报告文本特征、管理层声名文本特征以及两种文本特征与财务指标结合，分析文本特征是否会提升模型预测精度，最后结果如表7所示。表中，NN指无文本的神经网络，NNaud指带有审计报告文本特征的神经网络，NNman指带有管理层声名文本特征的神经网络，NNaud+man指带有审计报告和管理层声名文本特征的神经网络。

表7 Matin等人财务预警模型实证结果Table 7 Empirical results of Matin et al’s financial early warning model

从表7中可以看出，NNaud、NNman、NNaud+man的AUC值提高了1.9 个百分点、1.1 个百分点和1.8 个百分点。而本文的CNN 模型加入BERT-AE 提取的三种文本特征后AUC 值的提升分别为3.64 个百分点、3.35 个百分点和3.93个百分点，再次表明本文构造的BERT-AE融合模型能更为有效地提取财务文本特征用于财务风险预测。

4 结论与启示

本文在已有研究的基础上对文本信息的提取进行了方法上的创新，使用BERT网络提取上市公司年报中“经营情况讨论与分析”和“审计报告”的文本特征，并利用AE 网络对提取出的文本特征进行降维处理，最后将AE网络输出的结果加入财务数据之中对上市公司财务风险进行预测。研究结果显示，相较于没有引入文本特征的财务预警模型，带有“经营情况讨论与分析”“审计报告”以及两种文本特征模型的AUC 值均有不同程度的提升，其中带有两种文本特征的CNN模型将AUC值提高了3.93个百分点，且带有“经营情况讨论与分析”的模型比带有“审计报告”的模型拥有更高的预测精度，说明“经营情况讨论与分析”比“审计报告”提供的信息更多。此外，通过对比实验和与其他学者的研究相比较，本文使用BERT-AE模型提取的财务文本特征使得财务预警模型提升效果表现更优，表明本文构造的BERTAE融合模型能更为有效地提取财务文本特征用于财务风险预测。

在今后的工作中，可以引入更多的文本变量，如公司年报中其他章节的内容、公司研报、财经新闻、投资者评论等，更好地分析不同文本内容对上市公司财务风险预测的影响，提升模型的预测精度。此外，本文的研究方法不仅能够在上市公司财务风险预测中得到更好的运用，也可将其运用于其他研究领域，如股价预测、信用反欺诈等之中。