基于文本大数据分析的年报舞弊识别研究

2022-12-02陈璐CHENLu

价值工程 2022年32期

陈璐CHEN Lu

（对外经济贸易大学统计学院，北京 100020）

0 引言

年度报告，是公司每年度向大众披露该公司经营状况的一项报告，该报告涵盖较多的内容，包括该年度的主营业务，公司的负债情况等重要经济指标。年报多数时候会成为投资者对未来预期以及投资选择的一项重要依据，同时也是国家证监会为打击舞弊行为重点查处的内容。有效地识别年报舞弊行为，一方面可以规范整个股票市场，另一方面也能让股民选择一家诚信的公司投资。因此针对上市公司年报的研究成为经济学科、计算机文本数据挖掘方面的热点。例如研究年报信息披露的特点，通过年报判断公司类型进而计算公司的竞争力。

本文在结合了传统的文本分类系统以及对年报信息的研究，实现对年报信息的合理分类，进而识别出年报的舞弊行为。本文的第二部分介绍了目前国内外针对年报以及文本处理的相关研究；第三部分主要介绍了本系统的核心模型和数据；第四部分主要介绍本系统的实验设计；第五部分是对本次实验结果的分析；最后是对整个系统的不足之处的阐述与分析以及对未来工作的展望。

1 相关工作

国外针对文本信息处理发展的较早，Verrecchia（2001）[1]在关于信息披露的文献综述中将现有的公司信息披露理论划分为三大类，即联系性披露（association-based disclosure），选择性披露（discretionary-based disclosure）和基于效率的披露（efficiency-based disclosure）。系统地阐述了上市公司在年报的信息披露过程中是存在一些策略的，因此可能在披露的内容上，有一定的规律可循。Gerard Hoberg 和Craig Lewis（2013）[2]详细研究了上市公司年报信息披露的羊群现象以及局部反羊群现象。同时关于文本类数据的自动化分类工作，国内也存在较多研究，基于SVM 模型的文本分类判别的研究[3][4]；杨丽华[5]等针对KNN模型进行了文本分类任务的研究，详细介绍了KNN 模型的算法原理和实现机制；王[6]等基于机器学习方法进行了各类文本分类任务进行了相关研究工作。

以上各类研究或涉及对上市公司年报披露特点的研究分析，或利用文本数据挖掘模型对各类文本进行分类研究，目前没有完整地基于文本数据挖掘方法的上市公司年报舞弊行为的识别研究。

2 模型和数据

2.1 文本表示

本文采用向量空间模型（VSM）作为文本表示途径，首先将文本进行中文分词，本文采用IKAnalyze 分词器进行中文分词，提取特征并计算特征项的权值，将文本表示成一个空间向量，便于对文本进行相应的操作。

2.2 年报语料

本系统所涉及的所有语料通过爬虫[7]技术进行收集整理，所有的年报文档均以文本格式存储。资料来源是证监会官方网站（http: //www.csrc.gov.cn）和聚潮资讯网（http://www.cninfo.com.cn）。证监会网站会及时的公布涉嫌年报舞弊的上市公司的处决书，以此获取年报舞弊的公司名单。在聚潮资讯网上可以下载任何上市公司的年报信息，因此根据证监会处罚公告的内容，实现对舞弊公司舞弊年报的精确定位，从而获得舞弊的年报以及非舞弊的年报。最终选取2012 年～2018 年公告内容中获取正负类样本各200，为了消除噪音和平衡样本数量，最终筛选其中194 个作为训练数据。

2.3 特征词典

本次设计的特征词典主要来源于三部分，第一部分是通过CHI 卡方分布统计训练语料的分类关键字，第二部分是通过LDA 主题模型提取训练语料主题关键字，第三部分是经济学角度获取的专业词汇。

第一部分是通过对年报数据本身的挖掘，首先对文本进行分词，再使用卡方统计量计算词ti与年报类别C=（c1，c2）的关联程度。

其中，A 表示Ci类中包含ti的文档频率，B 表示不属于Ci类包含ti的文档频率，C 表示Cj类中不包含ti的文档频率，D 表示不属于Cj类也不包含ti的文档频率，N 表示文档总数。以下是特征与类的关系表，如表1 所示。

表1 特征与类关系表

第二部分是通过LDA（Latent Dirichlet Allocation）主题模型[8]获取训练文档主题词，将这些词加入特征词典。主题模型是一种非监督机器学习技术，可以识别大规模的文档或语料中潜在的主题词。采用了计算每个词汇w 与文档d 相关联的概率P（w｜d）=P（w｜t）·P（t｜d），主题t 作为中间层的概率公式。LDA 可以设置文档集的主题数，在实验中设置了两个主题，获取800 个待选主题词。因为LDA 相比基于词频的统计量来说，属于更深层次的语义分析，因此选用LDA 主题模型来丰富本系统的特征选择模型。

第三部分是通过专业人员对大规模年报进行分析、研究，获取的经济学专业的词汇，选出与年报舞弊相关程度较高的加入特征词典。

2.4 特征权重计算

通过计算特征词的TF*IDF 值获取特征项的权重，从而实现文本向量化，构建能够代表文本特征的向量。

2.5 SVM 分类器（Support Vector Machine，SVM）

支持向量机是Vapnik V[9]提出的一个非常有效的统计机器学习算法，后期主要用于模式识别领域。支持向量机能够很好地解决二分类，而且其分类准确率和稳定性较高。SVM 的基本思想就是通过对样本的训练，在向量空间寻求一个超平面（Hyper Surface），通过参数调优，使得这个超平面能够最大限度的将所有样本点分割成两个部分，这样就能清晰地完成分类任务。因此支持向量机的目的就是在样本的向量空间中找到具有最大分类精度的决策平面。

为了实现系统的容错性，在分类的时候允许一些点不能正确分类，这些点可能是噪音，为了消除噪音，在SVM中需要选择合适的惩罚因子C（C 表明了某个样本点的重要性）。约束条件的意义是认为所有的点到超平面的距离都大于1，并且给这个硬阈值加一个松弛变量ξ，即：

2.6 KNN（K-nearest neighbor）分类器

K-最邻近法[10]的思想是：当输入一个待测试文档时，分类器会选取该文档相近的K 个训练文档（已知其分类标签的文档）来为待测文档判别类别。把邻近文档和待测文档的文本相似度作为该邻近文档所在类别的权重，将训练文档中同属于某个类别的权重进行求和计算作为该类别和测试文档的相似度。然后系统可以将这些相似度进行排序，给定阈值，确定所属类别。决策规则表示如下：

2.7 BERT 分类器

BERT[11]模型是由Google 公司提出，是一种基于预训练方式的语言模型，近年来在各项语言理解任务上取得了优异的表现，因此我们基于该模型设计了文档分类的任务用于解决对年报舞弊行为的判别。该模型相对传统机器学习模型具有更强的特征抽取能力和泛化能力，因此可以降低特征组织的难度。该模型的结构图如图1。

3 实验设计

本系统主要采用了传统机器学习模型（SVM/KNN）和深度神经网络模型（BERT）对年报文本进行自动分类，进而验证年报舞弊行为在文本语义分布的差异化。首先将收集好的文本数据，依据监管部门披露的信息进行类别标注。此外对文本进行一些特殊处理，去除停用词、标点等，然后进行分词并获取文本特征，计算特征权重。实现对文本的预处理，获得具备文本特征的文本向量。文本向量的格式是：

＜label index : value index : value……＞，其中label 表示该文本的类别，index 表示向量的特征，value 表示相应的index 特征的特征值。统一数据格式便于分类器能够准确读取。

3.1 模型设置

SVM 分类器主要采用台湾大学的林智仁博士开发的Libsvm[12]工具包，实现对文本的快速分类。并使用Libsvm自带的交叉验证进行参数寻优，实现最优的分类参数，获取最佳参数c 和最佳参数g。用最佳的训练参数训练出较高分类精度的分类模型。

KNN 分类器主要通过K-最邻近算法，通过计算每一个测试文本向量与所有已知类别的训练文本向量的相似度，作为两者的距离。筛选出距离最近的K 个向量的距离值，并计算其中每个类别的向量的距离和。距离和较小的类别作为该测试文本的类别。

BERT 分类模型将年报的核心文本以及本章上述方案中提取的文本特征作为组合信息喂入模型中，基于训练数据有监督的学习判别范式，微调预训练模型进而达成对新年报文本的判定。

3.2 训练数据与特征分布

样本均衡角度出发，从收集的样本中分别选取194 条正负样本作为训练集，35 条数据作为测试样本，用以验证模型的有效性。

表2 训练数据分布表

不同模型我们选择不同的特征抽取方式以适应模型对数据的需求，SVM 主要是TFIDF/CHI 卡方等特征抽取和特征权重算法；KNN 主要基于浅层语义表达进行文本向量化；BERT 主要基于年报文本以及核心词作为模型输入。

表3 模型特征抽取表

4 结果分析

为探究自动化模型识别对该任务的有效性，本文设计了三个文本分类器，用以对年报文本进行自动分类。以下通过对实验结果的统计，对比不同模型在该任务上的有效性，进而探究出基于自动化模型实现年报舞弊行为判别的可行性。

表4 展示了不同模型分别实现对年报文本舞弊行为的判别任务。

表4 模型测评结果表

从表4 结果分析可以得出一些直观结论：

①从宏观视角观测三个模型的准确率来看，均能达到远高于0.5 的概率预测值，因此基于机器学习模型的思路从统计概率的角度来看，对年报文本舞弊行为的特征分布具有一定的发现性，验证了该方案的有效性；

②同时横向的比较两个机器学习模型，SVM 和KNN同属于浅层的机器学习模型，而SVM 基于大量的手工特征（例如经济学/会计学专业词汇，会计指标等）为模型提供了大量先验知识，提高了模型识别准确率，相对于KNN的浅层模型具有更优胜的性能表现，验证了会计类特征对判别科学性的影响是正向的；

③整体模型之间对比来看，BERT 模型具有明显的性能优势，能够取得最佳的实验精度，从模型和特征角度出发，BERT 模型的输入特征相对浅层模型更为基础，而该模型具有更多的预训练语言模型的知识信息以及极强的语义抽取能力，能够在年报文本中有效的捕捉到文本的核心信息，从而有监督地学习到文本语义与年报舞弊情况之间的关联性，进而实现对未知年报文本舞弊情况的有效判别，验证了语义挖掘在年报舞弊行为识别任务上的有效性。

5 未来工作

本文的主要任务是分析探究如何通过文本挖掘的办法，自动处理大量的年报数据，并有效地识别出年报舞弊行为，进而能够为舞弊年报的识别提供新的思路和文本层面上的特征挖掘。文中分别使用两种经典的统计机器学习算法和前沿的深度语义模型（BERT）对年报文本进行建模，有监督地对该类特殊文本进行判别，从目前实验结果来看模型在准确性上取得了相对优秀的实验精度，具有一定的应用可行性。未来从两个角度对该工作做进一步的深入研究，首先针对年报特征信息的挖掘对识别精度和科学性具有重要意义，后续研究会引入更多的经济学/会计学指标，并基于多变量进行关联关系分析，从而选出最为显著的特征自动化加入模型训练中；为进一步获取舞弊年报的文本分布特征，在模型设计上充分利用深度语义模型在注意力机制上的能力，挖掘舞弊年报在文本表达上的特点，为监管部门提供预见性指引，同时为模型的可解释性提供充分论证。