基于机器学习的文本分类研究

2021-12-31王迷莉

科技创新与应用 2021年26期

王迷莉

（山东科技大学，山东泰安 271000）

科技的发展，带动了文本分类技术的发展，如今存在着各式各样用于文本分类的技术，但是最受人青睐的模型之一是朴素贝叶斯分类模型。由于其构建较为简单，同时分类结果也较为精确，费时少但得到的效果是高效的，因此受到了人们的广泛欢迎。

现如今随着人们对文本分类需求的增加，使得它有着良好的发展前景。本篇文章对中文文本分类的理论分析过程和相关文本分类方法的理论思想过程等进行阐述。此次文章实验阶段作者选取的数据是“搜狗实验室”中的新闻信息数据，随后利用python进行编程操作，构造朴素贝叶斯分类器进行新闻文本分类。

1 研究背景与意义

时代在进步，科技也在进步，涌现出了人工智能、机器学习等新兴技术，也引起了文本信息在互联网中的盛行。但是网络中的文本信息大多数纷繁复杂，怎样可以快速高效地提取自己想要的信息？这时就需要借助文本分类技术来帮助我们更方便地解决此问题。

文本分类是一种自动分类的方法，它可以事先预定义类别，然后将未分类的数据按照预定义类别进行分类，方便进行后续的操作。文本预处理也相当于一种信息检索的方法，它可被当成检索系统的前置步骤，可以大大提高查询的速度和准确性。而传统的手工分类技术存在着工作周期较长、工作效率较低等弊端，因此应用统计学和机器学习的文本分类技术便应运而生。

2 文本分类研究现状

2.1 国外研究现状

1958年，HP.Luhn开启了文本分类的先河。他首次提出在文本分类中应用词频统计的方法，并进行了创新。随后，Maron和Kuhn首次提出文本自动分类，也拉开了文本自动分类作为独立研究课题的序幕。

20世纪90年代后期，计算机技术蓬勃发展，同时网络信息量不断增长，人们对文本分类的需求日益增长。传统的手工分类逐渐被淘汰，基于机器学习的文本分类逐渐被人们所发现并重视，由于此种方法分类的结果更加精确，分类速度更快，很快便替代了原本的手工分类。

2.2 国内研究现状

与国外相比，国内对于文本分类研究起步较晚，并且由于语言之间的差异，导致国外的研究成果不能被直接参照。但是通过借鉴国外的文本分类经验，国内的文本分类研究也取得了卓越的成果。1981年，侯汉清教授第一次发掘了文本分类的应用领域。1999年，邹涛又探索了文本分类中一些十分重要的技术，如相关模型、特征的提取方法和字典结构等。21世纪初期，文本分类的研究在国内开始呈现直线上升趋势，一些著名的学者，如庞剑锋、周雪忠、宋欣等，都在文本分类的研究上取得了相应的学术成果。

文本技术发展至今，中文文本分类与机器学习算法相结合已经变得日趋成熟，在人们日常生活使用时，文本分类已变得更加方便简洁。

2.3 论文的组织安排

本文的核心内容是利用朴素贝叶斯分类器进行新闻文本分类。实验过程中还使用了LDA主题模型。代码编写是在python的集成环境anaconda中。

第一部分：介绍本论文主题和文本分类的研究背景与实际意义，分析了国内外研究历程，概述本论文的结构。

第二部分：介绍了朴素贝叶斯。

第三部分：介绍了处理的相关基础知识与应用技术。

第四部分：对于样本数据集，编写相应的python代码进行实验分析。

第五部分：结合理论分析和实验分析对本论文进行总结。

3 朴素贝叶斯分类器

3.1 朴素贝叶斯分类器的假设前提

朴素贝叶斯分类器有一个假设前提，即假设每个特征之间都具有很强的独立性。简而言之，决策结果中既没有很大比例的属性变量，也没有很小比例的属性变量。朴素贝叶斯分类是分类算法中较为简单的算法，“朴素”顾名思义是说该算法的思想真的并不复杂：在给出的所有待分类项中，我们首先需要逐个算出在此项出现的条件下各个类别出现的概率，比较哪个类别的概率最大，就认为此待分类项属于哪个类别。举个例子，你看见了一个金发碧眼的人，心里就可能会猜测是外国人，之所以这样想是由我们的生活常识给出的答案。为什么不猜测是中国人呢？是因为中国人中很少有金发碧眼的人物形象（当然并不是没有），我们猜测他是外国人的原因是，在我们的认知范围中，更加偏向于选择最大概率的类别，这也和朴素贝叶斯的思想基础较为相符。利用朴素贝叶斯的思想构建朴素贝叶斯分类器，处理文本分类结果会更加准确，处理过程也会更加高效，同时算法简单，模型易于构建。

3.2 朴素贝叶斯的特性

朴素贝叶斯模型优势较为突出，与其他分类算法相比，它具有扎实的数学理论基础、可解释性强和易于实现的性质；其次算法复杂度能用来衡量一个算法的优劣程度，朴素贝叶斯拥有较低的算法复杂度，使得它比机器学习中的其他模型处理过程更为简单。基本条件概率估计的准确性和它的特征独立性假设的约束条件是影响最优分类的两个因素。朴素贝叶斯具有较高的实用性，理论上的错误会比较少，因此朴素贝叶斯模型的应用较为常见。

当然有优势也就有不足之处。该模型分类的假设前提是各个属性相互独立，这将会影响到分类的准确性和效率。但是在实际应用场景中，这个假设不可能完全成立，因此有众多研究者尝试对朴素贝叶斯模型进行相应的改进。

4 文本预处理

首先将所需要的数据从网站上下载下来，通过下载搜狐等各大网站共享新闻数据集，作为本次项目的测试集和训练集。

4.1 中文分词

何为中文分词？中文分词就是找到句子中词与词之间的界限，该界限是可以自己加以设计的，习惯上称为边界标记。众所周知，英文中单词之间的分隔符号简单，而在中文中，句子之间的分隔则变得多元化，字、句、段、符号等都可以作为分词的依据，相比于英文，中文的分词方式更加纷繁复杂。

中文分词作为文本分类处理过程中的必需步骤，其主要思想就是将一整篇文本利用分词技术切分成单个词或者词语。因此，在实验的过程中，训练集和测试集都必须利用分词工具进行分词处理。

在本篇文章中使用的分词工具为结巴分词。它利用了机械分词的最大正向匹配统计分词中的语言模型，并对未登入的使用隐马尔科夫模型，使用Veterbi算法推导计算。

4.2 去停用词

停用词指的是文章中出现频率较高但对分类几乎没有什么用处的词语。以中文文本为例，停用词主要包含以下两方面：

（1）经常会在各类文本中出现，且可能出现在文本中任意地方的词语。由于这些词语出现的普遍性，导致看到这些词也无法得出有效的分类信息，无法分析出这篇文章的主题类别，甚至降低分类的准确度。所以需要对它们进行删除处理。

（2）人称代词、助词、介词和文本符号等也属于停用词，如“我”“你”“我们”“你们”“地”“的”“啊”“[]”“Y”、“%”等。在实验时，我们可以将文本中出现的对分类贡献度不大的词语归结到停用词中，需要人为手动加入，然后再引用新的停用词表进行遍历，删除文本的停用词。该过程可以有效节约内存空间、大大减少处理时间和降低计算的复杂性。

4.3 特征提取

本篇文章中进行特征提取的主要方法是利用互信息。互信息是用于评判两个特征相关性的一个属性，即一个变量与类别之间的相关性越大，就认为该词属于重要的特征词，需要保留下来，反之舍弃。

互信息常用于自然语言处理，而且也是非常重要的指标。在互信息的计算过程中，当互信息值越大时，表示词与类别之间就越相关，就会将该词作为重要的特征词保留下来，反之舍弃。

4.4 特征表示

经过特征提取后保留的文本特征是文本中最重要的特征，但是计算机并不认识，因此需要进一步转化为计算机能识别的向量。目前，文本表示主流的有三种方法，经典的One-hot模型、TF-IDF模型和基于深度学习的Word2vec模型。TF-IDF模型与One-hot模型相比，可以计算反词频概率值；Word2vec模型能解决One-hot模型和TF-IDF模型的维度灾难和向量稀疏的缺陷，最重要的是Word2vec模型能表示词语之间的语义。本文综合考虑各种因素，选用Word2vec模型作为文本向量的表示方法。

在文本向量化过程中，Word2vec模型一般有CBOW和Skipgram训练模型。CBOW模型的核心思想是利用上下文对中间词进行预测，即上下文k个词决定了该词出现的概率值。Skip-gram模型的核心思想是通过中间词去预测上下文，该词决定上下文k个词语出现的概率值。通过上述可以知道CBOW模型的核心思想和Skip-gram模型正好相反，一个是通过上下文预测中间词，另一个是通过中间词预测上下文。

5 朴素贝叶斯模型

朴素贝叶斯算法是有监督的学习算法，在日常生活中通常解决的是分类问题，如新闻文本的分类、是否值得投资、信用等级评定等诸多分类问题。该算法在某些领域分类问题中的效果与决策树、神经网络算法效果不相上下。但由于该算法的假设前提是条件特征独立和连续变量的正态性，就会影响该算法的精确度。

5.1 基于朴素贝叶斯新闻分类

5.1.1 数据预处理

本小节将详细介绍对新闻文本进行获取及处理的过程，其中新闻文本处理的步骤主要包含了新闻分词、去停用词及文本向量化的过程，将得到的数据应用于朴素贝叶斯模型中。中文分词与去停用词是进行数据预处理的两个主要部分，也是进行文本分类必不可少的部分。利用python中的jieba分词工具对数据进行预处理，同时将对分类无意义的词语删除，如标点符号等，来完成去停用词的操作。

5.1.2 抽取各类中的特征词，统计各分类数量

我们进行预处理时，利用jieba分词工具使得预处理之后的数据更加简洁明了。另外，互信息也是特征项和类别之间相关程度的体现，两者呈现正相关，是用于评判词关联统计模型的标准。没有考虑特征出现的频率是互信息与期望交叉熵的不同，这样使得互信息评估函数不选择高频的有用词而有可能选择稀有词作为文本的最佳特征。实验过程中将新闻中的特征词提取出来，并且进行分类，分类之后我们可以看出各个特征词的数量，以便进行更好的操作。

5.1.3 导入LDA主题模型

LDA主题模型，是人们平时对三层贝叶斯概率模型的另一种叫法。三层结构主要是指单词、主题和文档。通俗地说，我们把一篇课文中的每一个单词都看作以一定概率选择一个主题，并以一定概率从那个主题中选择一个单词的过程。从文档到主题，从主题到单词，都遵循多项式分布。利用LDA主题模型我们可以很方便地看出新闻隶属于哪个主题，可以很好地得到文本的分类结果。

5.2 进行文本分类

5.2.1 数据准备

首先定义相关的主题，在这次实验中作者定义了10个标签，分别是汽车、财经、科技、健康、体育、教育、文化、军事、娱乐、时尚。随后用数字1-10代表这些主题。将分词之后的结果，与定义的结果进行操作，我们可以看出一些词隶属于哪些主题，很好地对其进行了分类。

5.2.2 划分训练集和测试集

随后将处理好的数据划分为训练集和测试集，以便于更好地进行模型的构建。之后使用CountVectorizer转换成向量形式，转换为向量模式后，更有利于数据的操作，使结果也更加准确。

5.2.3 结果分析

通过给训练集训练模型，最终得到的训练结果准确率为0.804。验证测试集对，测试结果准确率为0.815，精度较高，说明模型得到了优化提升，证明了模型的可行性。

6 结束语

本文详细介绍了文本分类的发展历程，以及其在现代社会的巨大作用，介绍了贝叶斯模型，以及改进后的朴素贝叶斯算法，随后利用实验验证了朴素贝叶斯模型在文本分类中的精确性。其次本文以新闻文本作为基础数据，详细梳理了文本分析、文本表示，主要包含了中文分词、去停用词、特征提取和特征表示四个方面，其中Word2vec模型进行文本向量化是本文最核心的内容，它可以对向量的维度进行自定义，从而减少了TF-IDF模型产生的稀疏矩阵所带来维度灾难问题。经过这次的文本分类研究，对文本分类的发展有了一个更加清晰的框架和更加深刻的认识。