基于TF-IDF的加权朴素贝叶斯新闻文本分类算法

2021-12-14许丽焦博赵章瑞

网络安全技术与应用 2021年11期

◆许丽焦博赵章瑞

◆许丽1焦博1赵章瑞2

（1.华北水利水电大学物理与电子学院河南 450046；2.郑州市金水区纬五路第一小学河南 450003）

实时关注网络上的热点新闻信息可以提高党代表提案内容的时效性和代表性。对于网络热点新闻文本分类问题，基于朴素贝叶斯算法，选择词频-逆文档频率（TF-IDF， term frequency-inverse document frequency）为特征计算关键词的特征权重，通过对朴素贝叶斯算法进行加权处理，实现对新闻文本数据进行分类。分别使用两个数据集进行三次实验，实验结果表明，该算法可以达到较高分类精度，对新闻文本分类效果较好。

文本分类；特征提取；TF-IDF算法；加权朴素贝叶斯

随着信息科技的飞速发展，各种现代化的先进技术在社会生活中得到广泛应用。党代表提案制度是党代表履行义务，为人民群众发声最直接、最有效的方式。利用科学技术为党代表提供更加广泛、实时的新闻信息，有助于党代表了解收集社情民意、征求人民群众意见，从而提高党代表提案的实时性、科学性和全面性。为帮助党代表实时了解网络热点新闻，将社会上的相关热点新闻信息及时推送给党代表，就要实时跟踪采集网络新闻，对采集到的数据进行处理、分类，从而为每位党代表提供与其提案调研方向相关的热点新闻信息。

在特征提取以及文本分类方面，杜永兴等[1]提出通过TF-IDF算法提取关键词，利用余弦定理和可信度来推荐可靠的治疗方案，实现牛疾病智能诊断系统；但宇豪等[2]提出一种基于Word2vec的均值算法以及改进的TF-IDF分类算法，引入了修正因子，从而对分类方法进行优化；李振兴等[3]对电影票房进行研究，建立贝叶斯分类模型，挖掘影响票房的重要因素，实现电影票房科学预测；邹鼎杰等[4]提出对与图书信息相关的知识图谱进行数据分析、关键词提取，并以TF-IDF权值对关键词进行筛选，采用朴素贝叶斯分类算法，实现对图书进行分类；牛永杰等[5]考虑词语位置、词性、词长等因素，改进传统TF-IDF算法，对权重计算进行优化，从而可以将关键词更加准确地提取出来；张波等[6]提出采用卷积神经网络算法，基于TF-IDF将类别作为关键词进行提取，可以在保证卷积神经网络分类性能的同时，减小模型所使用的内存，从而提高分类速度；陈伟鹤等[7]提出通过计算分词后的字或词的长度和频数进行分配权重，根据特征权重大小筛选提取特征关键词，可以实现关键词提取较高的准确率，降低了空间复杂度，但是时间复杂度更高；但唐朋等[8]基于TF-IDF特征结合VSM进行改进，提出了自动化的中文文本分类算法，该方法相较于传统算法可以实现更高的准确率，但是随着数据维度的增大，其准确性并不能有效提高；邸鹏等[9]不再计算传统贝叶斯算法中的先验概率，而是引入一个放大系数来计算后验概率，这样改进可以提高分类速度，但是放大系数的选择还需要深入研究；赵燕等[10]应用朴素贝叶斯分类算法，提出农业文本分类方法，可以实现较高的分类性能以及较高的准确率，但是由于农业文本语料库的数据量较小，分类器对于大量数据的处理性能还有待研究。

本文在提高党代表提案的时效性的背景下，提出一种基于TF-IDF的加权朴素贝叶斯新闻文本分类算法。通过采集网上的热点新闻信息进行数据处理，然后选择TF-IDF为特征对文本数据进行分析，计算特征词的权重，通过特征权重对朴素贝叶分类算法进行加权，实现新闻文本数据分类，从而可以根据每一位党代表的提案调研内容，推荐相关的实时热点新闻信息。

1 基于TF-IDF的朴素贝叶斯新闻文本分类

1.1 新闻文本数据的获取

应用基于Python的网络爬虫技术，在各类新闻网站爬取实时网络热点新闻数据。采集新闻标题、新闻发布时间等信息，将数据以文本格式存储。

1.2 新闻文本数据的预处理

（1）文本数据清洗

去除爬取到的新闻文本数据可能会存在的一些特殊符号以及多余的空白，多余的空白可能会将一个完整的词语分开，造成分词时的错误，降低分词准确率，从而对最终分类效果造成影响。

（2）中文文本分词

本文选择Python中基于中文词库的jieba分词库来对新闻文本数据进行分词。将文本内容分割成单个的字、词或者短语，使计算机可以准确判断中文文本中的每一个词语，这种方法具有较高的分词精度和较快的分词速度，可以提高文本分类的准确率。

（3）去停用词

通过与停用词库进行比对，将新闻文本数据进行过滤，删除包括一些语气词、介词、代词在内的没有意义、对文本分类结果可能会有影响的词，提高文本关键词的密度。同时在一定程度上降低关键词的特征维度，提高分类的准确率以及分类效率。

1.3 向量空间模型（VSM）

结构化的数据可以大大提高计算机处理数据的速度。目前常用的文本表示方法有：布尔模型（Boolean Model）、概率模型（Probabilistic Model）、向量空间模型（Vector Space Model）。本文采用向量空间模型对新闻文本数据进行表示。

在向量空间模型中，每一篇新闻文本都能以一个维向量的形式在多维空间中进行表示，每一篇新闻文本数据中都包含大量的特征词。特征词的权重根据其对文本内容的作用以及重要性来确定，能够准确表示该文本主要内容的词或者对某一类文本内容具有较强的标识能力的词赋予较高的权重，反之赋予较低的权重。特征权重就是该词对应空间向量的一个维度坐标。可以进行如下表示：

新闻文本f在向量空间中就可以表示为：

其中，f是数据集中第篇新闻文本，=1，2，…，；是f中含有的特征词个数，w是新闻文本f中特征词t的特征权重，=1，2，…，。

1.4 加权朴素贝叶斯分类算法

贝叶斯分类算法是一种以统计学为基础的分类算法。朴素贝叶斯分类算法是对传统贝叶斯分类算法进行朴素的假设，所谓朴素就是假设数据类别之间彼此独立，互不产生任何影响。首先要计算属于某一类的先验概率，然后再利用贝叶斯定理计算其属于此类的后验概率，对各类后验概率的大小进行比较就可进行分类。虽然在现实中不存在这样的情况，但是在实践中对于文本分类问题进行朴素假设可以大大降低贝叶斯分类算法的复杂度。

对文本分类来说，设训练数据集={1，f，…，f}，训练集数据分为类，记为C，=1，2，…，。类C的先验概率为（C），则文本的后验概率为：

由朴素贝叶斯算法的独立性假设：各个特征词之间相互独立。可得条件概率：

将式（2）代入式（3）可得：

因为（）确定不变，所以在比较后验概率时只需要比较上式中的分子即可。即：

传统的朴素贝叶斯分类算法并没有考虑到分类时相同特征词在不同类别的特征权重是不一样的，在其独立性假设的前提下，相同特征词的重要程度都是一样的，这样假设会降低分类器的精确率。因此有必要对相同特征词，根据其在不同类别的重要程度不同赋予其不同的特征权重。本文选择TF-IDF算法来计算特征词的权重。

1.5 词频-逆文档频率（TF-IDF）算法

TF-IDF作为一种统计方法，被大量应用于信息检索以及文本分类技术中。算法采用TF和IDF两个参数来计算特征权重。通过计算词频可以得到在一篇文本中出现次数较高的特征词，在一定程度上可以反映该词对文本内容的重要程度较高；但是一些常用词，或者在数据集中多个文本中出现的词，对文本没有很好的区分作用，其重要程度较低。所以引入TF、IDF两个参数，综合考虑词频和逆文档频率，可以使特征词权重计算更加准确，文本分类结果精确率更高。

对于新闻文本fi中的特征词tj其特征权重计算公式如下：

其中，（t）是t在f中出现的次数；是该数据集中文本总数；（t）是数据集中含有t的文本数。

考虑到含有某一个特征词不在数据集中时，式（6）中的（t）为零，这时就会产生除零错误，所以对IDF进行拉普拉斯平滑处理，用（t）+1替换（t）得到：

所以优化后的TF-IDF计算公式为：

数据集中文本f中的特征词t的特征权重为：

将特征权重代入式（8）可得加权朴素贝叶斯分类算法公式：

2 基于TF-IDF的加权朴素贝叶斯分类实验

2.1 实验设置

为保证有足够的数据对模型进行训练，从而测试算法的分类效果及分类性能，实验数据选择复旦大学整理的新闻文本数据集以及搜狗新闻文本数据集。

实验采用两个数据集进行三组实验，每一组数据集都划分为两个，分别用于分类器的训练和测试。实验一：使用复旦大学整理的新闻数据集，含有政治、历史、教育、环境等20个类别，各有约9000篇新闻文本数据；实验二：实验一的训练集和测试集互换；实验三：使用搜狗新闻数据集，包含经济、教育、娱乐、科技等10个类别，各有约50000篇新闻文本数据。

2.2 评价指标

（1）精确率（Precision）

精确率是指对于分类结果，分类后的某个类别中，正确分类的样本占该类样本的比例，其计算公式为：

其中，（True Positive）为样本属于类C，并被分类器正确分类到类C的样本数。

（False Positive）为样本不属于类C，但被分类器分到类C的样本数。

（2）召回率（Recall）

召回率是指对于实际样本，分类器正确分类的样本占该类实际样本的比例，其计算公式为：

其中，为样本属于类C，但被分类器分到其他类的样本数。

（3）f1分数（f1_score）

f1_score是精确率和召回率的调和平均。其计算公式为：

f1_score可以用来对分类器进行综合评价，最大为1，最小为0。越接近1，说明分类器的分类性能越好，分类器的分类精度越高。

2.3 实验结果分析

三次实验结果如表1所示。

表1 基于TF-IDF的加权朴素贝叶斯分类实验结果

从表1中可以看出，三次实验的精确率都接近90%，说明本算法的准确性较高，可以实现较好的分类效果。

从召回率和f1_score来看，前两次实验的实验结果相差较小，实验三的召回率和f1_score均低于前两次实验。但是实验三的数据量是实验一和实验二的数据量的数倍，类别数量是前两次实验的二分之一，从一定程度上可以说明算法的性能会随着数据规模的增大而降低。

同时，实验三中的新闻类别数量少于实验一和实验二的数据类别数量，数据类别之间的相关性增大，算法的分类性能降低，这也验证了朴素贝叶斯分类器的独立性假设前提对于分类结果的影响。

3 结语

本文针对为党代表提供更加有效准确的网络热点新闻信息，选取TF-IDF为特征，计算特征权重并对朴素贝叶斯分类算法进行加权处理。这样可以避免朴素贝叶斯算法对相同特征词在不同文本中赋予相等的特征权重。在一定范围综合考虑词频以及相同特征词在不同类别文本中的重要程度，可以提高文本分类结果的准确性。但是朴素贝叶斯分类算法随着文本数据规模的增大，其稳定性和准确率都有所降低，并且由于对类别属性间的朴素假设，其对分类器的性能也有一定的影响，最终的结果也会存在一定的误差。在接下来的研究中，可以对TF-IDF算法进行改进，引入位置、词性因子等因素对特征权重的计算进行优化，提高特征权重的综合评价性，从而提高文本分类的准确性；同时可以选择其他的分类算法来克服朴素贝叶斯的朴素假设这一前提条件给实验结果带来的影响。

[1]杜永兴，牛丽静，秦岭，等.基于改进TF-IDF算法的牛疾病智能诊断系统[J].计算机应用与软件，2021，38（02）：50-53+57.

[2]Du Yongxing，Niu Lijing，Qin Ling，et al. Cattle disease intelligent diagnosis system based on improved TF-IDF algorithm [J]. Computer Applications and Software，2021，38（02）：50-53+57.

[3]但宇豪，黄继风，杨琳，等.基于TF-IDF与word2vec的台词文本分类研究[J].上海师范大学学报（自然科学版），2020，49（01）：89-95.

[4]Dan Yuhao， Huang Jifeng， Yang Lin， et al. Research on line text classification based on TF-IDF and word2vec[J]. Journal of Shanghai Normal University （Natural Sciences）， 2020，49（01）：89-95.

[5]李振兴，韩丽娜，史楠.基于贝叶斯分类模型的电影票房预测研究[J].计算机与数字工程，2020，48（09）：2233-2237.

[6]Li Zhenxing，Han Lina，Shi Nan. Research on the prediction of film box office based on bayesian classification model[J]. Computer & Digital Engineering，2020，48（09）：2233-2237.

[7]邹鼎杰.基于知识图谱和贝叶斯分类器的图书分类[J].计算机工程与设计，2020，41（06）：1796-1801.

[8]Zou Dingjie. Book classification based on knowledge graph and Bayesian classifier[J]. Computer engineering and design，2020，41（06）：1796-1801.

[9]牛永洁，田成龙.融合多因素的TFIDF关键词提取算法研究[J].计算机技术与发展，2019，29（07）：80-83.

[10]Niu Yongjie，Tian Chenglong. Research on TFIDF Keyword Extraction Algorithm Based on Multiple Factors[J]. computer technology and development，2019，29（07）：80-83.

[11]张波，黄晓芳.基于TF-IDF的卷积神经网络新闻文本分类优化[J].西南科技大学学报，2020，35（01）：64-69.

[12]Zhang Bo，Huang Xiaofang. Convolutional neural network for news text classification optimization based on TF-IDF[J]. Journal of Southwest University of Science and Technology，2020，35（01）：64-69.

[13]陈伟鹤，刘云.基于词或词组长度和频数的短中文文本关键词提取算法[J].计算机科学，2016，43（12）：50-57.

[14]Chen Weihe，Liu Yun. Keyword extraction algorithm based on length and frequency of words or phrases for short Chinese texts[J]. Computer Science，2016，43（12）：50-57.

[15]但唐朋，许天成，张姝涵.基于改进TF-IDF特征的中文文本分类系统[J].计算机与数字工程，2020，48（03）：556-560.

[16]Dan Tangpeng Xu Tiancheng Zhang Shuhan. A Chinese Text Classification System Based on Improved TF-IDF Feature[J]. Computer & Digital Engineering，2020，48（03）：556-560.

[17]邸鹏，段利国.一种新型朴素贝叶斯文本分类算法[J].数据采集与处理，2014，29（01）：71-75.

[18]Di Peng，Duan Liguo. New Naive Bayes Text Classification Algorithm[J]. Journal of Data Acquisition and Processing，2014，29（01）：71-75.

[19]赵燕，李晓辉，周云成，张越.基于朴素贝叶斯的农业文本分类方法研究[J].节水灌溉，2018（02）：98-102.

[20]Zhao Yan，Li Xiaohui，Zhou Yuncheng，et al. A Study on Agricultural Text Classification Method Based on Naïve Bayesian[J]. Water Saving Irrigation，2018（02）：98-102.

国家自然科学基金项目（No.51609086，U1804148）；河南省科技攻关计划（No.182102210059）