基于机器学习的文本分类技术研究进展

2021-11-28徐萍

电脑知识与技术 2021年30期

徐萍

摘要：近些年来，在信息的搜索以及对数据进行挖掘的研究等领域中，文本自动分类技术是这个领域最新、最关键的技术，并且在互联网纷繁复杂的信息处理方面以及机器学习的基础知识上，文本分类技术处理面临种种挑战，在算法、模型以及对产品的评测进行一系列的研究工作，该文总结了当前在机器学习基础上的关键问题，例如：Web页的分类方法，分类的多层性，算法的扩展特性，标注的瓶颈，文本分类技术的分散性以及线性。该文综合考虑了以上因素，对其进行科学合理的分析，并对基于机器学习的文本分类技术的研发与改进方法提出几点建议与措施，希望可以起到借鉴作用。

关键词：机器学习;文本分类;结束研究;进展

中图分类号：TP3 文献标识码：A

文章编号：1009-3044（2021）30-0109-02

开放科学（资源服务）标识码（OSID）：

在如今这个信息时代，互联网上每天都有海量的不同信息涌入人们脑海当中。针对这些基于信息内容的机器学习数据挖掘工作以及对这些海量信息检索能力都是目前的热门研究领域。这些领域之中，文本分类技术是其中最为重要的一种技术，文本分类方法就是针对固定的类别基础上通过文字来对其进行识别。文本分类技术处理主要是理解自然的语言并对其进行有效处理，对信息进行管理以及组织，并对文字的内容进行过滤，分离出无效信息。因此，对基于机器学习的文字分类技术的研究就尤为重要。对不同文本分类方法进行总结并试图探讨优化当前文本分类技术的方法。基于机器学习的文字分类技术由三个部分组合而成：分类的最终实现效果，对实现的效果进行可视化演示以及对不同文本的呈现与显示。

1对于基于机器学习的文本分类技术基础研究工作

近些年来，我们对于机器学习的文本分类研究转化为对BOW的研究，并且对于不同算法的记录与统计，以及不同文本的分类情况进行预测。该项研究已经随着时代进展逐漸成为目前文本分类研究的基本工作。由统计学以及基于语言学的文本分类研究的方法进行文字分类结果的预测也已经得到了广泛的科学进步，与以上研究领域相关的技术也广泛地在基于机器学习的文本分类技术中进行运用，本文将在文本分类研究领域专家学者的研究基础上进行进一步研究与探讨。

1）对于文本进行表示

VSM依旧是目前研究的主要的方法，采用何种语意的单元来作为项及的计算数量权重的基本问题有两个，一是绝大部分的文字识别对象都是采用词这个单元来作为基本计算单位，以文字项的不同频率来作为文字分类基本运算的不同权重。Debole曾表示将监督这一环节作为文字分类的权重这一概念，从而充分发挥项的能够显著来进行权重的平衡发展。

而除了VSM以外，还有一种模型在相关人士之间也十分流行，那就是针对项的概率分布以及在二维的视图之上表示。文本分类研究专家Bigi等专家纷纷表示任意选取一个a文本以及b类的文本都可以被看成一个包括全部项的概率分布情况P（a，b），i=1…，这种分布方式叫作将分布进行特殊的概率表示，这种特殊的分布方法在一些情况中有着不错的表现。

另外还存在着一种语义的单元之间的相互联系，一些文字分类技术渴望利用自然的语言处理技术来进行基于机器学习的文字分类工作。而这种技术往往被BOW所忘记，所以，在这种新型的文字分类方法中，词语的意思以及短语之中的项都被运用到不同的分类方法之中进行文字分类工作。但是这种新型的文字分类处理方法还不太成熟，这是因为这种新型的文字分类方法会导致分类器的运行速度遭到很大的影响，并且这些新型的文字分类表示方法相对于传统的文字分类表示技术并没有很显著的提升，而且没有绝对的优势的产生。截止到现在，不属于VSM的方法的合理程度以及在理论上以及实践上的实际拓展应用上还仍然需要进一步的验证才能放心使用，目前这种方式的文字分类方法还比较的单一，并没有在相关领域进行进一步的实际应用[1]。

2）将空间的维度进行降低

对于空间维度降低的相关研究主要集中在几个方面：将维度降低后的模型的实际算法与另一种算法进行比较，对特征数集的分类效果关系进行讨论以及维度降低的幅度大小进行控制。对于空间维度降低的模型与之相对应的实际算法相关研究，到目前为止还仍然处于较为传统的阶段。（1）对于项以及其分类种别的相关研究通常采用概率统计的方法进行。（2）对于分布上相似程度较高的文本分类方法，应该采用信息熵的视角来进行探讨，比如通过研究全局的信息来探讨不同分类方法的可行性。（3）对于隐藏的特别含义的分析路径研究，我们通常采用不相同的分析方法来设法得到线性的映射，这种映射可以通过对矩阵的不同角度进行分析，并对文本分类矩阵进行化简工作，尽可能地使其变得简洁。数据维度的降低也会对研究结果产生影响，所以在研究过程中必须对其加以注意。在实验过程中，特征数目的增加通常会使分类器的理想效果产生不好的影响。在前人的研究文献中，他们发现：对于空间在正常范围内的维度降低可能会导致分类器特征数量的增加而随之增加。产生的结果可能会迅速得到提升并且十分平稳。但是如果在实际测试过程中，特征的数量增长速度过于迅速，也可能会影响分类器的最终结果，并且会使分类器的性能有很大的降低。该项研究说明：将空间的维度进行降低在可以高效处理开销的同时也可能会降低效果器的实际使用效果。在结果上面来看的话，BNS以及IG等一系列测量工具进行统计以及组合时具有一定程度的优势，但是针对不同的分类器会更乐于选择不相同的空间降低维度的方法。通常情况下使用的特征值会对不同的算法选择效果上有着不同的反应[2]。

3）评估的方法

在理论研究之中，Li和Yang两位学者都觉得对于训练数据导致的一些不同误差以及这些误差的复杂程度会使分类器的不同能力都通通显露出来。对平时研究中经常使用的不同分类的方法进行系统化分析。这两位学者将分类器得到最理想效果的条件以及受其同质化的损失的函数进行分类，分为训练当中的损失以及所构建的模型的复杂程度这两个门类。

2基于机器学习的文本研究方法的主要挑战以及当前取得的有效进展

就目前而言，对于机器学习相关领域的研究已经相对比较成熟，而基于机器学习的文本分类研究经过20年来的不断发展，解决了之前无法解决的一系列问题。在掌握数据量比较稀少的时候，分类器的标注量反而比较平均。但是目前还是有许多问题无法得到合理的解决。近些年来基于机器学习的文本分类研究领域主要面临的挑战有以下几点：（1）分类器的日常使用会被一些分类体系而影响，不同的类别适合不同的分类体系，要根据文本信息的体系而进行专门的识别工作。（2）在建立分类器之后得到的数据样本相对于尚未获得的数据数量过于稀少，导致产生的结果不能达到理想的效果。（3）在对于各个种类的分析时会遇到很多困难，比如遇到瓶颈问题是因为不同的文本数据更新的频次太高，导致无法对其进行科学合理的分析。以上三個问题需要我们对文本分类技术进行进一步的探索。

1）针对数据集的偏斜问题的研究

随着机器学习的文本分类方法的不断研究，我们发现收集的数据分布情况通常是偏斜，或者说是没有均匀分布。不同种类的差距有可能是数量级之间的差距。这是造成数据集分布不均衡的一大重要原因。

有效解决这一问题的合理措施有以下几点：（1）进行重新取样，可以进行对大类的信息进行选择性忽视，或者是可以对小类信息的错误代价采取进一步提高的策略。（2）采用最新型的分类方法和战略，比如传统的单类SVM会把原点来当作整个研究的中心点，而如果将其分离，会使之前难以解决的问题转化为被不同的数据分布所影响的问题。（3）运用更加优秀的效果评估方法来进行评测，比如ROC曲线，这种曲线在收集的数据偏斜情况下仍然能够进行正常的评估。并且相对于其他曲线，在基于机器学习的文本分类方法中，ROC曲线还具有更易被机器进行抓取与识别的优势[3]。

2）标注的瓶颈

在学习算法的过程当中必须要借助大量的样本来进行标注，但是当前已经标注的样本不能提供足够的有效信息，而且在研究过程中可以获取的样本相对于未知的数据还是太少，这就制约了基于机器学习的文本分类技术的研究进程。因此，如何用少量的已经标注的样本来进行研究是目前需要解决的关于标注瓶颈的问题。首先，要将预期的期望进行最大化应用，尽可能利用少量的样本进行标注，这种方法可以深度优化文本分类效果，综合提高文本分类的效率。另外一种解决方案是采用直推的方式，将分类器优先对少量的样本进行推测，挑选重点的有特征的信息数据进行分类识别工作，从而起到优化改进分类器的效果，相对于传统的标注分类方式，采用直推方法来对基于机器学习的文本进行分类识别能够使识别效率大幅提升。以上两种方法在对于标注的瓶颈优化解决上能够起到了较大的帮助[4]。

3）对Web进行合理分类

通常所说的文本分类方法都是将文本自身进行分类，但是在互联网视角上，尤其是Web页面的分类，其中所含有的有用的信息将会对文本进行体现，从而可以侧面测试并解决分类器的决策问题。在当前研究中，要怎样合理的展现这些结构性的不同样本信息来满足统计仍然是目前机器学习的文本分类研究领域尚未定论的问题。

4）多层分类

一般来讲，我们所研究的问题都是相对独立的，学者们普遍认为这些问题之间并没有联系。但是在研究的种类比较多的时候，比如利用目前互联网时代下丰富的Web信息来进行综合管理研究上，我们必须使用多层次的信息分类方法。多层分类是指对所研究的样本数据进行多个层次的研究探讨，在面对难以解决的必须通过大量数据才能解决的问题时通常有较好的表现。所以在基于机器学习的文本分类方法中，采用多层分类这种方式处理文本信息是一种较为理想的分类方式。

3结束语

本文对机器学习的文本分类技术基础进行研究并讨论其优化方法，对基于机器学习的文本研究方法面临的主要挑战进行总结，并对当前取得的有效进展进行总结。重点讨论了最近几年面对的文本分类难题以及对文本分类相关学者的最新研究内容进行总结。基于机器学习的文本分类技术在不同领域都有着广泛的应用，但伴随着时代的进步，人们的不同特殊需求也开始显露，人们不再局限于以前传统思想的束缚，越来越多的新型需求开始显现出来，这些新型需求也对当前的文字分类技术提出了挑战。文本分类技术还有许多问题仍然值得进一步研究，希望本文探讨出的几点结论能够起到借鉴作用。

参考文献：

[1] 周晶，沈隽城.基于大数据的机器学习技术对文本分类的研究[J].信息通信，2020，33（6）：5-6.

[2] 王爽.基于机器学习的自动文本分类方法研究[D].成都：电子科技大学，2020.

[3] 白亚莉.基于机器学习的新闻文本分类技术[C]//2019中国信息通信大会（CICC 2019）论文集.成都，2019：397-403.

[4] 韦灵，倪志平.基于自然语言处理和机器学习的文本分类及其运用[J].科技视界，2019（27）：88-89.

【通联编辑：代影】