文本分类中支持向量机研究

2019-10-21何焱

河南科技 2019年29期

何焱

摘要：随着我国现代科技的快速发展，文本分类逐渐在信息化技术与数字化技术领域得到重视。利用计算处理系统处理文本信息，能够有效提升文本分类的质量与效率，提升数据信息的利用率，从而促进信息化技术的普及。而支持向量机是处理文本内容，加强文本分类速度，并通过文档建模、中文分词、分类器评估等形式，构建出的行之有效的统计语言模型，它可以推动文本分类工作的发展。本文结合国内外研究现状，探析文本分类内涵及支持向量机原理，提出基于支持向量机的文本分类算法。

关键词：文本分类;支持向量机;统计语言模型

中图分类号：TP391.1文献标识码：A文章编号：1003-5168（2019）29-0008-03

Research on Support Vector Machine in Text Categorization

HE Yan

（Zunyi Medical and Pharmaceutical College，Zunyi Guizhou 563002）

Abstract： With the rapid development of modern science and technology in China， text classification has gradually gained attention in the field of information technology and digital technology. The use of the computing processing system to process text information can effectively improve the quality and efficiency of text classification， improve the utilization of data information， and promote the popularization of information technology. The support vector machine is a statistical language model that is effective in processing text content， enhancing text classification speed， and constructing it through document modeling， Chinese word segmentation， and classifier evaluation， which can promote the development of text classification work. Based on the research status at home and abroad， this paper analyzed the text classification connotation and the principle of support vector machine， and proposed a text classification algorithm based on support vector machine.

Keywords： text classification;support vector machine;statistical language model

大数据时代，数据信息技术逐渐成为推动我国社会经济快速发展的重要途径，同时也是加速城市智能化、现代化发展的关键手段。随着云计算、物联网等技术的快速发展，数字信息技术得到我国社会各领域的广泛重视。然而，如何提升现代信息的利用效率，凸显数字信息的时代价值呢？人们需要从文本分类手段出发，整合现有的文本信息，使其成为大数据技术及云计算技术的重要组成部分。

1 国内外研究现状

20世纪中叶，文本分类得到了迅速的发展，并利用知识工程理论实现了人为定制分类体系的建构目标。而在21世纪初，相關专家和学者开始尝试利用机器学习的形式实现对文本的分类。这种不需要人为干预的文本分类方法得到快速的发展，并逐渐成为文本分类的主要研究内容[1-3]。2002年，美国学者提出基于权重修复的分类器，并对数据检索展开分析研究，提出了召回率、准确率等相关概念。2005年，英国学者提出使用向量机开展文本分类工作的理论方法，而在“深度学习”理论不断发展的过程中，神经网络逐渐被广泛应用到现代网络分类体系中，并且获得了显著的效果。

现阶段，文本分类的主要研究热点有四。首先是多语种分类，即如何通过分类器对跨文化文本进行分类。其次是噪声问题，即如何破解文本分类中所固有的噪声问题，尤其是短文本问题。再次是规模性文本分类，即如何在大规模数据文本中构建有效的分类器。最后是层次化分类，即根据文本内容间的主从关系、逻辑关系、依赖关系实现分级分类。

在文本分类理论研究过程中，我国学者通过明确“深度学习”理论的内涵、深化召回率与准确率等概念，从实际应用层面阐述文本分类的现实价值。文本分类是互联网检索技术、大数据技术、云计算技术、数据库技术等多种技术的基础性技术，在实际研究过程中，能够有效提升数据的检索质量与传输质量[4-6]。以现代检索技术为例，当前的检索平台以关键词检索为主，在数据文本的检索过程中存在着明显的局限，即60%的数据信息属于无效文本。而在文本分类技术快速发展的过程中，检索平台能够根据关键词的主题内容，向用户推送与之“存在内部逻辑关系”即依赖关系的数据信息，以此提升文本数据的利用率。

2 文本分类内涵与分类任务

2.1 文本分类的基本内涵

文本分类主要指通过计算机技术对文本集或物件，根据特定的分类标准或机制进行智能化、自动化分类标记的过程。具体属于朴素贝叶斯分类手法。在概念界定上，文本分类是基于用户兴趣、资讯过滤的自动分类，同时也是针对关键词、关键字的统计分类，更是以学科为基础的专业分类手段。在应用背景层面，伴随我国社会经济的快速发展，电子文档逐渐取代纸质文本成为现代文本数据的重要载体。相关数据显示，当前的互联网系统中依旧存在上百亿级别的网页数据，并以数千万级的发展速度增长着。因此，面对指数增长且基数庞大的数据世界，如何组织文本数据并从中探寻出有效的数据信息是当前信息化技术发展的挑战。为有效探寻解决方案，人们需要对数据信息进行检索、分类，以此提升数据资源的有效利用率。

2.2 文本分类的主要任务

根据相关理论定义，文本分类是各种自然语言分析、处理、检索任务的基础。通常来讲，文本分类与传统的监督方法相同，需要根据已知标记的数据模块上构建模型，并将模型进行存储以便开展后续的文本分析工作。而针对新文本，模型将会根据文本的特征及特点给出类别。与传统“监督”任务的不同之处在于，互联网技术难以从原始数据中获取信息，所以需要对文本的基本特征进行表示。其中，“特征表示”主要是指将文档数据作为语意信息或统计信息，以此使计算机系统能够有效识别文本单元内部的信息内容。其间往往需要利用特征向量的方式，对文本数据进行表示。通常采用的表示方式有词向量与TF-DF两种。在意义层面，文本分类能够有效缩短文本资料的处理时间，可以对数据信息进行检索，有利于文本的管理、储存与归类。通过文本分类，人们能够有效认知并区分事物，进而提升接触并了解自然物质世界的水平。

在文本分类力量研究上，我国相关专家学者主要的研究方向如下。首先是冗余过滤。如何过滤冗余信息，如何在重复性文本中筛选出性价比高的文本内容，是冗余过滤研究中的重点内容。其次是文档组织。文档组织具体指在文本分类的同时将具有内在逻辑的文本进行组织规划，以此提升文本与文本间的协调性。例如，在农业文本中，小麦种植应与小麦病害防范组织在一起，而根据实际应用需求，也可将小麦种植与大豆种植进行组织。再次是信息检索，信息检索的本质是利用已分类的文本，提升社会各领域的生产质量及工作效率。其间需要相关人员根据文本的主题特征及关键词等要素，作为检索标记或通过语段描述特征的分析方式，对不同语段的连词、动词、名词进行分析及处理，进而形成完整的文本标记库，以此通过计算机对文本内容的识别，提升文本检索质量。最后是信息过滤，信息过滤具体指与文本分类主体不存在主从关系、逻辑关系的其他信息，其中包括网络推广信息、广告信息等。

3 支持向量机原理及算法

3.1 支持向量机的基本原理

支持向量机是美国学者Vapnik通过统计学原理提出的机器学习法。在具体的文本分类过程中，支持向量机以结构风险小的优势，通过筛选函数子集及子集内部的判别函数，促使学习机的风险维持最小，以此确保在通过有限的样本训练获得的分类器对测试文本时，误差仍最小，进而获得拥有推广泛化与最优分类等能力的智能学习机。从理论层面来分析，支持向量机的主要思想是根据给定的有限训练样本的文本学习任务，对给定训练内容进行无差别的学习训练，以此获得最优的学习性能。而支持向量机的识别原则是以构建超平面平台作为决策主体，以此使正负间的有效空白最大化。其根本任务是建设目标函数集，并划分出不同的函数子集，进而实现文本分类的目的。而在线性不可分与可分的不均衡背景下，支持向量机能够将文本分类问题转化为规划问题，并利用线性折射的方式，将输入的数值映射到特殊维度的空间中，以此在构造有效的超平面空间时，进行线性分类。

近年来，支持向量机应用理论以其良好的特性与扎实的理论基础得到了广泛的支持与关注。在最开始时，它主要是为两种文本分类问题设计的，然而在具体应用过程中，多类分类较为普遍。文本分类则属于多类分类范畴。所以，如何使支持向量机的性能应用到文本分类范畴中，提升向量机的决策速度与训练质量是解决当前向量机文本分类问题的重要内容与课题。在理论应用中，支持向量机采用训练及学习的方式，提升自身性能，其基本内涵是对现有的分类方法及组合形式进行归纳与应用，以此实现自动化、智能化分类的效果。在具体文本分类过程中，支持向量机需要根据特定的算法，构建相应的分类器，并对分类器的分类程序进行整理及运算，从而形成子分类器。在标记样本的正类或负类的过程中，最终完成对文本类型的分类。

3.2 支持向量机的主要算法

3.2.1 組合法。支持向量机组合法中最早形成的文本分类算法是1-A-R算法，也称“一对多法”。在实际的文本分类过程中，人们需要应用到不同类型的分类器。其间往往构建两类分类器，每个分类器又需要将其中的内容进行二级分类，即在不同类别的分类器体系下，构建大量分类模块，从而输入有效的X归属集。通常来讲，一对多法主要是对k类文本问题建造k个支持向量机子分类系统，并在建立第n个子分类系统时，需要将从属第n类的文本样本标记为正向类。而不属于n类的文本样本则需要标记为负向类。

在具体的数据测试过程中，人们需要分别核算不同子分类体系的函数值，进而选取数值比较大的类别作为核算文本的基本类别。在现代文本分类过程中，一对多分类法简单易行，得到广泛的推广与应用。但是，一对多分类法存在诸多的缺陷，譬如泛化能力差，尤其在训练样本和训练时间成正相关时，训练难度较大，继而造成向量机训练不均衡等问题。在对规模较小的样本类别进行识别时，识别进度较低。而组合法中的一对一分类法，虽然与一对多分类法相似，也是采取两类分类器进行运算，然而在构建过程中，则采取类别q与类别o的数据样本作为数据训练基础，能够有效解决一对多算法的弊端。

3.2.2 决策树法。决策树通常是支持向量机的重要文本分类法，并通过相互融合的形式，形成类别多样的识别器。根据相关理论分析，人们能够发现，支持向量机决策树拥有较为分明的层次结构，不同层次的子分类器的重要性与级别各不相同，并且训练结合的内容与构成也存在较大的差异。人们需要根据不同层次间的逻辑结构进行文本分类测试，并输入不同的样本，子分类器的规模与数目必须介于决策树的纵向深度与数值1之间。因此，在具体测试过程中，样本测试速度比较快。由于决策树分支与节点的划分缺乏充足的理论依据，所以操作人员需要拥有充足的知识。

在具体应用过程中，向量机决策树能够同时处理规模庞大的文本类别与样本，保障每一个文本分类问题都能够得到有效解决。在测试及分类过程中，决策树对分类器的需求较少，能够保障最优的性能。从实效性角度来分析，决策树分类法的基本优势是训练样本与向量机分类器的数量较少，能够在节约成本的同时提升后续工作的分类水平。在文本分类过程中，操作人员不需要估计所有分类器，因此，在文本分类的应用过程中，决策树分类法具有显著的分类速度与训练速度。

4 结语

我国现代数据化技术与信息化技术的快速发展对文本分类提出了全新的要求，尤其是大数据时代，文本分类不仅要具有准确性、保真性、时效性，更要深入到不同语种、不同学科专业的文本分类过程中，进而在支持向量机的帮助下，推动我国数字信息化技术的快速发展。

参考文献：

[1]周庆平，谭长庚，王宏君，等.基于聚类改进的KNN文本分类算法[J].计算机应用研究，2016（11）：3374-3377.

[2]罗玉华，左军，李岩.SVM及其在文本分类中的应用[J].科技信息，2010（3）：441-442.

[3]丁勇，秦晓明，何寒晖.支持向量机的参数优化及其文本分类中的应用[J].计算机仿真，2010（11）：187-190.

[4]张小艳，李强.基于SVM的分类方法综述[J].科技信息，2008（28）：344-345.

[5]祝晓鲁，白振兴，贾海燕.自动文本分类技术研究[J].现代电子技术，2007（3）：121-124.

[6]王义忠，刘循，吴迪.一种改进的SVM文本分类算法[J].现代计算机，2014（26）：16-20.