机器学习算法在文本信息挖掘中的应用

2016-02-07◆刘昆

网络安全技术与应用 2016年11期

关键词：均值数据挖掘向量

◆刘昆

（中国矿业大学徐海学院江苏 221008）

机器学习算法在文本信息挖掘中的应用

◆刘昆

（中国矿业大学徐海学院江苏 221008）

随着互联网技术的快速发展和进步，其已经在电子政务、电子商务、金融证券、电力通信等行业得到广泛使用，提高了社会信息化水平，也使人类社会进入到“互联网+”时代，积累了海量的信息资源。文本是网络文件的一种重要格式文件，百度、搜狐、搜狗、谷歌等搜索引擎多采用文本搜索模式，以便获取人们期望的信息，因此需要提高挖掘文本信息的准确度，进一步满足人们对信息检索的期望。本文详细地分析了支持向量机、BP神经网络、K均值等机器学习算法，分析了这些算法在文本数据挖掘中的应用效果及优势，以提升互联网利用文本数据的水平。

K均值；文本数据；BP神经网络；支持向量机

0 引言

文本信息挖掘是当前机器学习和模式识别研究的一个重点，其可以为互联网信息搜索提供强大的支撑和接口，满足人们的信息搜索需求[1]。经过多年的发展和应用，文本信息挖掘已经诞生了许多先进算法，可以大幅度提升文本信息挖掘的准确度[2]。但是，随着光线互联网、移动通信网络的快速发展和进步，电力、金融、政务、商务、教育等领域均引入了先进的信息化系统，这些系统运行时积累了海量的数据资源，这些数据资源大部分为文本信息，因此文本信息挖掘面临着海量数据，维度和属性的增多，非常容易造成文本信息挖掘陷入到局部最优化，降低了算法的准确度[3]。

1 互联网时代文本信息挖掘的应用

互联网时代，文本信息挖掘已经在搜索引擎、商品推荐、科学研究、医疗卫生和网上教育等领域得到广泛普及和使用，取得了显著的应用成效[4]。

（1）搜索引擎。搜索引擎是文本信息挖掘的重要领域，百度、谷歌、搜狗等公司一直致力于文本信息挖掘研究，根据用户输入的信息进行搜索时能够更加准确地获取期望内容，搜索引擎面临的信息较多，并且也是信息搜索的重要基础[5]。

（2）商品推荐。目前，京东商城、天猫商城、苏宁云商等大中型互联网商务网站迅速崛起，其包括数以万计的商品，因此在人们搜索商品的过程中，为了提高浏览的准确度，可以根据人们的历史浏览记录、购买记录等自动化推荐商品，这样就可以更好地缩短人们浏览商品的时间，提高商品浏览的效率。

（3）科学研究。科学研究面临着海量的文献资源，这些文献资料在搜索时非常繁琐，因此利用文本信息挖掘可以实时搜索科技文献，便于为知网、万方、维普等多个文献数据库的信息检索提供辅助支撑，具有重要的作用和意义。

（4）医疗卫生。当前我国信息化得到了深入应用，医疗卫生改革的重要途径就是引入信息化模型，开发智能医疗系统。医疗诊断过程中，为了能够更好地为患者提供服务，可以结合患者的病历及诊断疗效建立一个系统模型，构建一种精准医疗模式，将患者、主治医师关联起来，提供更好的医疗服务水平。

（5）网上教育。目前，教育行业开发了许多的系统，比如教务管理系统、图书馆管理系统、学籍管理系统、科研管理系统和成绩管理系统，这些系统运行积累了海量的文本数据，人们为了提高网络教育智能化水平，利用数据挖掘构建智能教育模型，将名师、问题、学生关联起来，提供一个网上教育渠道。

2 机器学习算法在文本信息挖掘中的应用

2.1 K均值

K均值是一种无监督学习算法，其可以将网络上数以亿计的文本划分为N个簇，每一个簇都包含一个簇心，用户输入相关的信息之后，可以计算该文本与N个簇心的距离，选择一个距离最近的簇与文本合并到一起。经过多年的应用，K均值在文本信息挖掘中得到了极大的改进，比如引入模糊数学理论优化目标函数，提出了模糊K均值算法，将硬划分模式改为软划分，这样就可以更加准确地划分文本类别；引入模拟退火思想，可以自行向下将所有的文本进行划分，利用层次分析模式，构建一个树型文本分类结构实现文本挖掘，具有重要的作用[6]。

2.2 支持向量机

支持向量机是一种有监督学习算法，其采用统计学习理论，采用结构风险最小化原则，适当地选择函数子集以及判别函数，这样就可以使学习机器承受的风险达到最小化程度，因此可以使文本数据挖掘的学习训练样本达到最佳程度，并且能够保证结构图集的误差处于最小化。具体地，支持向量机在文本数据挖掘中可划分为两个关键类型，具体描述如下。

（1）线性可分情况。原始解空间可以划分为两种类别，分别是两个超平面，此时就可以直接对空间进行划分和学习。

（2）线性不可分情况。如果原始解空间线性不可分，此时需要在支持向量机中加入松弛变量，利用非线性映射关系将低维信息映射到高维空间中，这样就可以将线性不可分转变为线性可分，从而实现文本分类挖掘。

2.3 BP神经网络

BP神经网络又被称为连接机模型，采用了心理学、神经学、网络学和传感器等学科的知识，整合了生物神经网络系统活动的整个过程，能够模仿人类学习的过程和大脑神经系统活动的规律，建立一种计算模式，将一个个的神经单元连接在一起，形成一个互联网学习和分类系统，具有自行学习、组织和并发处理的优点，在语音分析、计算机视觉、图像识别等众多方面具有突出的贡献。近来一段时间，人工神经网络技术得到跨越式的发展，成为了模式识别的主要工具。在文本信息挖掘领域，BP神经网络具有很多的应用优势：

（1）自行学习和适应能力：BP神经网络具有较强的自学习能力，能够将学习到的网络结构保存起来，便于输入数据进行训练，同时也可以根据系统数据的输入情况，动态地调整神经网络的学习过程，动态更新学习网络模型。

（2）泛化能力：泛化能力即为在设计模式分类器的时候，要同时考虑两个方面，一方面要对分类对象的正确性有所保证，另一方面是注意对未处理过或未碰见过的模式是否能正确分类。可见BP神经网络具有把学习的成果应用于新领域的能力。

（3）容错能力：即为BP神经网络在部分网络遭到破坏时候，对整体的操作不造成大的影响，通俗地讲就是系统部分破坏还能正常工作。所以BP神经网络有着强大的容错能力。

（4）非线性映射能力：BP神经网络本质上有着从输入到输出的映射功能，其能任意精度靠近所有非线性连续函数。这就为求解内部机制复杂的问题提供了强有力的技术支持。

2.4 其他机器学习算法

随着文本挖掘算法的提出和改进，人们在K均值、BP神经网络和支持向量机算法诞生之后又提出了许多的算法，比如贝叶斯理论、信息论、遗传算法等，这些算法也可以大幅度提升文本信息数据挖掘的准确度。信息论利用率失真理论可以对数据进行压缩和分析，将海量的数据集划分到几个簇中，然后根据率失真代价函数进行优化，实现数据集分类。遗传算法可以利用生物进化模型，引入选择算子、变异算子、交换算子等，提高生物进化群体的多样化。遗传算法在文本信息挖掘领域中，提高了文本信息挖掘的性能，具有重要的作用。