APP下载

机器学习算法在文本信息挖掘中的应用

2016-02-07◆刘

网络安全技术与应用 2016年11期
关键词:均值数据挖掘向量

◆刘 昆

(中国矿业大学徐海学院 江苏 221008)

机器学习算法在文本信息挖掘中的应用

◆刘 昆

(中国矿业大学徐海学院 江苏 221008)

随着互联网技术的快速发展和进步,其已经在电子政务、电子商务、金融证券、电力通信等行业得到广泛使用,提高了社会信息化水平,也使人类社会进入到“互联网+”时代,积累了海量的信息资源。文本是网络文件的一种重要格式文件,百度、搜狐、搜狗、谷歌等搜索引擎多采用文本搜索模式,以便获取人们期望的信息,因此需要提高挖掘文本信息的准确度,进一步满足人们对信息检索的期望。本文详细地分析了支持向量机、BP神经网络、K均值等机器学习算法,分析了这些算法在文本数据挖掘中的应用效果及优势,以提升互联网利用文本数据的水平。

K均值;文本数据;BP神经网络;支持向量机

0 引言

文本信息挖掘是当前机器学习和模式识别研究的一个重点,其可以为互联网信息搜索提供强大的支撑和接口,满足人们的信息搜索需求[1]。经过多年的发展和应用,文本信息挖掘已经诞生了许多先进算法,可以大幅度提升文本信息挖掘的准确度[2]。但是,随着光线互联网、移动通信网络的快速发展和进步,电力、金融、政务、商务、教育等领域均引入了先进的信息化系统,这些系统运行时积累了海量的数据资源,这些数据资源大部分为文本信息,因此文本信息挖掘面临着海量数据,维度和属性的增多,非常容易造成文本信息挖掘陷入到局部最优化,降低了算法的准确度[3]。

1 互联网时代文本信息挖掘的应用

互联网时代,文本信息挖掘已经在搜索引擎、商品推荐、科学研究、医疗卫生和网上教育等领域得到广泛普及和使用,取得了显著的应用成效[4]。

(1)搜索引擎。搜索引擎是文本信息挖掘的重要领域,百度、谷歌、搜狗等公司一直致力于文本信息挖掘研究,根据用户输入的信息进行搜索时能够更加准确地获取期望内容,搜索引擎面临的信息较多,并且也是信息搜索的重要基础[5]。

(2)商品推荐。目前,京东商城、天猫商城、苏宁云商等大中型互联网商务网站迅速崛起,其包括数以万计的商品,因此在人们搜索商品的过程中,为了提高浏览的准确度,可以根据人们的历史浏览记录、购买记录等自动化推荐商品,这样就可以更好地缩短人们浏览商品的时间,提高商品浏览的效率。

(3)科学研究。科学研究面临着海量的文献资源,这些文献资料在搜索时非常繁琐,因此利用文本信息挖掘可以实时搜索科技文献,便于为知网、万方、维普等多个文献数据库的信息检索提供辅助支撑,具有重要的作用和意义。

(4)医疗卫生。当前我国信息化得到了深入应用,医疗卫生改革的重要途径就是引入信息化模型,开发智能医疗系统。医疗诊断过程中,为了能够更好地为患者提供服务,可以结合患者的病历及诊断疗效建立一个系统模型,构建一种精准医疗模式,将患者、主治医师关联起来,提供更好的医疗服务水平。

(5)网上教育。目前,教育行业开发了许多的系统,比如教务管理系统、图书馆管理系统、学籍管理系统、科研管理系统和成绩管理系统,这些系统运行积累了海量的文本数据,人们为了提高网络教育智能化水平,利用数据挖掘构建智能教育模型,将名师、问题、学生关联起来,提供一个网上教育渠道。

2 机器学习算法在文本信息挖掘中的应用

2.1 K均值

K均值是一种无监督学习算法,其可以将网络上数以亿计的文本划分为N个簇,每一个簇都包含一个簇心,用户输入相关的信息之后,可以计算该文本与N个簇心的距离,选择一个距离最近的簇与文本合并到一起。经过多年的应用,K均值在文本信息挖掘中得到了极大的改进,比如引入模糊数学理论优化目标函数,提出了模糊K均值算法,将硬划分模式改为软划分,这样就可以更加准确地划分文本类别;引入模拟退火思想,可以自行向下将所有的文本进行划分,利用层次分析模式,构建一个树型文本分类结构实现文本挖掘,具有重要的作用[6]。

2.2 支持向量机

支持向量机是一种有监督学习算法,其采用统计学习理论,采用结构风险最小化原则,适当地选择函数子集以及判别函数,这样就可以使学习机器承受的风险达到最小化程度,因此可以使文本数据挖掘的学习训练样本达到最佳程度,并且能够保证结构图集的误差处于最小化。具体地,支持向量机在文本数据挖掘中可划分为两个关键类型,具体描述如下。

(1)线性可分情况。原始解空间可以划分为两种类别,分别是两个超平面,此时就可以直接对空间进行划分和学习。

(2)线性不可分情况。如果原始解空间线性不可分,此时需要在支持向量机中加入松弛变量,利用非线性映射关系将低维信息映射到高维空间中,这样就可以将线性不可分转变为线性可分,从而实现文本分类挖掘。

2.3 BP神经网络

BP神经网络又被称为连接机模型,采用了心理学、神经学、网络学和传感器等学科的知识,整合了生物神经网络系统活动的整个过程,能够模仿人类学习的过程和大脑神经系统活动的规律,建立一种计算模式,将一个个的神经单元连接在一起,形成一个互联网学习和分类系统,具有自行学习、组织和并发处理的优点,在语音分析、计算机视觉、图像识别等众多方面具有突出的贡献。近来一段时间,人工神经网络技术得到跨越式的发展,成为了模式识别的主要工具。在文本信息挖掘领域,BP神经网络具有很多的应用优势:

(1)自行学习和适应能力:BP神经网络具有较强的自学习能力,能够将学习到的网络结构保存起来,便于输入数据进行训练,同时也可以根据系统数据的输入情况,动态地调整神经网络的学习过程,动态更新学习网络模型。

(2)泛化能力:泛化能力即为在设计模式分类器的时候,要同时考虑两个方面,一方面要对分类对象的正确性有所保证,另一方面是注意对未处理过或未碰见过的模式是否能正确分类。可见BP神经网络具有把学习的成果应用于新领域的能力。

(3)容错能力:即为BP神经网络在部分网络遭到破坏时候,对整体的操作不造成大的影响,通俗地讲就是系统部分破坏还能正常工作。所以BP神经网络有着强大的容错能力。

(4)非线性映射能力:BP神经网络本质上有着从输入到输出的映射功能,其能任意精度靠近所有非线性连续函数。这就为求解内部机制复杂的问题提供了强有力的技术支持。

2.4 其他机器学习算法

随着文本挖掘算法的提出和改进,人们在K均值、BP神经网络和支持向量机算法诞生之后又提出了许多的算法,比如贝叶斯理论、信息论、遗传算法等,这些算法也可以大幅度提升文本信息数据挖掘的准确度。信息论利用率失真理论可以对数据进行压缩和分析,将海量的数据集划分到几个簇中,然后根据率失真代价函数进行优化,实现数据集分类。遗传算法可以利用生物进化模型,引入选择算子、变异算子、交换算子等,提高生物进化群体的多样化。遗传算法在文本信息挖掘领域中,提高了文本信息挖掘的性能,具有重要的作用。

3 结束语

文本挖掘是当前最为重要的互联网搜索内容,其可以为用户提供强大的信息检索能力,已经在搜索引擎、文献分类、医疗卫生等领域得到广泛普及和使用,取得了显著的应用成效。论文基于笔者的学习实践和经验,详细探讨了K均值、支持向量机、BP神经网络等算法的应用原理及成效,可以为提升文本信息挖掘的准确度提供支撑。

[1]孙师尧,妙全兴.基于改进SVM和HMM的文本信息抽取算法[J].计算机应用与软件,2015.

[2]文平,刘渊,张春瑞.基于后缀树的半监督自适应多密度文本聚类算法[J].小型微型计算机系统,2016.

[3]吐尔地·托合提,艾克白尔·帕塔尔,艾斯卡尔·艾木都拉.语义词特征提取及其在维吾尔文文本分类中的应用[J].中文信息学报,2014.

[4]徐健锋,许园,许元辰等.基于语义理解和机器学习的混合的中文文本情感分类算法框架[J].计算机科学,2015.

[5]王生生,玄雪花.基于定性空间推理的中文文本空间关系识别[J].吉林大学学报(理学版),2016.

图1 过滤型特征选择流程

过滤型特征选择方式在使用上较为简单,但是由于选择的数据是比较特殊的特征子集,虽然提高了计算的准确率,但是不能包含全部的数据簇,针对不同数据集的鲁棒性和适应性方面存在缺陷。

3.2 封装型选择算法

封装型特征选择方式是依靠具体的分类器进行选择,这种算法可以大大提高数据分类的精度。但是在计算的过程中,分类器的性能直接决定分类结果,所以效率较低,不适合数据庞大的数据集或高维数据的运算,但是比较适合小众的数据选择,比如小语种学科数据集的选择。封装型选择方式如图2所示:

图2 封装型选择方式

4 结束语

由此可知,在数据挖掘的过程中,利用特征加权与特征选择算法可以有效地抑制高维数据和数据过于庞大的问题,帮助工程技术人员及用户能够快速有效地将潜在重要数据搜索出来,并进行合理的分配。

参考文献:

[1]邓文韬.基于几何特征加权和选择的数据空间聚类算法研究[J].信息技术与信息化,2014.

[2]邓莹,杨双远,刘菡.基于可变加权的高维数据子空间聚类算法研究[J].微型机与应用,2009.

猜你喜欢

均值数据挖掘向量
向量的分解
聚焦“向量与三角”创新题
探讨人工智能与数据挖掘发展趋势
均值—方差分析及CAPM模型的运用
均值—方差分析及CAPM模型的运用
基于并行计算的大数据挖掘在电网中的应用
向量垂直在解析几何中的应用
一种基于Hadoop的大数据挖掘云服务及应用
向量五种“变身” 玩转圆锥曲线
关于均值有界变差函数的重要不等式