APP下载

机器学习算法在数据挖掘中的应用

2018-03-23杨金劳

电子技术与软件工程 2018年4期
关键词:数据定位

摘 要随着科学技术的快速发展,各种新鲜的事物和理念得到了广泛的应用。其中机器学习算法就是一则典型案例——作为一种新型的算法,其广泛应用于各行各业之中。本篇论文旨在探讨机器学习算法在数据挖掘中的具体应用,我们利用庞大的移动终端数据网络,加强了基于GSM网络的户外终端定位,从而提出了3个阶段的定位算法,有效提高了定位的精准度和速度。

【关键词】学习算法 GSM网络 定位 数据

移动终端定位技术由来已久,其主要是利用各种科学技术手段定位移动物体的精准位置以及高度。目前,移动终端定位技术主要应用于军事定位、紧急救援、网络优化、地图导航等多个现代化的领域,由于移动终端定位技术可以提供精准的位置服务信息,所以其在市场上还是有较大的需求的,这也为移动终端定位技术的优化和发展,提供了推动力。随着通信网络普及,移动终端定位技术的发展也得到了一些帮助,使得其定位的精准度和速度都得到了全面的优化和提升。同时,传统的定位方法结合先进的算法来进行精准定位,目前依旧还是有较大的进步空间。在工作中我选取机器学习算法结合数据挖掘技术对传统定位技术加以改进,取得了不错的效果,但也遇到了许多问题,例如:使用机器学习算法来进行精准定位暂时无法满足更大的区域要求,还有想要利用较低的设备成本,实现得到更多的精准定位的要求比较困难。所以本文对机器学习算法进行了深入的研究,希望能够帮助其更快速的定位、更精准的定位,满足市场的需要。

1 数据挖掘概述

数据挖掘又名数据探勘、信息挖掘。它是数据库知识筛选中非常重要的一步。数据挖掘其实指的就是在大量的数据中通过算法找到有用信息的行为。一般情况下,数据挖掘都会和计算机科学紧密联系在一起,通过统计集合、在线剖析、检索筛选、机器学习、参数识别等多种方法来实现最初的目标。统计算法和机器学习算法是数据挖掘算法里面应用得比较广泛的两类。统计算法依赖于概率分析,然后进行相关性判断,由此来执行运算。

而机器学习算法主要依靠人工智能科技,通过大量的样本收集、学习和训练,可以自动匹配运算所需的相关参数及模式。它综合了数学、物理学、自动化和计算机科学等多种学习理论,虽然能够应用的领域和目标各不相同,但是这些算法都可以被独立使用运算,当然也可以相互帮助,综合应用,可以说是一种可以“因时而变”、“因事而变”的算法。在机器学习算法的领域,人工神经网络是比较重要和常见的一种。因为它的优秀的数据处理和演练、学习的能力较强。

而且对于问题数据还可以进行精准的识别与处理分析,所以应用的频次更多。人工神经网络依赖于多种多样的建模模型来进行工作,由此来满足不同的数据需求。综合来看,人工神经网络的建模,它的精准度比较高,综合表述能力优秀,而且在应用的过程中,不需要依赖专家的辅助力量,虽然仍有缺陷,比如在训练数据的时候耗时较多,知识的理解能力还没有达到智能化的标准,但是,相对于其他方式而言,人工神经网络的优势依旧是比较突出的。

2 以机器学习算法为基础的GSM网络定位

2.1 定位问题的建模

建模的过程主要是以支持向量机定位方式作为基础,把定位的位置栅格化,面积较小的栅格位置就是独立的一种类别,在定位的位置内,我们收集数目庞大的终端测量数据,然后利用计算机对测量报告进行分析处理,测量栅格的距离度量和精准度,然后对移动终端栅格进行预估判断,最终利用机器学习进行分析求解。

2.2 采集数据和预处理

本次研究,我们采用的模型对象是我国某一个周边长达10千米的二线城市。在该城市区域内,我们测量了四个不同时间段内的数据,为了保证机器学习算法定位的精准性和有效性,我们把其中的三批数据作为训练数据,最后一组数据作为定位数据,然后把定位数据周边十米内的前三组训练数据的相关信息进行清除。一旦确定某一待定位数据,就要在不同的时间内进行测量,按照测量出的数据信息的经纬度和平均值,再进行换算,最终,得到真实的数据量,提升定位的速度以及有效程度。

2.3 以基站的经纬度為基础的初步定位

用机器学习算法来进行移动终端定位,其复杂性也是比较大的,一旦区域面积增加,那么模型和分类也相应增加,而且更加复杂,所以,利用机器学习算法来进行移动终端定位的过程,会随着定位区域面积的增大,而耗费更多的时间。利用基站的经纬度作为基础来进行早期的定位,则需要以下几个步骤:要将边长为十千米的正方形分割成一千米的小栅格,如果想要定位数据集内的相关信息,就要选择对边长是一千米的小栅格进行计算,而如果是想要获得边长一千米的大栅格,就要对边长是一千米的栅格精心计算。

2.4 以向量机为基础的二次定位

在完成初步定位工作后,要确定一个边长为两千米的正方形,由于第一级支持向量机定位的区域是四百米,定位输出的是以一百米栅格作为中心点的经纬度数据信息,相对于一级向量机的定位而言,二级向量机在定位计算的时候难度是较低的,更加简便。后期的预算主要依赖决策函数计算和样本向量机计算。随着栅格的变小,定位的精准度将越来越高,而由于增加分类的问题数量是上升的,所以,定位的复杂度也是相对增加的。

2.5 以K-近邻法为基础的三次定位

第一步要做的就是选定需要定位的区域面积,在二次输出之后,确定其经纬度,然后依赖经纬度来确定边长面积,这些都是进行区域定位的基础性工作,紧接着就是定位模型的训练。以K-近邻法为基础的三次定位需要的是综合训练信息数据,对于这些信息数据,要以大小为选择依据进行筛选和合并,这样就能够减少计算的重复性。当然了,选择的区域面积越大,其定位的速度和精准性也就越低。

3 结语

近年来,随着我国科学技术的不断发展和进步,数据挖掘技术愈加重要。根据上面的研究,我们证明了,在数据挖掘的过程中,应用机器学习算法具有举足轻重的作用。作为一门多领域互相交叉的知识学科,它能够帮助我们提升定位的精准度以及定位速度,可以被广泛的应用于各行各业。所以,对于机器学习算法,相关人员要加以重视,不断的进行改良以及改善,切实的发挥其有利的方面,将其广泛应用于智能定位的各个领域,帮助我们解决关于户外移动终端的定位的问题。

参考文献

[1]陈小燕,CHENXiaoyan.机器学习算法在数据挖掘中的应用[J].现代电子技术,2015,v.38;No.451(20):11-14.

[2]李运.机器学习算法在数据挖掘中的应用[D].北京邮电大学,2014.

[3]莫雪峰.机器学习算法在数据挖掘中的应用[J].科教文汇,2016(07):175-178.

作者简介

杨金劳(1982-),女,山西省运城市人。硕士学位。现为山西运城农业职业技术学院讲师。研究方向为数据库、数据挖掘、软件开发。

作者单位

山西运城农业职业技术学院 山西省运城市 044000

猜你喜欢

数据定位
定位的奥秘
《导航定位与授时》征稿简则
Smartrail4.0定位和控制
找准定位 砥砺前行
浅谈计量自动化系统实现预购电管理应用
基于RFID的室内无线定位识别系统
青年择业要有准确定位