基于大数据技术的机器学习算法研究探讨

2020-07-05纪兆华张晓华闫新惠

科技资讯 2020年15期

纪兆华　张晓华　闫新惠

摘要：该文探讨了基于大数据技术的机器学习算法，基于大数据进行机器学习的模型提高了算法的准确性，机器学习实现分析更高级别的数据，基于Spark+Hadoop处理技术的机器学习适应迭代式机器学习模型的特定需求，机器学习分析数据中的关系获得规律预测新样本。对数据进行收集、统计和分析的大数据系统引入机器学习进行大数据计算，机器学习的深度和广度也提升了大数据分析效率。

关键词：机器学习大数据技术算法

中图分类号：TP181 文献标识码：A 文章编号：1672-3791（2020）05（c）-0024-02

数据分析的基础是统计学，统计学最早用于大规模数据分析处理中;人工智能可以自动完成一些功能性操作，可以实现人类的部分智慧;作为人工智能分支的机器学习，其目标是机器不通过编程就能通过自学习并对特定对象实现问题的解决。大数据分析和人工智能以及机器学习，这3种技术之间有着高度的依赖，在相应领域中应用中实现其特定功能。大数据处理分析同人工智能和机器学习技术，来解决现实世界中不同领域的同一性质问题[1]。

1 大数据分析

Hadoop技术在分布式平臺开发和运行处理大规模数据功能强大，Mahout为一些机器学习算法框架库，但Mahout基于MapReduce计算框架，不适合处理迭代算法。基于内存的Spark框架在大数据处理领域具有关键的作用，Spark读写过程都是基于内存，减少了I/O时间的消耗，提高了运算速度。Spark技术是开源集群计算系统，是基于内存计算的，在数据分析时速度快，Hadoop能通过移动计算到这些存放数据的机器上能够提高效率。因此，基于Spark和Hadoop框架结合的机器学习算法，要解决Mahout在处理迭代算法处理数据时消耗资源过多和系统整体性能下降的缺陷，提高数据处理分析的速度。

2 机器学习

机器学习是人工智能的核心，是多领域交叉学科融合，能够利用自我学习算法对人类的学习行为进行模拟或者实现人类的学习行为。机器学习通过自我学习算法可以对原有的知识结构进行重新组织，从而获得新的知识，得到新的性能。机器学习是通过对机器模拟人类学习活动的研究，对现有知识进行理解，并获取新的知识和新的技能。

数据量规模越来越大，原有的单机计算机系统已经不能够完成对大数据进行数据分析的需求，云计算技术由此应运而生。基于MapReduce框架编写的Mahout机器学习库，使用HDFS技术在云基础架构上能够实现对大数据的存储要求，但I/O资源消耗过大造成系统整体性能降低。

3 基于大数据技术的机器学习

3.1 大数据进行机器学习的模型提升准确性高

大数据分析描述的重点是数据应用，机器学习主要是描述方法，要从大量完整而真实的原始数据中寻找到潜藏的有价值的知识和规律。机器学习要从大量数据中获取经验并且改善性能的方法，是数据挖掘要常采用的学习方法，从而实现某种程度的人工智能。大数据主要描述数据，是从数据量、数据类型和数据增长速度等角度，采用基于分布式架构进行一致性、资源调度和性能优化等对数据进行描述。大数据是要利用数据的价值，其关键技术为机器学习。数据的量越大，进行机器学习的模型提升的准确性越高。数据量越大、模型越复杂，机器学习算法的计算时间复杂度也就越高，也越离不开分布式计算与内存计算等大数据的关键技术，二者相辅相成，互相促进。

3.2 机器学习实现分析更高级别的数据

机器学习中是比较实用的，能够进行自学习数据挖掘的数据分析处理应用算法解决相关问题。通常没有设定好主体，主要是基于统计学习SVM、分类算法NaiveBayes、聚类算法Kmeans等各种算法，主要使用Hadoop的Mahout为工具，计算现有数据，对计算结果进行分析，并实现预测趋势，实现分析更高级别的数据。

3.3 基于Spark+Hadoop处理技术的机器学习适应迭代式机器学习模型的特定需求

随着大数据时代的到来，基于Spark+Hadoop处理技术的机器学习使得样本数量实现较大的增加，以大量的样本作为基础实现问题的分类求解。数据规模的爆炸式增长，单一服务器已经不能满足机器学习的需要，从单一服务器到成千上万台服务器扩展，就需要Hadoop技术来实现。在Hadoop技术架构下，本地计算和存储等功能可以由每台机器来实现。类似于Hadoop MapReduce通用并行计算框架的Spark，不仅具有Hadoop MapReduce的优点，而且Spark能更好地适用于数据处理与机器学习等需要迭代MapReduce算法。

基于弹性分布式数据集的Spark能够降低机器学习数据处理时I/O资源消耗和容错能力的开销，Spark+Hadoop处理技术的机器学习扩充了样本的数量，使数据价值能够最大化地发挥出来，从大规模、复杂结构的数据中通过大数据处理分析处隐藏在数据中的内在规律，适应了迭代式机器学习模型的特定需求。Spark常用机器学习算法的实现库Mlib，MLib基于弹性分布式数据集与Spark SQL实现无缝集成，以RDD为基石，可以构建大数据计算中心。通过大数据技术Spark+Hadoop进行全量数据分析，解决统计/机器学习依赖于数据抽样不能精准反映全集的现象，揭示其全量数据分析而能精准反映全集的机理。

3.4 机器学习分析数据中的关系获得规律预测新样本

机器学习在语音识别、自动驾驶、图像检索、自然语言处理等各个领域中都有着很多方面的应用。机器学习让计算机进行自“学习”，通过这样的算法，分析数据中的关系，并获得规律，分析其内在规律，再预测新的样本。以自动驾驶为例，实现自动驾驶，就需要识别交通标志。首先，通过机器学习算法学习交通标志，这包括数据集中的数百万张交通标志图片，可以采用机器学习中深度学习的卷积神经网络进行图像识别训练，并生成模型。自动驾驶系统让生成的模式，使用摄像头对实施交通标志反复验证、测试，并不断进行调优，从而实现较高的识别精确度。

4 结语

结合可以进行大数据分析技术的机器学习技术如模式识别、个性化推荐系统、智能控制等在淘宝、京东等网店购物时有着经典的应用。从原始数据的提取、转换、加载等形成一系列的处理，最终成为信息或知识，作为决策判断的标准。随着数据规模的扩大，对数据进行收集、统计和分析的大数据系统引入机器学习进行大数据计算，机器学习的深度和广度也提升了大数据分析效率。大数据和机器学习关联度大，二者联系紧密，大数据处理分析能够从大量数据里面发现隐藏的、有逻辑关系的准确的知识，并通过决策来执行。大数据分析算法有较多的算来源于机器学习，机器学习通过大数据的理论分析，在实际应用中进行优化，从而实现数据分析的目标，机器学习也成为大数据分析的重要支撑技术。

参考文献

[1] 刘兴建.基于大数据的机器学习趋势分析[J].信息与电脑：理论版，2019（13）：121-122，125.

[2] 姜娜，顾庆传，杨海燕，等.大数据下的机器学习算法[J].电脑与信息技术，2019，27（3）：30-33.

[3] 张素芳，翟俊海，王聪，等.大数据与大数据机器学习[J].河北大学学报：自然科学版，2018，38（3）：299-308，336.

[4] 宋雯博.大数据下的机器学习的应用趋势[J].电脑迷，2018（9）：158.