基于Hadoop平台的数据处理及应用

2018-05-10张仁美

电子技术与软件工程 2018年24期

张仁美

摘要

伴随着现代化信息技术的发展，特别是互联网的应用与普及，人们越来越多的采用互联网技术进行工作、学习与生活活动，由此产生了大量的数据。如果能够对这些数据进行整理和分析，就能够得到许多有用的信息，这些信息将极大的促进社会生产的发展，因此，如何对互联网中海量数据进行处理，并提取出有效信息，成为人们关注的重点。本文从Hadoop技术的使用必要性出发，对Hadoop技术的应用进行研究。

【关键词】数据处理 Hadoop平台应用

Hadoop技术时一种当前非常流行的数据处理技术，Hadoop技术可以对Web日志中的海量数据进行统计并处理，从而得到有效的数据处理信息。Web日志中包含着计算机使用用户的大量数据信息，例如用户的浏览喜好、访问地点、访问时间等，这些数据数量庞大，十分复杂，传统的计算机数据处理技术对Web日志数据的处理能力较差，难以满足现代社会对于数据处理的需求，Hadoop数据处理技术就是在这样的背景下被发明出来并逐步普及。

1现代数据处理使用Hadoop数据处理技术的重要性分析

现代人对于互联网的依赖越来越重，人们可以通过互联网工作、学习、社交、娱乐、购物活动，这些活动都是建立在互联网云计算技术的基础上进行的，这些活动通过对Web进行访问来实现，而数据就是在对Web访问的过程中产生的。举一个生动的例子，以新浪微博网页为例，公众人物的“微博”访问量过亿，转发和评论量过千万已经是非常常见的现象，由此产生的数据的数量之巨大可想而知。人们在访问Web时留下的数据没有规律可言，这些数据都是访问用户的个人生活数字化轨迹，与他人的重合率很小。Web访问数据的数量过多，规律性较差的特点决定了对Web访问数据处理的难度极高，但Web访问数据中包含着大量的信息，如果可以对这些信息进行提取，从小的方面来说可以掌握Web访问者的个人偏好和需求，从大的方面来说可以预估世界经济与政治动向。因此，如果能对这些数据进行有效处理，将会获得巨大的信息价值。Hadoop技术就是在对数据处理要求越来越高的背景下诞生并投入使用的，Hadoop技术利用分布式方法对海量数据进行处理，从而实现对海量数据的快速分析。例如，从一个500M的数据库中寻找到一个特定的内容，我们可以利用Linux命令grep，也可以对文件编程，通过正则匹配来得到我们想要的结果，但如果数据库容量为100T，再利用以上两种方法就行不通了，这时就需要用到Hadoop技术。Hadoop技术通过将Linux的链接pe组成分布式结点，然后再通过mapreduce规则定义接口方法，Hadoop就会自动的把信息分布到结点上，从而得到我们想要的结果。因此，Hadoop技术对于现代海量数据处理具有极高的重要性。

2Hadoop数据服务平台中心的关键技术和应用

2.1技术要点

（1）当前数据服务平台还需要不断加强分布式层次化体系结构向外扩展的能力，一般大数据服务平台系统都具有不同类别的分布形式并且可以不断扩大整个体系结构所包含的范围，这是大数据服务平台在面对不同的储存环境时有效的储存管理办法，以此来提高整个数据服务平台的稳定性并且有效的扩大平台数据的容量。建设数据服务中心过程中一定要具有统一、适用性强的数据模型，确保数据模型能够将各种类型结构的数据的基本特征明确的表达出来。需要简化操作步骤，以便被大范围的投入使用。由于目前大数据被广泛的应用到不同的科学技术领域，需要对数据的储存模式进行不同类别的配置。

（2）增加数据平台的语言查询能力，加大整个关系数据库的集成速度。当前应用于数据服务平台的查询语言应主要通过系统的组织能力对非结构化语言进行统一的组织和管理。查询过程中系统自动提取和整合整个平台的非结构化数据，确保整个查询过程的高效性。大数据服务中心内部应配置相应的并行数据分析挖掘算法，在服务平台内部设置相应数量的管理工具，对每个数据的真实含义进行充分的分析和挖掘，为广大用户提供准确性高的数据信息。将服务平台的应用领域进行不断的拓展，让非结构数据具有开发式的结构框架，以适用于广大用户不同类型的数据检索方法，改变数据平时的集成和融合方式，增加检索数据整体的匹配性，努力打造一个开放统一的数据服务平台，不断拓展非结构化数据管理系统的应用范围。数据服务平台需要提供不同类别的系统接口，以便于用户可以在不同的系统上使用数据服务平台。

2.2主要应用

目前数据服务平台多被应用到制作泛化表模型，可以将各种复杂的数据清晰的表示出来，并且能够支持多种模式同时使用。能够同时对大量的数据进行分析和计算，极大程度上提高了计算机处理大数据的综合能力。Hadoop平台的数据服务中心可根据系统储存的需要进行扩大或缩小的自我调节。这也直接决定了数据的存放模式，可以将不同的数据进行分类存放，并且存放数据的位置并不是一成不变的，会不断随着系统负载的变化而不断改变存放位置。利用Hadoop数据服务平台所形成的泛化表结构是一个可进行调整的分层储存结构，建立时以无模式对集合为主要基础，让不同结构层次的储存空间相互联系。一般上层储存结构主要用于限定数据的基本逻辑结构，而下层的储存结构主要规定了数据在物理上的组织方式，并且该储存模式可以根据上层储存数据的不同种类来配置与之相对应的下层结构。可以使用主从模式下的分布索引功能，以提高整个数据服务平台的检索效率，具有强大的语言查询处理功能，支持大多数的语言查询处理方式。

3总结

Hadoop技术可以对海量数据进行快速分析，从而高效的筛选出使用者想要获取的数据信息，因此在现代大数据分析工作中被广泛的应用;如果没有Hadoop技术，网络电商就无法为用户推送个性化定制的商品推荐，社交网站也无法为用戶推送他们所感兴趣的内容：因此，Hadoop技术对于海量数据处理的意义极高，我国的计算机专业研究人员应当进一步的对Hadoop技术进行提升与补充，从而进一步提升我国数据处理工作的效率与质量。

参考文献

[1]张永芳，基于Hadoop平台的并行数据挖掘算法研究[D].安徽理工大学，2016.

[2]罗树兰.基于Hadoop数据处理研究及应用[D].云南大学，2016.

[3]姜锋，基于Hadoop平台的海量数据处理研究及应用[D].北京邮电大学，2013.