APP下载

云计算架构下互联网大数据采集模型设计

2019-05-23杨玉

电脑知识与技术 2019年5期
关键词:数据采集云计算互联网

杨玉

摘要:随着中国社会经济的快速发展,信息技术、计算机技术等先进技术逐渐地发展起来,互联网当中的大数据也就越来越多。为了能够准确地采集到海量数据当中的正确数据信息,提出了云计算架构下互联网大数据采集模型设计,通过爬虫程序抓取原始数据信息,在通过模拟信号转换和数据过滤存储方式最终实现数据模型的采集。通过实验验证该采集模型能够采集到准确度更高的数据信息。

关键词:云计算;互联网;数据采集

中图分类号:G642 文献标识码:A 文章编号:1009-3044(2019)05-0019-02

中国自改革开放以来在互联网行业上投入了大量的时间和精力,使得互联网能够飞速的向前发展,并研发出了许多附属产品,现如今中国的互联网行业已经形成了一定的规模,人们也迎来了互联网时代。近些年来,中国的互联网事业依旧没有停下前进的脚步,对于互联网的应用也逐渐走向了多元化,互联网在潜移默化当中改变着人们的学习、工作甚至是生活的方式,进而影响力整个中国社会的进程[1]。随着互联网技术和行业的发展,逐渐实现了资源的共享,也就产生了云计算方式和大数据的概念。云计算是基于互联网的相关服务的增加、使用和交互模式,通常涉及通过互联网来提供动态易扩展且经常是虚拟化的资源,人们可以在可配置的计算资源共享池快速的获取所需要的资源信息。而大数据也是互联网发展下的另一个产物,它主要是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。在这样的大环境下,人们丰富了获取数据信息的渠道,这种信息获取需要一定的技术支持,其中最重要的就是数据采集,通过对所需的信息数据进行采集方可进行下一步的处理和操作。

1爬虫程序抓取原始数据

在云计算架构下,互联网当中存在着海量的大数据,需要在海量数据当中抓取有用的数据,进行处理最终实现数据的采集。利用爬虫程序可以在多线程的网络数据传输过程当中实现实时数据抓取。网络爬虫程序一般情况下会驻留在服务器上,通过给定的URL利用网络传输和读取协议的相应文档,通过文档中包含的未访问过的URL作为新的起点进行漫游,当没有搜索到满足条件的新的URL时为止,通过这种程序查找方式为搜索引擎站点的数据库服务器追加和更新数据提供原始的数据信息[2]。然而传统的爬虫程进行数据抓取的工作过程包括:请求任务、执行任务和数据上传3个功能模块,为了可以安全稳定的进行有效信息的抓取在数据采集模型当中设计加入了模拟登录功能,通过构建目标数据所在页面的URL实现信息的定向获取。在互联网当中的数据几乎每时每刻都在进行着传输和交互,所以爬虫程序所要搜索和采集的数据不仅仅是处于静态的数据信息,还有正在传输的动态数据,且在获取动态传输数据时不能影响数据的正常运输。爬虫程序模拟登录到互联网当中,任务请求模块箱服务器终端提交数据请求获取任务[3]。通过对HTTPClient的HttpGet 方法对互联网当中的信息页面发出请求,获取任务对应的taskhash。爬虫信息接收到任务后开始执行,通过 SQL 语句查询次级任务表,并将抓取的数据结果组合成执行文件,并以json 字符串的形式讲数据上传到用户端,接着用户端就可以将抓取到的原始数据信息进行下一步数据处理。

2模拟信号转换

获取到的原始数据信息一般情况下无法供用户直接使用,需要对数据进行一系列的处理,方能够在用户端当中进行应用[4]。通常来讲原始数据信息都是以电信号的方式输入的,电信号信息需要转换成模拟数据信号的信息,最后再转换成为数字信号这样也就实现了数据的转换功能,数据转换的原理如图1所示。

从图中可以看出该数据采集模型当中采集模型首先对原始数据进行筛选、统计等初步操作,再将输入的模拟信号传输进用户端口后,用户端直接进行模拟信号的调整并实现A/D的转换。将模拟信号转换成为计算机可以识别的数字信号之后对于互联网当中的大数据还需要进行三次转换过程分别为:数值二次计算,一对多标签转换及数据时戳处理。其中数值二次计算的目的是将数据转换成为该区域内的标准数据,需要对数据信息进行折算,调整数据当中存在的偏差,对基准值进行修整等转换工作,提升数据的准确性[5]。数值的一对多转换是为了处理单一源测点对应多个目标测点的情况,通过转换,保证了数据采集的完整性。

3过滤存储实现数据采集

在互联网大数据当中,数据的类型多种多样,有文本数据、图像数据、音频数据、视频数据等等,为了能够提高数据的提取效率,在采集的过程当中就需要将不同的数据进行过滤并分类存储。数据过滤的目的不仅仅是将不同类型的数据进行分包,也能够实现排重、剔除无用信息的作用。首先要將转换完成的数据输入到过滤器当中,设定不同的阙值,不同的阙值过滤出的数据类型不同,正常的数据由固定的浮动范围,一些不在范围当中的数据被判定为错误数据需要被剔除,保证采集到的数据都是正确的[6]。将不同阙值区域的数据分别输出,即可以得出分类采集的结果。而数据的排重处理就是排除掉与主题相重复项的过程,借助一种高效的海量文本排重Simhash 算法,计算两个数据信息的相似度来排除重复项。将最终过滤处理完成的数据进行分类存储,即可得到最终可以直接使用、具有安全保障的采集数据。

4实验分析

将上述数据采集模型在某网络数据采集处理分析系统中试运行.得出采集结果如表1所示。

表1 采集试运行数据获取结果表

利用试运行获取的数据结果,可以计算出两种采集方法的准确率,传统方法的准确率大概为26%,而数据采集模型数据采集的准确率为61%。由此可见,研究设计出的数据采集模型在实际操作当中具有一定的可行性。

4结束语

云计算在中国算是一次伟大的历史变革,是计算机领域的一场革命。在云计算环境下,数据采集分析模型的建立,实现了对数据的处理与分析,节省了复杂的运行过程,提供给用户更加简单、快捷的接口,为用户提供有用的、正确的数据信息。

参考文献:

[1] 张玉明, 张远远. 基于大数据的小微企业统计信息采集策略[J]. 统计与决策, 2017,26(14):178-181.

[2] 宋远方, 冯绍雯, 宋立丰. 互联网平台大数据收集的瓶颈与区块链理念下的新发展路径探索[J]. 管理现代化, 2018,46(3):236-240..

[3] 胡代弟, 董素鸽. 远程实验信息数据采集方法研究仿真[J]. 计算机仿真, 2017, 34(4):186-189.

[4] 冯冬青, 朱行武. 6LoWPAN智慧城市数据采集系统的设计与实现[J]. 计算机工程, 2017, 43(11):286-291.

[5] 俸皓, 罗蕾, 王勇,等. 无线传感网中基于时变多旅行商和遗传算法的多目标数据采集策略[J]. 通信学报, 2017,38(3):112-123.

[6] 联合智能优化和分簇CS的WSNs稀疏数据采集[J]. 计算机工程与应用, 2017, 53(24):263-270.

【通联编辑:光文玲】

猜你喜欢

数据采集云计算互联网
基于开源系统的综合业务数据采集系统的开发研究
从“数据新闻”看当前互联网新闻信息传播生态
互联网背景下大学生创新创业训练项目的实施
实验云:理论教学与实验教学深度融合的助推器