APP下载

Web数据挖掘技术的探讨与应用

2015-03-24昌吉学院计算机工程系

电子世界 2015年16期
关键词:舆情数据挖掘关联

昌吉学院计算机工程系 仇 岗

乌鲁木齐八一中学义教部 杨 琴

Web数据挖掘技术的探讨与应用

昌吉学院计算机工程系 仇 岗

乌鲁木齐八一中学义教部 杨 琴

随着Web技术的不断发展和成熟,Internet的普及和广泛应用,现在的互联网越来越人性化、智能化。数据挖掘技术已经从基于数据库的应用扩展到基于网络的应用。Web数据挖掘技术就可以对互联网中大量数据进行收集、整理和分析。

Web数据挖掘;关联;聚类;模型

引言

随着Web技术的不断发展和成熟,Internet的普及和广泛应用,现在的互联网越来越人性化、智能化。数据挖掘技术已经从基于数据库的应用扩展到基于网络的应用。比如在论坛中心,我们需要经过有效的数据抽取技术将论坛中的有用信息提取出来,再对这些数据进行挖掘。Web数据挖掘技术可以对网络中大量网页内容进行收集、处理、总结和分析等操作。下面将对Web数据挖掘技术做简单的研究和探讨,并在此基础上介绍Web数据挖掘技术在网络舆论中的应用。

1 Web数据挖掘概念

Web数据挖掘是传统的数据挖掘技术在互联网领域的应用,它就是从大量的、无结构化的、复杂的网络数据中提取出有潜在应用价值数据的过程。Web数据挖掘是构建在传统的数据挖掘基础上的,主要是处理网页中一些非结构化的数据、复杂的、无序的数据,根据Web数据挖掘研究的对象不同,可以分为基于网页内容的数据挖掘、基于用户使用习惯的数据挖掘和基于网页结构的数据挖掘三类。

2 Web数据挖掘技术的研究

2.1 Web数据挖掘的主要技术

Web数据挖掘的主要技术大致可以分为三类,分别是统计学分析、人工智能和数据库技术等,这三类具体包括类神经网络分析、统计学分析、关联规则分析、分类与预测、聚类分析和决策树分析法等。类神经网络分析是模仿人体神经系统运作的一种人工智能分析方法;统计学分析方法包括概率论、序列统计分析和回归分析等。统计学分析方法是利用数学方法对Web数据挖掘过程进行数学建模,通过函数关系标书数据之间的相互联系,从而做出相应的数据预测和处理;关联规则分析是在数据库中找出我们还未被发现的关联数据项;聚类分析是将目标内容项进行分类,从而形成多个类的过程;决策树分析法是已经定义好的条件生成二叉树结构的判定工具,根据不同的选择路径判定相关问题的结论。

2.2 Web数据挖掘的功能

Web数据挖掘主要功能包括预测功能、聚类功能、关联功能、分类功能和异常检测功能等。预测功能是通过调用数据库中已有数据,利用线性回归和非线性回归算法进行建模,从而预测目标的发展趋势和走势;聚类功能是将相似度较高的内容聚集成一个类,根据不同用户需求提供相应的信息;关联功能是用来找出不同数据项之间的隐藏联系,如家电和装潢材料之间的联系等;分类功能是基于一般用户的属性特征将用户进行分组,如地理位置、购买能力、性别、兴趣爱好等;异常检测功能是检测期望值与实际值之间的巨大偏差,如支付金额与实际余额的分析。

2.3 Web数据挖掘的处理过程

Web数据挖掘的具体处理过程分为确定目标、收集数据、处理数据、Web数据挖掘、结果分析和知识部署等六个步骤。

2.3.1 发现资源

在网页中在收集信息,如从目标文档、电子邮件、论坛、新闻信息等Web页面中收集信息。

2.3.2 收集数据

发现资源后,根据目标找到解决该业务的数据源,然后对数据源的进行甄别,该数据是属于内部数据还是属于外部待整理数据。

2.3.3 处理数据

数据处理是根据Web数据抽取算法和规则对收集到的数据进行数据转换,即对数据进行筛选和整理工作,从而提高数据质量。

2.3.4 Web数据挖掘

选择合适的数据挖掘算法,对准备好的数据进行挖掘。

2.3.5 结果分析

对Web数据挖掘所的结果进行整理和分析。

2.3.6 知识部署

经过对收集内容进行数据分析后,提出相应的建议,并将结果部署到实际应用中,实现知识应用。

2.4 Web数据挖掘的关键问题

Web数据挖掘技术是传统的数据挖掘技术在网络中的应用,但是Web数据挖掘技术面向的数据会更庞大的,并且分布广泛,文档格式不规则。针对这些海量数据,要快速、准确的获取我们想要的信息,就需要开发相关的Web数据挖掘技术以及对数据的预处理技术。

2.5 Web数据挖掘技术在网络舆情分析研究中的应用

2.5.1 网络舆情定义

网络舆情是由于社会各类事件的刺激而产生的通过互联网络传播的对于时间的所有认知、态度、情感和行为的倾向集合。

2.5.2 Web数据挖掘应用于网络舆情的具体应用

Web数据挖掘具有关联分析、时序模式、分类、聚类、预测和偏差分析等特点。面对网络中大量的相似数据,它可以进行针对性的挖掘,准确把握互联网的舆情动态,对互联网中热点、焦点信息做出快速反应,能把握处理危情事件的最佳时机,从而提高网络的监管能力和处理突发事件的能力。

(1)关联分析

Web数据挖掘中最关键的技术之一就是发现同一事物中某些属性或者类别同时出现的规律。通过这一事物内在的隐藏特点,建立相互之间的联系,多数管理规则的挖掘算法都能够无遗漏的发现隐藏在所要挖掘数据中的关联关系。关联规则可以用可信度、支持度、期望可信度、作用度四个参数进行描述。数据关联是通过对数据库相关字段的数据进行分析整理,总结发现相关的一类知识。如“SAS病毒传播”和“网络日志”之间的关联,通过从网络日志的网页中挖掘出和SAS相关的信息,然后存到数据仓库中,利用关联分析技术获得SAS在各省、市、自治区传染概率,从而建立病毒的防御和预警机制。

(2)聚类分析

聚类分析是将不同的数据按照某一标准或条件整理分成不同的类,发现数据属性之间的相互关系,是数据挖掘算法中的一个预处理步骤。聚类分析在生物学、医学、商业上应用都很广泛,如在生物学上可以辅助研究动植物的分类,也可以将动物的相似基因进行分类。

(3)分类

分类是找出一个类别的内涵描述,使该类与其他数据独立区别,通过类的内涵描述来构造模型。在网络舆情研究中,我们可以通过对复杂的互联网信息进行初步筛选,对不同的舆情信息进行分类,如民生问题、突发事件、经济危机等。

(4)预测

预测是通过对历史数据的研究,建立数据模型,从而对未来可能发生一些事件进行预测,得出将来可能出现的结果。如美国兰德公司曾经就科学的突破、人口的增长、自动化技术、航天技术、战争的可能、新武器系统6个问题共49个事件进行了长达50年的预测。

(5)时序模式

时序模式是指通过对数据库存储的事件进行按时间排序,并且分析出相似事件重复发生概率较高的模式。时序模式可以与预测配合使用应用于网络舆情的监控和预警。如通过网络舆情监控和预警可以在部分“恐怖袭击”事件发生前通过大量的网络信息收集、整理、分析,有针对的选取数据并对数据进行规律预测和排序,就能对部分“恐怖袭击”发生起到的预防和控制的积极作用。

(6)偏差分析

偏差分析是从网络中获取数据与数据库中的标准数据进行对比,找出它们之间的差异,从而发现异常情况。如2008年“3.14事件”中,西方媒体登载同一张照片,而在新闻描述中存在明显偏差,偏差分析就是对一些虚假信息、不良信息进行对比分析、及时批驳、纠正偏差,让造假和诽谤不攻自破。

3 结束语

互联网已成为信息发布和知识获取的主要工具,它内容涉及非常广泛。现代社会需要我们要对大量的信息进行实时的、多方位、多层次的进行分析和整理。这使得我们要不断的建立新的数据模型、体系结构和算法,需要我们要充分发挥Web数据挖掘技术优势,为社会做更多贡献。

仇岗(1979-),毕业于石河子大学计算机科学与技术专业,2009年毕业于电子科技大学,研究方向计算机应用技术,硕士研究生,现就职于昌吉学院。

杨琴(1984-),2009年毕业于新疆师范大学,本科,现就职于乌鲁木齐八一中学。

项目名称:Web信息抽取与数据挖掘技术及其在网络舆情监测中的应用研究,项目编号:2012YJQT03。

猜你喜欢

舆情数据挖掘关联
不惧于新,不困于形——一道函数“关联”题的剖析与拓展
探讨人工智能与数据挖掘发展趋势
“一带一路”递进,关联民生更紧
奇趣搭配
基于并行计算的大数据挖掘在电网中的应用
智趣
消费舆情
舆情
舆情
舆情