浅谈互联网公开数据挖掘技术

2018-09-30宋丹

商情 2018年41期

宋丹

[摘要]本文通过对互联网时代背景下数据挖掘技术的应用展开分析，包括对其概念，基本分析方法以及数据挖掘技术对数据的预处理方式等内容，希望能给相关工作人员提供帮助。

[关键词]互联网；数据；挖掘；技术

近年来，随着互联网技术的发展使得更多的用户能够充分利用互联网来获取信息，真正实现不出门便知天下事，大数据挖掘技术是从多个数据中存在一些不完整的应用中，以及较为简单的应用程序中随机抽取的，而这些被抽取的数据是客观存在的，并不是人为发现的。由于单个WEB智能性的缺乏，使得很多用户只能依靠导航进行信息筛选，这种情况下会使结果的准确性和针对性降低，同时，由于数据挖掘技术的完善和深化，使得网站对于系统性能分析的能力有一定程度提高，从而能够满足现代互联网用户的使用要求。

一、数据挖掘的概念

数据挖掘最早出现于20世纪80年代，作为一门新兴学科来说还没有得到广泛用户的认可。从技术角度来看，数据挖掘针对的是较为复杂而且无规律的数据群体，而从商业化角度来看，数据挖掘是指在庞大的数据库中找出信息的规律性，并进行信息转化分析，提取有利于商业决策的信息，通常数据挖掘系统包含以下几方面内容：用户图形界面接口，数据挖掘引擎，数据库，模式评估，知识储备库，数据基地等。其中数据库中包含了大量的数据和信息，而这些数据对于广大的用户来说有较大的吸引力；知识储存库是一个较为简单的应用程序，该程序能够实现知识的评价和进一步探索，进而确定总体模式的意义所在；数据挖掘引擎是数据挖掘系统中重要的内容，进而能够实现对数据特征，价值，关联等方面的分类；模式的评估主要是对数据进行评价时能够应用数据挖掘技术进行相关联，而把数据挖掘技术全面应用到系统中；模型的进口是用户图形界面接口，这一环节能够便于用户使用模型，同时能够利用数据挖掘技术实现信息的快速查询。具体来看，通常WEB服务器每天都会更新日志文件，在一些流量消耗较大的网站中，这些日文件往往要消耗更多的流量，因此为了能够减少不必要的流量消耗，可以充分应用数据挖掘技术来分析处理这些日志文件，对于一些简单的网站来说，能够帮助分析WEB日志文件就可以了，但对于一些较大的网站来说，一个网站往往是由多个甚至上百个WEB服务器组成来实现对外服务的，在分析这些日志时，需要采取分布式的数据挖掘技术。总而言之，对于长期产生大量数据日志文件的网站来说，可以通过数据挖掘技术进行数据筛选。

二、数据挖掘技术的分析方法

数据分析是数据挖掘过程中最为重要的环节，只有选择有效的计算方式才能完成信息数据挖掘工作，其中，常用有三种数据分析方法：第一种是聚类分析，能够将物理对象或者抽象对象进行分类整合，将具有相似特征的对象进行深入分析，最终目标是能够利用详细的方法做到数据分类。聚类分析可以说是对事物规律的分析，实现对各个领域的智能化学习，可以将聚类分析分为两种：硬聚类和模糊聚类，前者表示能够将分析对象划分到最为接近的类别中，而后者是通过取值范围来进行对象分析，划分，甚至可能会出现某一对象存在多个类别的情况；第二种数据分析方法是分类和预测，分类顾名思义是针对无排序规律的标号进行的分类环节，而预测是将一些连续值的函数模型进行预测，其中对于数据挖掘技术来说，分类是基础数据挖掘的特征，能够通过分类表现出来，进而将各个类别的属性进行划分，当前常用的计算方法有粗糙集，遗传算法，决策树等。此外，预测是在已知的情况下对未来发展规律进行有效预测，目前比较常用的是回归分析，时间序列法等；第三种是关联分析法，众所周知的蝴蝶效应是指自然界的一次微小变动可能会导致另一个大事件的发生，而关联分析是在该规律的基础上完成的，一个事件和另外一个事件之间存在一定的关联性和依赖性，针对这种规律性我们展开有效预测，比如日常所使用的购物篮就是通过这种关联分析完成的，人们日常购物过程中，我们通过对购物篮中物品的管理规律进行分析，能够及时掌握顾客的购买习惯和特点，然后根据这些数据制定营销方案，通过多种实践证明，关联分析法是十分有效的。

三、数据的预处理

数据的预处理是针对网络日志中数据进行二次加工，在实际加工过程中能够保存数据的原始性。挖掘算法是将数据的结构和规则进行筛选。具体的结构如下所示：WEB日志、数据预处理、确定挖掘算法、实现数据挖掘、模式设置，在对日志进行数据挖掘前需要优先处理部分数据，其中包括数据变更，用户识别，会话识别，路径补充等。首先在针对数据的缩减中，常见的WEB日志数据格式有：用户访问日期、时间，IP地址，字节数量，网页状态等，而由于WEB日志挖掘，其针对用户行为模式，而常常容易忽略一些没有请求显示的界面，比如带有JPG，GIF等格式的后缀名，这种情况下会对剩余的筛选信息相关性进行更深层次的挖掘。在用户识别过程中，用户通常会在系统中设置防火墙，因此，日志中的信息記录真实度不高，这种情况下会使用户识别工作复杂，使用启发式的规则能够有效帮助完成用户的识别工作，具体存在两种规则：首先，系统会假设用户的IP地址相同，如果代理的游览器操作系统出现变化时，则表示为不同的用户；其次第二种规则也是同样假设用户的IP地址相同，如果链接页面同游览过的页面没有相关性，则代表了不同的用户。从会话识别上来看，最终是为了将用户的访问记录进行有效划分而形成的单个会话，并将其作为用户单位，其中如果会话时间超过限定范围，则系统会默认开始新的会话。从路径补充上来看，为了能够减少网络输入量，很多游览器会采用对已访问的页面进行缓存，而这种情况下用户在执行返回命令时，系统会显示出缓存的页面信息，而WEB服务器无法对访问信息进行确定，而对PostLOG表中的refer进行检查时能够完成确定页面的工作，但是如果用户的访问记录中包含多个页面链接，则系统会优先选择距离时间较近的链接。上述这些方法都是互联网日志挖掘数据预处理的一些常用手段，主要是能够使数据经过预处理之后更加完整，为之后数据挖掘提供基础，对于经过预处理之后的数据信息可以进行用户识别游览行为的序列模式。

对于一些具有复杂结构的分布式互联网日志挖掘过程中，这些互联网服务器的结构如同大型门户网站的结构，拥有多个互联网服务器日志文件，分别储存在不同的服务器上，这种分布式结构通常会采用多代理技术进行解决。代理最初源于分布式人工智能领域，之后被用于其他计算机领域中，是指在一定的运行环境下能够实现自主运行，包含承诺，信念，意图等精神，使其具有反应性、能动性、社会性等特点。多代理就是通过多个代理互相协作完成复杂目标的，虽然相比单代理来说，在解决实际问题方面的能力较强，而且从数据分布和计算过程来看，是可以实现异步并行的。将多代理分布数据挖掘技术应用于互联网日志挖掘系统中，主要是基于它的三重体系结构包括：访问层，代理层和互联网服务器层，其中用户层包括不同用户有不同的操作权限，通常用户只能进行信息查询，而代理层则可以实现监控系统以及配置代理的功能，互联网服务层就是由多个互联网服务器组成的，每个服务器提供了相应的日志文件，并通过接口能够实现与代理层的数据交互，代理层是作为用户层和服务器层之间的桥梁，能够帮助有效解决分布式速度和异构性问题，确保数据完整性。在互联网中广泛应用代理技术能够有效对多个异构服务器实现数据分析和处理，对于数据的预处理和数据挖掘算法等是与简单结构的日志挖掘一致的。

四、数据挖掘的应用及面临的挑战

数据挖掘技术面对的较多情况下是数据库，这样一来能够大大提高信息检索效率，然而在数据挖掘技术应用过程中也存在一定的局限性。数据挖掘技术在进行数据分析处理过程中所使用的方法有限，一般情况下只能应用于分析数值型的数据，而且数据内容形式较为简单，而且还无法支持文本文件，图片等无结构和无数据形式的数据挖掘工作。一般数据挖掘技术通常是要进行数据和信息的交互，但是在互联网中应用数据挖掘技术很难让用户参与数据筛选中，因而工作人员自身的能力以及经验对于数据挖掘效率有直接的影响，很多应用程序内容是用户在应用过程中发现并分析的，因此，要求在互联网中应用数据挖掘技术挖掘信息时，不但要分析数字，分析符号的能力，还需要对一些图片，语言进行理解。伴随知识量信息量的增多，人工分析和处理信息效率会大大降低，而且很容易被新的知识取代，因此在不断进行知识保护的同时，还要及时更新计算方法，当前更新知识的方法包括维护关联准则的增量算法。除此之外，由于當前数据挖掘系统还不能广泛地在众多的系统平台上应用，而一些常见的应用程序也只限于在PC客户端使用，大多数是针对大型主机的，除此之外，还有一些个别是针对用户所使用的。

五、小结

处于互联网时代背景下，人们的生活和工作已经离不开互联网，为了能够让用户在使用互联网过程中获得更好的体验，相关技术部门应当对用户的行为进行正确掌握。同时，随着数据管理的优化以及检索技术的发展，在未来应用数据挖掘技术将能够更好地为互联网和用户提供优质服务。