APP下载

基于DOM树的信息推广平台设计

2015-07-02刘维陈银熊伟程

山东工业技术 2015年12期
关键词:微信公众平台

刘维++陈银++熊伟程

摘 要:根据网页具有极高的相似结构和局部代码重复性的特点,总结Web页面信息自动化提取时的步骤。再根据Web页面的结构特点,利用DOM树将页面的信息提取出来,分析当步骤实现时HTML的预处理流程和HTML页面的解析过程,将提取出来的信息集中显示,以达到推送的目的。

关键词:HTML页面;DOM树;正则表达式;微信公众平台

1 引言

随着“互联网+”时代的到来,信息的来源,可信度,及时度越来越受到人们的关注,但现在大多数的信息都是来自Web网页,这样的信息多而杂,具网络资料显示,文本信息正以指数型式不断增长。为了节约时间,就有了基于Web页面挖掘技术的产生。实现信息推送最好的选择就是微信公众平台。微信公众平台是最近几年新出的推送信息的一种新方式,它是腾迅公司在微信的基础上新增的功能模块,通过这一平台,个人和企业都可以打造一个微信的公众号,并实现和特定群体的文字、图片、语音的全方位沟通、互动。

2 Web页面挖掘

如今Internet上很多网页都是动态生成的,通过用户填写表单提交信息,动态的生成Deep Web页面,与此同时用户提交的大量数据信息被保存在网站的后台数据库中。由于页面中数据记录之间的代码具有极高的结构相似性,因此Web数据记录所对应的标签树之间自然也具有很高的相识性,所以网页往往具有相似的结构和局部代码重复性。因此数据的自动化提取则可以分为以下几个步骤:

(1)输入一些具有相同或相似结构的Web页面。

(2)对这些Web页面进行预处理,就是将一些与网页无关的内容进行删除,将代码结构不严谨的HTML页面转换成结构严谨、易于处理的HTML页面。

(3)将处理好的页面解析成以标签为队列的线性数据结构,接着利用标签队列的匹配去除页面中的广告,导航栏等。

(4)按照一些页面性质将网页中的标签归类成为一些小集合,然后对这些小集合的有效数据进行自动抽取,并自动生成该类的模版页。

3 DOM标签树

HTML通过定义一套标签来刻画显示的页面。依据标签的作用可将HTML的标签分为三类:

(1)规划网页布局的标签。在视觉上,我们都知道网页是由无数的方块嵌套在一起组成,而里面的内容则是由标签规划出来的。常用的标签有:

等。

(2)描述显示特点的标签。在网页中常看到为了引起我们注意的不同格式文字,它们都是由一些标签规定的,这类标签称为信息标签。常用的有:

等。

(3)超链接相关的标签:超链接是网页区别于普通文本最明显的特征之一。它表示着网页间的关系,整理出超链接标签可以挖掘出网页间的相关内容。

4 部分功能与实现的步骤

4.1 HTML的预处理

现在大多数的网站都是以HTML文档形式向客户展开,每一个页面中的数据和格式都是以一组成对的“始标记”与“结束标记”组成。例如:

,,等。在页面中的标签可以相互嵌套使用。为了避免网页不兼容、代码错误的现象可能导致的页面解析失败,我们可以先除去一些无用的标签,如:

猜你喜欢

微信公众平台
传统媒体使用微信平台推送的价值选择研究
高校学报微信公众平台发展的SWOT分析
基于微信公众平台的高校综合素质社团建设
基于微信公众平台的阅读推广案例研究
基于微信的大学生微型学习平台的设计与实现
基于微信公众平台的碎片化学习研究
媒体融合背景下出版社微信公众平台发展研究
微信公众平台在高校图书馆信息服务中的应用研究
试析高校应用微信公众平台的问题与策略