APP下载

基于自动生成模板的Web信息抽取技术

2016-02-06李宝密

网络安全技术与应用 2016年9期
关键词:服务水平页面解析

◆李宝密

(山西省朔州市朔州师范高等专科学校 山西 036000)

基于自动生成模板的Web信息抽取技术

◆李宝密

(山西省朔州市朔州师范高等专科学校 山西 036000)

大数据时代来临,网络的数据与信息爆炸式发展,且这些信息逐渐成为的人们生活中不可缺少的重要组成部分。为了保障用户能够在海量的数据信息中攫取所需的数据信息,本文提出基于自动生产模板的Web信息抽取技术,可以有效地对Web中用户有兴趣的信息进行抽取,并将其转化为的更加结构化、语义清晰的格式,呈现在用户面前。本文对其具体的设计进行阐述和分析,旨在为相关技术人员提供参考,促使自动生成模板的Web信息抽取技术可以得到有效的应用,保障用户的良好网络体验,提高网络的服务功能和服务水平。

自动生成模板;Web信息;抽取技术;用户

0 引言

Web信息抽取技术能够根据用户的需求情况将web中富含用户感兴趣的信息进行抽取,并对其进行结构化的处理和整合,并集中展示在用户的面前,能进一步提高用户的网络体验水平。基于自动生成模板的Web的信息抽取技术,在快速有效地抽取数据信息的同时,可以完成对网页噪声的规避,并将Web的文件进行解析,使之成为对用户有用的信息。其具体的抽取方式,是按照模板的规则,进一步提高信息的准确性和可靠性,提升网络服务的效率和质量,提高用户的满意度[2]。

1 基于自动生成模板的Web信息抽取技术概述

随着信息技术的不断进步与完善,信息服务水平不断提升,有效地在海量的数据信息中攫取目标信息有助于提高网络服务水平和服务质量。国内对自动生成模板的Web信息抽取技术的研究不断深入和成熟,可以有效地应用到网站中的信息抽取。目前,在实际的网站建设中,会应用结合了HTML和脚本语言特征的模板技术,使网站能够按照用户所希望的格式显示数据信息,进一步满足用户的需求情况。模板技术在网站建设中具有广阔的应用价值和开发潜力,不但能够减少服务器压力,还可以结合搜索引擎,提高信息的可搜索率。

通过对基于自动生产模板的Web信息抽取技术的应用,可以有效地提高网站的服务水平和服务质量,并满足网站中不同内容栏目的建设,在为客户提供优质网络服务的同时,还可以进一步降低网站的维护成本和设计成本,便于管理和更新,实现个性化服务。该技术的应用,可以在很短时间内完成对网站的页面静态化,减少服务器压力,并推动网站的竞争力,提高服务质量[3]。

2 基于自动生成模板的Web信息抽取算法分析

为了实现自动化生成模板的Web信息抽取技术的有效应用,需要选择适宜的算法,进一步提高网站的服务水平和服务质量。

2.1 URL模板匹配

URL模板匹配是促使自动生成模板的Web信息抽取技术的顺利应用和实施的重要部分,其功能主要是根据Web中目标页面的基本情况,并对其中的URL与URL模板库展开模板匹配,对页面进行识别和筛选,判断是否存在适用于本页面的解析模板,进而自动生成模板。通过URL模板匹配,可以完成对Web页面的识别和过滤,进而对Web中主要数据信息进行识别,进而满足用户对数据信息的需求。

2.2 抽取规则

抽取规则是实现信息抽取的关键部分,按照抽取的规则可以对目标信息进行抽取,保障信息的质量。抽取规则是建立在DOM和Xpath的节点定位基础上。HTML经过转化处理可以转变为DOM,通过对DOM树种(如图1所示)的节点进行抽取,对XpathAPI进行应用,进而完成对Web信息的抽取。

图1 DOM树

(1)转化为DOM树后,可以有效地对Web中的XML文档进行展示,借由的DOM树对原始信息进行分析和解读,从而完成对网页的解析,使之成为满足用户基本需求的网页文档。

(2)抽取规则定义。针对抽取规则需要在满足网站基本功能的同时,还需要满足用户的基本需求情况。在实际的网站建设过程中,可以采用对节点名称、属性、属性值和相对路径这几个基本内容,采用Node、Attribu-tion、Attribution-value、Path 这几个变量进行表示,并按照以下流程:创建Xpath的基本对象,表达式确定→计算表达式→强制转化计算结果为DOM Node List→得到抽取信息。将这个流程作为主要的抽取算法,可进一步保障信息抽取的质量[4]。

2.3 解析页面模板的生成机制

图2 基于自动生成模板的Web信息抽取技术的模板自动生成过程

(1)为了完成页面模板的自动生成,需要重视的解析页面模板的定义的分析,进一步推动信息抽取的质量和效率。其中可以设定解析页面的抽取规则,详细制定模板的名称,并根据目标页面的基本内容,完成定义。定义可以展示目标信息的路径表达方式,根据这个定义,可以有效地实现解析页面模板的生成。

(2)模板生成,基于自动模板生成的Web信息抽取技术,的具体模板生成过程如图2所示。

2.4 信息抽取的过程

信息的抽取过程是建立在的URL模板匹配基础上的,包括规则制定、模板生成及其目标文件的攫取。目前,URL模板库的丰富度和全面程度不断提高,应当进一步提高自动生成模板的Web信息抽取效率,进而有效地完成对网页信息的快速攫取。

3 基于自动生成模板的Web信息抽取技术的软件设计

基于自动生成模板的Web信息抽取技术,需要在符合功能性的基础上,合理地应用自动生成模板。为此,需要科学地进行系统模板、系统表结构总体设计、数据库设计以及模板引擎的设计等,全面推进自动生成模板Web信息抽取技术的有效应用。

3.1 模板系统的总体设计

根据网站的基本需求,在考虑多页面中各功能模板的基本情况,应使每个模块具备自主开发的和标记语言,采用HTML对其进行设置,并设计合理的模块层次图。如下图3为某高校的网站建设中的模板层次图。

猜你喜欢

服务水平页面解析
刷新生活的页面
遂宁市:提升社保服务水平 夯实保障民生基础
聚焦内审转型升级 提升增值服务水平
三角函数解析式中ω的几种求法
加强图书馆管理 提高服务水平
提升粮食流通社会化服务水平的举措构思
睡梦解析仪
电竞初解析
对称巧用解析妙解
移动页面设计:为老人做设计