APP下载

一种DOM树标签路径和行块密度结合的Web信息抽取方法

2017-09-18马晓慧李泓莹

智能计算机与应用 2017年4期

马晓慧++李泓莹

摘要:本文提出了一种标签路径和行块分布函数相结合的信息抽取方法来实现Web页面的信息抽取。该方法将Web页面解析成DOM树,使用视觉特征和标签过滤的规则将树进行剪枝,引入标签路径特征的方法粗略划分出网页的正文内容和噪音内容,最终使用行块分布函数的方法进行抽取,获得正文文本。实验结果表明,这种抽取方法有效地防止了正文内容误删及噪音内容漏删的现象,使得提取的正文信息更加准确,准确度达到91%,召回率达到95%,F值达到93%。本算法对于包含过多短文本的网页抽取的准确度还有待提高。

关键词: DOM树; 视觉特征; 标签路径特征; 行块分布函数

中图分类号:TP391

文献标志码:A

文章编号:2095-2163(2017)04-0013-05

0引言

Web页面是目前人们获取信息的主要方式之一,也是舆情监测、数据分析和处理的一个重要来源。常见的Web页面除了包含有用的正文信息外,还包含了大量的与正文主题无关的链接、图片、脚本等内容。因此,从纷杂的信息中快速准确地提取所需信息就显得尤为重要,Web页面的信息抽取也成为了研究的一个热点问题。

刘秉权[1]等提出了基于DOM树的方法,根据HTML标签把网页解析为一颗树,在树上通过DES算法、MDR算法等应用算法抽取网页中有效信息。聂卉[2]等深入研究了一种基于GATE语义标注的Web信息自动抽取技术,这种技术通过领域本体对网页进行语义标注准确定位目标项,再通过从构建好的DOM树中抽取语义项的特征描述构建样本实例,最后运用归纳算法实现抽取。陈鑫[3]则重点探讨了在经过初步过滤后的HTML中,结合正文区的密度,以行为自变量,行块长度为因变量建立线性行块分布函数,通过分布函数图找出阈值,从而得到有效的正文内容。朱泽德[4]等建立了一个融合结构和语言特征的统计模型,利用高斯平滑运算对密度序列进行计算以获取平滑文本密度,再由最大子序列分割平滑文本密度抽取正文内容。张乃洲等[5]用节点密度熵为度量分割DOM树,再采用K最近邻标签传播的半监督法和SVM分类器对页面进行分类,抽取有用类。微软亚洲研究院[6]最早开展了基于视觉特征的信息抽取技术研究,可将人对一个网页的视觉感受作为依据,区分出不同主题的主题块,对所需主题块进行提取。孙璐等人[7]还在此方法基础上做出了实用升级改进,利用VIPS算法将去除无关信息的DOM树来拓展执行语义分块,而后根据位置特征找到基准块,以此作为中心,遍历DOM树找到所有相似块并引入抽取处理,提高了抽取效率。此外,还有基于模板的技术。顾韵华等人[8]在领域本体的引导下建立了双模板——DIV块模板和表格模板,可用其分别实现粗粒度和细粒度的信息抽取。郭少华等[9]基于模板提出正交过滤算法,过滤掉模板中的噪音信息,改善了生成的模板。随着研究的深入,后期出现了基于机器学习等多种抽取技术,在上述抽取方式中,以DOM树方法应用最为广泛。本文即在DOM树的基础上提出了一种根据标签特征、行块分布函数以及链接密度精确抽取正文的方法。研究设计内容可做如下论述。

[BT4]1抽取系统实现框架

本文致力于探讨的这种研究方法大致可分为3步。首先将经过规范化的网页解析成DOM树,由标签过滤和链接密度过滤的方式去除不必要的分枝,使一颗结构复杂的树简洁化。其次,遍历DOM树,对树中的所有标签路径、文本标签及标点个数提供数理运算统计,分别计算所有可到达文本长度之和与标签路径的比值和所有可到达标点路径之和与标签路径的比值,大致区分正文和噪音部分。最后,使用行块分布函数法对已划分出的正文和噪音完善推演、并设计进一步的过滤、抽取,最终能够高精度地从网页中抽取得到有效信息。

[BT5]1.1构建DOM树

DOM树具有结构性强,将无序网页有序化的特点,能够清晰地展示一个网页的结构。因此,为了使网页结构更加直观,方便正文抽取工作,首先可将网页转换成DOM树。设计过程可详述如下。

1.1.1规范化HTML语法

在将网页解析成DOM树前,需使用W3的HTML Validator工具检验HTML代码是否合法,对不合法的代码进行修正,获取规范的HTML文档。本文所采用的部分语法规范准则如表1所示。

1.1.2解析DOM树

通过标签属性对,将获取的HTML文档解析为一颗以html为根节点的DOM树,现以图1所示网页为例,解析后生成的DOM树结构如图2所示。

1.2降噪处理

初步构建好的DOM树分支多,其中大量分支放置着无意义内容,如脚本信息、链接广告等。这样的树若是不拓展设置降噪环节,不但会将之后正文抽取的工作复杂化,还会在一定程度上降低抽取的效率和精确度。本文用视觉特征和标签过滤的方法对网页做降噪处理,对通常不含正文文本内容的标签做剪枝处理,得到一个简洁的DOM树。这里将给出研究分述如下。

1.2.1视觉特征降噪

经比对多个网页发现,大量的网页布局基本类似,都由head、foot、right、left、center这5个区域中的任意几个构成,其中97%的网页均含有head、foot区域,right、left区域选择性拥有。以图1为例,对应的区域结构则如图3所示。

[JP2]参阅文献[10]所示,依据其中提出的可视布局去除网页噪音的算法,去除网页中的head,foot区域。设计得到步骤如下:[JP]

1)显示已解析的DOM树,由此获取网页实际大小。

2)由网页的实际大小分别得出上、下边界的阈值,相应记为top、lower。

3)将网页内除body标签外的所有元素取得的绝对坐标及其实际大小同由阈值划分的区域展开比较。以任一元素Element为例,其所属区域左上角的原点绝对坐标为(X,Y),且设定所占区域大小为(Height,Width)。若Element.Y+Element.Height<=top,則元素Element属于head。若Element.Y>=lower,则元素Element属于foot。据此规则对DOM树进行遍历,对区域进行划分,去除head、foot区域,实现初步噪音处理。未去除的元素均暂时作为正文。endprint

1.2.2标签过滤

在初步获取的正文文本中,可能包含right、left区域,这些区域中的元素都作为正文包含其中,需要通过标签过滤的方式再次去除网页噪音。这里的标签过滤分为2种,一种是过滤不含正文的标签,另一种是通过链接密度过滤正文中难以识别的超链接。

[JP2]网页中的标签大体可分为2类,一类是构建网页框架,显示正文文本的有用标签,一类是用来修饰网页使其美观的无用标签。本文的目的是抽取正文信息,因此需删去DOM树上的无用标签,如:script和hidden的标签及其内容,文本样式修饰标签

[BT4]2实验数据比对与分析

[JP2]为验证本抽取方法的有效性,随机爬取了新闻、军事、体育和财经等4种类型的800个网页,使用单一的基于视觉特征网页信息抽取[11]方法、行块分布函数分别进行抽取,并同本抽取方法展开了研究对比。[JP]

[BT5]2.1实验数据集

本文的数据集来源于8个网站,分别是:今日头条、环球网、网易军事、新浪军事、搜狐体育、体坛周报、东方财富、凤凰财经,从中随机抽取800个网页,因而得到抽取网页数据的结果信息则如表2所示。

[BT5]2.2评价标准

在从Web页面中抽取有效信息的实验中,采用准确率(Precision)、召回率(Recall)和F 值作为实验结果的性能评估指标。准确率、召回率、F值的计算公式可分见公式(4)~(6)。

P=〖SX(〗TP〖〗TP+FP〖SX)〗[JY](4)

R=〖SX(〗TP〖〗TP+FN〖SX)〗[JY](5)

F=〖SX(〗2PR〖〗P+R〖SX)〗[JY](6)

其中,TP为抽取出的所有信息中的有效信息量,FP为抽取出的所有信息中包含的无效信息量,FN为未被抽取出的信息中的有效信息量。

2.3比对结果及分析

在抽取的这8个网站中,今日头条网站中含有噪音内容较少,正文以段落长文本为主体,无图片及链接的干扰。环球网、体坛周报与新浪军事网结构类似,噪音内容集中在头部、尾部及右侧区域,正文中有图片插入,文字为长文本。网易军事网站中的网页正文区域以图片为主,文字为辅,文本内容较少,多为1~2句话。搜狐体育除以长文本构成的正文区域外,右侧区域也含有比赛时间这类短文本正文内容。东方财富与凤凰财经这2个财经类网站的正文中有大量短句格式,二者区别在于,东方财富中网页内容均由短句、数字构成,而凤凰财经中网页内容中除短句外也含有长文本,广告链接插在正文中。

将研究选用的800个网页分别用视觉特征网页信息[11]的方法、行块分布函数法与本文方法进行信息抽取,抽取结果如表3所示。由表3中的数据可以看出,本文方法的抽取效果较为理想,但对于包含过多短文本的网页抽取的准确度还有待提高。

3结束语

[HT5”SS][ST5”BZ][WT5”BZ]

本文提出了一种Dom树标签路径剪枝和行块密度结合的Web信息抽取方法。将Web页面解析成DOM文档,在此基础上根据路径标签比和行块分布函数对信息进行抽取,获取精确度颇高的抽取结果。经实验表明,本文研发方法的准确率达到91%,由此可知方法设计效果高效可行,但对于类似财经类这种包含过多短文本的网页,对其抽取的准确度还有待后续的改进提高。在今后的研究中,将对本文方法设计引入进一步优化处理,扩大抽取方法的适用范围,提高抽取系统的性能。

参考文献:

刘秉权,王喻红,葛冬梅,等. 基于结构树解析的网页正文抽取方法[C]//黑龙江省计算机学会2007年学术交流年会论文集. 大庆:黑龙江计算机学会,2007:14-17.

[2] 聂卉,黄贵鹏. 基于GATE语义标注的Web信息的自动抽取[J]. 图书情报工作,2010,54(5):110-114.

[3] 陈鑫. 基于行块分布函数的通用网页正文抽取[EB/OL]. [2016-02-23]. https://www.doc88.com/p-912707793066.html.

[4] 朱泽德,李淼,张健,等. 基于文本密度模型的Web 正文抽取[J]. 模式识别与人工智能,2013,26(7):667-672.

[5] 张乃洲,曹薇,李石君. 一种基于节点密度分割和标签传播的Web页面挖掘方法[J]. 计算机学报,2015,38(2):349-364.

[6] Cai Deng,Yu Shipeng, Wen Jirong, et al. VIPS: A visionbased page segmentation[R]. Redmond, WA:Microsoft corporation,2003.

[7] 孫璐,陈军华,廉德胜. 一种基于视觉特征的Deep Web信息抽取方法[J]. 计算机与数字工程,2016,44(6):1107-1111,1126.

[8] 顾韵华,高原,高宝,等. 基于模板和领域本体的Deep Web信息抽取研究[J]. 计算机工程与设计,2014,35(1):327-332.

[9] 郭少华,郭岩,李海燕,等. 可扩展的网页关键信息抽取研究[J]. 中文信息学报,2015,29(1):97-103.

[10]荆涛,左万利. 基于可视布局信息的网页噪音去除算法[J]. 华南理工大学学报(自然科学版),2004,32(S1):84-87,98.

[11]安增文,徐杰锋. 基于视觉特征的网页正文提取方法研究[J]. 微型机与应用,2010(3):38-41.[ZK)][FL)]endprint