面向主题信息采集系统现状分析

2014-04-03陈立为

湖南有色金属 2014年2期

关键词：采集器页面信息

陈立为

（民航湖南空管分局，湖南长沙 410007）

面向主题信息采集系统现状分析

陈立为

（民航湖南空管分局，湖南长沙 410007）

对面向主题的信息采集系统进行了分析与研究，主要探讨了面向主题信息采集系统的应用背景、技术手段、实践意义和具有的优势及面向主题信息采集系统的研究现状和国外该类系统的一些实际应用情况。这些分析研究工作将对今后的面向主题信息采集系统的实际应用打下基础。

信息采集；面向主题；现状分析

近年来，互联网上的信息爆炸式增长。互联网的飞速发展，已经成为人们最重要、快捷的信息发布和获取平台。然而，互联网信息的急速膨胀，在给人们提供丰富信息的同时，又给人们对信息的有效使用带来了诸多困难。基于这样的背景，如何从海量web信息中迅速、准确获取有价值信息，已经成为一个亟待解决的问题，对互联网信息的采集处理工作也日益成为人们关注的焦点。

1 面向主题信息采集系统的应用背景和实践意义

传统互联网信息采集的目标就是尽可能多地采集信息页面，甚至是整个互联网上的资源，而在这一过程中它并不是太在意采集的顺序和被采集的页面的主题是什么。这样做的一个极大好处是能够集中精力在采集的速度和数量上，并且实现起来也相对简单，然而有实验表明，即使大型的信息采集系统，它对互联网的覆盖率也只有30%～40%［1］。

互联网信息的分散存储管理和动态变化也是困扰着信息采集的问题之一。由于信息源随时可能处于变化之中，信息采集器必须时常刷新数据，但是仍然无法避免采集到的页面出现失效的情况。对于传统信息采集系统来说，待刷新页面数量的巨大使得很多采集系统刷新一遍需要数周到一个月的时间，这样长的刷新时间使得页面的失效率非常巨大［2，3］。

另外，面向整个互联网的信息采集需要采集的页面数量非常浩大，这也将占用非常多的系统资源和网络资源。然而这些信息页面往往集中在一个主题或几个主题内，而采集器的大部分页面对用户来说是没有用的。所以即使许多用户合起来使用的效率可以提高整个采集到的页面的利用率，但仍然显得利用率偏低，这显然是是对系统资源和网络资源的一个巨大浪费。

2 面向主题信息采集系统的优势

与传统的基于整个互联网的信息采集相比，新兴的面向主题的互联网信息采集却恰好解决了以上的诸多难题，它主要有以下几个优点：

1.它从很大程度上缓解了因信息采集的开放性所带来的刷新时间过长的弊端。由于采用面向主题的信息采集策略，采集页面数量的极大降低，页面的刷新周期极大地变短，因此采集到的页面失效风险也就极大地减小了。

2.它节省了资源并提高了资源的利用率。面向主题的互联网信息采集因为在采集过程中对URL根据需要有所剪枝。这种采集剪枝，不仅使剪枝掉的URL数目远大于被采集的URL数目，甚至差别是几个量级的，还使得剪枝后采集到的页面有较高的利用率。因此，这极大地节省了硬件和网络等资源以及提高了资源的利用率。

3.它更灵活，更利于为用户服务。采集的目的就是为了服务于用户，对于每个用户来说，他们所关注的信息只是互联网中很小的一部分。面向主题的互联网信息采集恰好可以满足这些用户的需求，而且，由于采集的页面数量少，页面内容页更有针对性，所以能够更好地针对需要为用户提供服务。也正是由于采集的页面数量少，系统更加灵活。

4.通过各个面向主题的互联网信息采集器的协同和共同努力，它可以提高整个互联网的页面采集覆盖率。由于采集到的页面总数少，并且对于这个主题内的页面挖掘能力更强，所以和传统的面向整个互联网的信息采集器相比，面向主题的信息采集器在它所采集的主题范围内往往能采集到更多更全面质量更好的页面。当多个主题采集器按照主题分类目录对主题页面进行分类采集和协同工作后，他们的采集页面对互联网的覆盖率也就更高了。

综上可以看出，面向主题的信息采集策略可以很好地解决影响互联网信息采集效果的两大难题，即：采集页面的数量过于庞大和采集到页面内容的过于杂乱。

3 常用信息采集系统关键技术分析

3.1 网络爬虫采集技术

网络爬虫采集技术处于面向主题信息采集系统的应用底层，常被称作“网络蜘蛛”，主要负责专门与具体的Web打交道。它通过各种Web协议来自动采集互联网的web站点内有效的信息（包括文本、图象、超链接文本、影像、声音等资源）。网络爬虫常用到的Web协议有HTTP、FTP以及BBS，一些情况下这些网络爬虫甚至还可以根据用户的需要采集网络聊天数据、网络交易信息等特殊情报。

3.2 页面分析技术

在采集到一定数量的页面之后，信息采集系统需要从这些页面中抽取出相应的链接，之后根据链接与主题的相关性或者相关程度来判定和过滤与主题无关的链接，保存与主题相关的链接并进行下一步的采集；为有效对链接进行主题的相关性的判断，还需要分析出页面链接中的扩展元数据。这些工作统称为页面分析工作，它包括：提取出页面中的正文和关键词、提取页面内容标题和摘要、提取链接和元数据、提取正文和关键词等。

3.3 URL和主题的相关性判定

为了有效地提高面向主题的信息采集工作的准确率和效率，系统需要对“待采集的URL”进行URL与主题的相关性判定，也称为链接过滤或者链接预测。按高预测值优先采集、低预测值（小于设定的阈值）抛弃的原则进行剪枝处理。这样就能够极大地减少采集页面的数量，有效地提高主题信息搜索的速度和效率。

3.4 页面和主题的相关性判定

为了进一步提高采集页面的准确率，面向主题的信息采集系统还要对已采集的页面进行主题相关性评价，即页面过滤。通过对评价值较低的页面（小于设定的阈值）删除，来提高所采集主题页面的准确率。这个问题是检索领域的一个经典问题，已经有许多成熟的基于关键词的相关性判定算法。在这个方面很多面向主题信息采集系统采取的方法一般为基于关键词的向量空间模型算法。

3.5 数据存储

现在世界主流的面向主题信息采集系统主要有三种数据库需要存储，包括主题页面库、全局URL队列和中间信息记录库。主题页面库是主要用来存放采集器采集过的并经过页面过滤处理后的主题页面。全局URL队列是存放从采集到的页面中提取出来的URL的地方，这些URL在进入URL队列前必须经过URL预测处理，只有被预测为指向主题相关页面的链接才能进入全局URL队列。在插入队列时，也要根据URL与主题的预测相关性的大小排序，相关性越高，排序越前。为了有效的进行URL与主题的性关性判定和页面与主题的相关性判定流程，显然需要许多中间处理结果，比如使用IPageR-ank算法时每个页面所拥有的IPageRank值，所有的这些中间数据，保存在中间信息记录库中。

4 面向主题信息采集系统国外应用研究现状

面向主题信息采集系统受到越来越多的关注，人们对此进行了大量的研究，国外的科研团队提出了许多的算法并实现开发了不少的系统［4］。

如印度理工大学（IIT）和IBM研究中心的研究人员开发了一个典型的面向主题的互联网信息采集器。它的主题集是用样本文件来描述的。为了达到采集时主题引导的目的，设计者设计了两个文本挖掘的部件来指导采集。一个是分类器（Classifier），用来评价采集文本是否与主题相关。另一个是精炼器（Distiller），用于识别能够在较少的链接内就连接到大量相关页面的超文本节点。采集系统首先保存一个经典的主题分类（例如Yahoo的主题分类），并为每一个主题分类都保存若干个内容样本，用于详细地刻画这一类主题。用户在使用本采集器搜索与主题相关的页面时，必须在系统的主题分类树中优先选择一个主题，用于指导采集。由于要选择和剪枝，采集速度并不太快，在双333MHz PIICPU，256内存SCSI硬盘下，每个采集器的采样速度为每小时6 000页。

Aggarwal则提出了一种针对两个假设的面向主题的互联网信息采集方法。它的两个假设是：Linkage Locality和Sibling Locality。Linkage Locality：和某一主题相关的页面，它们链接到某一主题的页面，它所链接到的其它页面也趋向于拥有这个主题。依据这样的假设，Aggarwal的系统在采集器接到一个主题采集请求命令后，它就从自己保存的关于这个主题的起点出发，按照两个假设蔓延，并利用指向备选页面中的URL结构以及其它一些meta信息，使用统计学习的方法进行修剪，使采集的页面很快接近主题。

互联网上的内容80%是动态产生的，并且呈增长趋势，而这些内容却没有被采集下来。美国Stanford大学的Hidden Web Exposer Project以面向主题的思想建立了一个采集这些动态页面的采集器。因为很多隐式页面要通过填写表单等人工手段才能获取，所以这个采集器在采集之前需要人工辅助来事先填好领域信息，然后进行面向主题的采集。尽管主题信息的填写工作比较繁琐，但同一主题的信息结构较相似，只要用户填写一次基本上就实现了自动采集的目标，还是相当方便的。

Menczer评价了三种关于面向主题采集的策略：（1）Best First Crawler（通过计算链接所在页面与主题的相似度来得到采集优先级）；（2）PageRank（通过每25页计算一遍PageRank值来得到采集优先级）；（3）InfoSpiders（通过链接周围的文字，利用神经网络和遗传算法来得到采集优先级）。最后通过实验，作者发现，Best First Crawler最好，InfoSpiders次之，PageRank最差。意向被给予高度评价的PageR-ank算法之所以表现不佳，作者认为是它选出的高质量页面时基于广泛主题的，而对于特定主题来说页面的质量不是很好。

我国的主题信息采集研究也一直在进行当中，如已有的天罗信息采集系统是国家“863”计划下由曙光公司开发的智能导航系统的子系统。这个采集系统最初的目标是面向整个Web的信息采集，随着互联网服务向个性化主动服务等领域拓展［5］，可以在不久的将来看到它的实际应用成果。

5 结语

面向主题的信息采集技术和系统，虽然都采用面向主题的思想，但在主题采集的范围和规模上有所差别。从实际应用来说，有的系统的采集工作是基于广泛主题的，他们采集到的页面数量就相对较多，但这些页面与主题的平均相关度也较低。有些系统采用的是基于具体主题的方案，采集到的页面数量相对较少但主题相关度较高。采集器的选择方面也有所不同，有的系统使用的是基于元搜索的引擎，它采集页面的范围较窄，但减少了独立采集的时间，可以显著提高网络和硬件资源的使用效率。有的则采用基于主题爬虫的采集方法，这样的系统虽然采集更新的时间可能较长，但依然具有采集范围广的优势。

不论这些算法技术和系统是采用何种的具体实现策略，面对一直处于不断膨胀的网络信息世界，面向主题的信息采集概念实实在在地化解了用户信息需求的特定性与网络资源庞大无序性之间的巨大矛盾，因此面向主题的信息采集系统才会从它刚被提出就一直受到人们广泛和持续的关注。虽然今天如Googole和Baidu那样的面向整个互联网的信息采集系统仍然大行其道，但是可以肯定，在不远的将来面向主题的信息采集系统必将以更大的角度进入网络用户的日常生活，并极大地改善互联网信息知识的获取途径和方式。

［1］ S.Lawrence，C.L.Giles.Searching the world wide web［J］.Science，1998，280：98－100.

［2］ C.Aggarwal，F.Al－Garawi，P.Yu.Intelligent crawling on theworld wide webwith arbitrary predicates［R］.Hong Kong：The10th InternationalWWW Conference，2001.

［3］ S.Brin，L.Page.The anatomy of a large-scale hypertextual web search engine［R］.Brisbane，Australia：The 7th International WWW Conference，1998.

［4］李盛韬.基于主题的Web信息采集技术研究［D］.北京：中国科学院，2007.

［5］唐箐，张前，陈泓婕，等.基于Web的文本挖掘［J］.计算机工程与应用，2002，38（21）：198－201.

Analysis and Study of the Theme－based Information Collect System

CHEN Li-wei
（Hunan Air Trafic Control Center，Changsha 410007，China）

This paper analyzes and studies the theme－based information collect system，mainly discussed the theme－based information collect system application background and practical significance，and the advantage of the theme－based information collect system.It also discussed the research status and the application state both at home and abroad.This research will give basic ideas to the later actual application and development.

information collection；theme-based；current situation

F272.7－39

：A

：1003－5540（2014）02－0077－04

2014－03－03

陈立为（1987－），男，助理工程师，主要从事民航空管通信数据链及网络维护工作。