智能中文农业垂直搜索引擎体系的架构与实现

2015-01-06陈燕红

湖北农业科学 2014年12期

摘要：针对互联网农业信息的多样性、复杂性以及我国“三农”的特殊性，研究并实现了智能中文农业垂直搜索引擎AgriRoom，介绍了AgriRoom的体系架构和系统实现中涉及到的关键技术：基于网页分类和多元线性回归分析的信息过滤技术、物理存储模式的分页式倒排索引技术、基于随机索引和潜在语义分析的语义检索模型。该系统目前已投入使用，取得了较显著的应用效果。

关键词：农业信息;垂直搜索引擎;体系架构

中图分类号：TP393.02 文献标识码：A 文章编号：0439-8114（2014）12-2913-05

The Architecture and Implementation of Intelligent Chinese Agriculture

Vertical Search Engine

CHEN Yan-hong

（College of Computer and Information Engineering， Xinjiang Agriculture University， Urumqi 830052， China）

Abstract：For the diversity and complexity of agricultural information on the Internet， and the particularity of “three rural” in China， the AgriRoom which was a intelligent Chinese agriculture vertical search engine was studied and achieved. The architecture of AgriRoom and the key technologies related to the system implementation included： information filtering technology based on web page classification and multiple linear regression analysis， tabbed inverted index in physical storage mode， semantic retrieval model based on random index and latent semantic analysis. Now， the system has been put into use， and made significant application effect.

Key words：agricultural information;vertical search engine;architecture

20世纪90年代初，搜索引擎开始应用于农业领域，多由商业公司开发，也有一些是由组织机构和政府部门研发的。从搜索引擎的质量来看，组织机构、政府部门开发和维护的农业搜索引擎的质量高于商业公司，主要是因为政府部门和组织机构都是农业相关部门，拥有先天优势。典型代表有美国农业网络信息中心（AGNIC）与美国普林斯顿建立的Agriscape Search等[1]。2007年，中国首个农业垂直搜索引擎——“农搜”上线，是目前全球数据量最大的中文农业垂直搜索引擎，其实现了“全文检索+语义检索”的智能检索功能[2]。同年上线的“华农在线”利用自然语言语义分析技术实现了信息处理的应用和在农业行业的垂直搜索。与此同时，我国还出现了一些提供农业信息搜索功能的网站。随着搜索引擎技术的发展，面对我国“三农”的特殊性以及互联网农业信息的多样性和复杂性，许多问题需要探讨，本研究构建了智能中文农业垂直搜索引擎AgriRoom，并从体系的架构、信息过滤、物理存储模式以及语义检索模型等方面进行了介绍，为构建智能中文农业垂直搜索引擎奠定了基础。

1 智能中文农业垂直搜索引擎体系的架构

课题组基于前期研究成果设计并实现了一个功能完备的智能农业垂直搜索引擎AgriRoom，其体系架构如图1所示。AgriRoom作为专注于互联网农业信息的垂直搜索引擎，从初始的种子站点到主题词库等都体现了农业特性，同时系统还具有专门的信息过滤模块筛选与农业相关性高的网页，从而既可以节约存储空间，又保证了信息的准确性。同时，为后期高效地检索打下良好的基础及保证系统的查准率和查全率，AgriRoom采用基于双索引库模式的潜在语义检索方式。首先，系统利用索引模块建立高效的分页式倒排索引库;然后，利用检索模块将其转换为双重语义空间，为后面的语义检索作准备。体系的架构图见图1。

1）专业网络蜘蛛[1]从农业种子站点列表中获得网页的URL，如果该地址不在舍弃URL队列中，则对互联网中相应的Web服务器进行网页抓取，并解析抓取的网页，提取该网页中的超链接信息和网页内容信息送信息过滤模块。然后，网络蜘蛛再继续抓取下一个网页进行同样的处理。

2）信息过滤模块接到专业网络蜘蛛送来的已解析页面后，根据农业主题词库中的主题词及其权值，分析该页面的内容是否与农业主题相关、是否是垃圾网页或导航页面。如果页面与农业主题相关度比设定的阈值低或页面为垃圾页面，则将此页面的URL送入舍弃URL队列。否则，将页面送入索引模块准备建立索引，同时，还将该页面存入农业网页数据库中。

3）索引模块将获得的页面信息，进行相应处理后，建立分页式倒排索引并存入索引库[3]中。

4）当所有抓取的页面都被索引后，检索模块读取分页式倒排索引库中的索引，通过随机索引[4]和潜在语义分析[5]建立较高效的双重语义空间。endprint

5）用户输入查询条件后，检索模块对其进行解析和处理，转换为标准的查询语句;检索模块将查询语句和语义空间中的信息进行语义分析后，获得查询结果。最后，形成结果页面返回给用户。

2 智能中文农业垂直搜索引擎体系的关键技术

AgriRoom的实现需要综合应用多项技术，除了常规的网页抓取[1]、中文分词技术[6]外还涉及到了3项关键技术：信息过滤技术、分页式倒排索引技术以及语义检索技术。

2.1 信息过滤

为了有效地减小索引规模和提高系统效率，AgriRoom采用了一种基于网页分类技术和多元回归分析[7]的信息过滤模型如图2所示。整个工作流程可以分为训练过程和测试过程。在训练过程中，训练集实例经过预处理（文本抽取、中文分词）、抽取特征项、向量表示后，构建多元线性回归的数学模型，最后进行回归分析获得回归方程;在信息过滤过程中，每一个待过滤的中文网页经过预处理、向量表示后，代入多元回归方程中，判定该网页是否为农业网页。

从图2可以看出，构建该信息过滤模型的关键因素包括：建立训练集、网页预处理、特征选择算法、多元线性回归分析：

1）建立训练集。训练集是研究的起点和基础，但是与众多的面向英文的标准网页训练集相比，标准的中文网页训练集的起步很晚。到目前为止，只有一些中文文本训练集，还没有出现标准的中文网页训练集。为了解决该问题，动员100个学生手工在互联网上采集农业网页50 000张，其中，35 000张作为训练集，15 000张作为测试集;然后，以百度作为网络蜘蛛的种子站点，在互联网上随机抓取 12 000张网页，人工挑出7 000张非农业网页，其中的4 000张作为训练集，3 000张作为测试集。通过反复测试，最终确定训练集实例用于信息过滤。

2）网页预处理。网页预处理过程主要包括网页正文抽取;借助于中文分词工具对抽取后的文本进行中文分词;对分词后的结果建立索引。

3）特征选择算法。特征词不但是用来建立回归模型的因子，也是区分农业网页和非农业网页的最关键因素，特征词选取方法将对模型的识别效果产生重大影响。文本在深入研究了中文网页分类中典型的特征词提取方法的基础上，结合实际应用提出了一种新的特征词选取方法，其步骤如下：

a.从农业训练集索引文件中获取农业训练集分词结果集合Term1（t1，t2，…，tn）和对应文档频率集合Df1（df1，df2，…，dfn）;

b.从非农业训练集索引文件中获取非农业训练集分词结果集合Term2（t1，t2，…，tm）和对应文档频率集合Df2（df1，df2，…，dfm）;

c.从集合Df1中查询Term1中所有词条ti的文档频率，记为ny_dfi，再从集合Df2中查询词ti的文档频率dfi，记为fny_dfi，计算词条ti在农业训练集和非农业训练集中文档频率差值的绝对值C，即C=ABS（ny_dfi-fny_dfi）。对词条ti按C值逆序排序，选取C值大于预先设定的阈值的词条ti为区分农业网页和非农业网页的特征词。通过分别比较不同分词工具的特征词选取结果，最终确定了前100个特征词（表1）。

4）多元线性回归分析。多元回归分析[8]是一种处理自变量与因变量的统计相关关系的一种数理统计方法。虽然自变量和因变量之间没有确定性的函数关系，但可以设法找出最能代表它们之间关系的数学表达形式。回归分析有很广泛的应用，例如经验公式的求得、因素分析、产品质量的控制等。在进行中文农业网页识别过程中，利用获得的前40个特征词和MATLAB进行多元线性回归分析，最终获得可用于分类的回归方程，即分类器：y= -0.368 4+0.187 4x[0]+0.210 4x[1]+0.202 4x[2]+0.125 8x[3]+0.364 2x[4]+0.188 2x[5]+0.135 7x[6]+0.083 7x[7]+0.126 8x[8]+0.045 5x[9]+0.061 6x[10]+0.053 8x[11]+0.105 0x[12]+0.097 0x[13]+0.404 0x[14]+0.071 1x[15]-0.018 4x[16]+0.076 1x[17]-0.372 7x[18]+0.118 8x[19]-0.098 9x[20]+0.078 7x[21]+0.065 8x[22]-0.088 4x[23]-0.054 9x[24]-0.028 5x[25]+0.047 5x[26]-0.083 6x[27]+0.036 6x[28]-0.134 3x[29]+0.003 4x[30]+0.004 5x[31]+0.034 4x[32]+0.045 6x[33]+0.020 3x[34]+0.038 0x[35]-0.063 9x[36]-0.026 6x[37]+0.092 7x[38]-0.083 2x[39]。

式中的x[i]为第i个特征词的对应值，若该词在网页中出现了，x[i]的值为1，否则为0;最终计算出的y值如果大于0，说明网页为农业网页，否则不是农业网页。

2.2 分页式倒排索引

为了解决常规倒排索引的检索效率低、不易更新等缺点[9]，AgriRoom采用一种分页式倒排索引结构（图3）。该倒排索引的存储模式采用数据库与磁盘文件混合存储，只将文档集合D存入数据库中而将词条集合T和倒排索引集合IT存入磁盘文件中。为了提高检索速度，AgriRoom将倒排索引散列为100份。每个文件夹下有3个文件，分别是IND、SITES和URLS，均为顺序文件。其中，IND文件中存储了每个词条在SITES文件中的偏移量（SitesOffset），包含该词条的站点个数（SiteCount）、该词条的文档个数（UrlCount）以及词条在文档集合D中出现的总次数（TotalCount）。SITES文件中存储了词条在各站点（Site_ID）倒排索引中的偏移量（UrlsOffset）。URLS文件存储词条的倒排索引并按照Site_ID聚合。endprint

为了提高倒排索引的检索和更新效率，倒排索引文件在磁盘中以分页方式存储[10]。为了减少文件页内碎片，AgriRoom将倒排索引集合IT存入多个文件中，每个文件具有不同页大小，并在配置文件中指定每个文件的路径、文件名以及页大小（页大小是文件系统页大小的整数倍）。每个倒排文件有一个头页（HeadPage）和若干个数据页（DataPage）。在头页中存储该文件的页大小（PageSize）、页个数（PageCount）以及下一个空闲页的页号（NextFreePageNo）。在数据页中存储该页的页号（PageNo），如果单个词条的倒排索引数据长度大于数据页的大小则存储下一个数据页的页号（NextPageNo）、索引长度以及索引数据。一个数据页中最多只能存一个词条的倒排索引数据。由于HASH数据结构在内存中的等值查找性能最好，所以词条集合T和倒排索引集合IT在内存中以HASH数据结构存储以提高检索效率。倒排文件和词典文件在磁盘和内存中的结构如图4所示。

2.3 基于双重语义空间的语义检索模型

检索技术是智能中文农业垂直搜索引擎实现高效检索的核心技术之一，针对语义检索的现状和存在的问题，AgriRoom采用了一种新型的基于双重语义空间的语义检索模型[11]。该检索模型的基本思路是将检索过程分解为两个阶段：①利用改进后的随机索引技术[11]生成农业测试集的文档空间和词空间，然后获得查询句的语义向量，与文档空间中的向量进行比较，获得初选文档列表;②利用潜在语义分析技术生成文档空间的文档相似度矩阵[12]，利用文档间的相似度值，对初选文档列表中大于指定阈值的文档查找相关文档，并更新文档列表，最终获得结果列表返回给用户。AgriRoom的语义检索模型见图5。

3 系统的实现

基于系统的总体设计和相关研究成果，课题组构建了功能完备的智能中文农业垂直搜索引擎AgriRoom。从种子站点开始抓取互联网中的相关网页，并经过信息过滤后，建立农业网页数据库和分页式倒排索引库，再经过进一步的语义分析后，建立语义索引库，最终能够为用户提供方便、准确的农业信息检索服务。

3.1 开发环境与工具

系统开发的硬件环境为：64位曙光刀片服务器，其主要配置为4 GB内存，260 GB硬盘容量;软件配置为：Redhat Linux操作系统，其内核为2.6.31.5-127.fc12.i686.PAE，编译器为GCC 4.4.2，Web服务器为Apache 2.x。系统的后台数据库为：MySQL。

3.2 系统运行实例

在IE地址栏内输入相应网址访问AgriRoom的首页面，结果如图6所示。

在搜索框中输入“新疆棉花价格”后，搜索结果如图7所示。

在检索结果页面内点击第一个结果的超链接即可跳转到该网页，结果如图8所示。

4 小结

面对海量的互联网信息资源，如何快速而有效地获取个性化的农业知识和信息资源成为数字农业迫切需要解决的问题。智能中文农业垂直搜索引擎的出现将有效解决农业信息“迷航”问题。因此研究构建了智能中文农业垂直搜索引擎的关键技术，提出了基于网页分类和多元线性回归分析的信息过滤技术、分页式倒排索引技术以及基于随机索引和潜在语义分析的语义检索模型。最终，构建了功能完备的智能中文农业垂直搜索引擎AgriRoom。经过实际应用证明，该系统能够为用户提供方便、准确的农业信息检索服务。

参考文献：

[1] CHRISTOPHER M， PRABHAKAR R. An Introduction to Information Retrieval[M]. Cambridge：Cambridge University Press，2008.

[2] 陈苒，董占球.WWW信息搜索技术研究[J].计算机工程与应用，2001，37（14）：62-64.

[3] CHULEERAT J， CANASAI K. Building Inverted Files Through Efficient Dynamic Hashing [A].The Sixth National Computer Science and Engineering Conference[C]. Princeton， New Jersey：CiteSeer， 2002.

[4] COHEN T， SCHVANEVELDT R， WIDDOWS D.Reflective random indexing and indirect inference： A scalable method for discovery of implicit connections[J].Journal of Biomedical Informatics， 2010，43（2）：240-256.

[5] DEERWESTER S，DUMAIS S T， LANDAUER T K ，et al. Indexing by latent semantic analysis[J].Journal of the Society for Information Science，1990，41（6）：391-407.

[6] 单松巍，冯是聪，李晓明.几种典型特征选取方法在中文网页分类上的效果比较[J].计算机工程与应用，2003，39（22）：146-148.

[7] 刘艳民.中文网页分类方法研究[J].微电子学与计算机，2009， 26（9）：167-169.

[8] 茆诗松，程依明，濮晓龙.概率论与数理统计教程[M].北京：高等教育出版社，2009.

[9] NGOCANH V，ALISTATR M. Inverted index compression using word-aligned binary codes[J]. Information Retrieval， 2007，8（1）：151-166.

[10] 刘小珠，彭智勇，陈旭.高效的随机访问分块倒排文件自索引技术[J].计算机学报， 2010，33（6）：977-987.

[11] 陈燕红，张太红，冯向萍，等.基于双重语义空间的农业信息检索模型研究[J].新疆农业大学学报，2012，35（3）：253-258.

[12] LANDAUER T K，DUMAIS S T. A solution to Platos problem： The latent semantic analysis theory of acquisition，induction，and representation of knowledge[J]. Psychological Review，1997，104（2）：211-240.endprint

2.3 基于双重语义空间的语义检索模型

3 系统的实现

3.1 开发环境与工具

3.2 系统运行实例

在IE地址栏内输入相应网址访问AgriRoom的首页面，结果如图6所示。

在搜索框中输入“新疆棉花价格”后，搜索结果如图7所示。

在检索结果页面内点击第一个结果的超链接即可跳转到该网页，结果如图8所示。

4 小结

参考文献：

[1] CHRISTOPHER M， PRABHAKAR R. An Introduction to Information Retrieval[M]. Cambridge：Cambridge University Press，2008.

[2] 陈苒，董占球.WWW信息搜索技术研究[J].计算机工程与应用，2001，37（14）：62-64.

[5] DEERWESTER S，DUMAIS S T， LANDAUER T K ，et al. Indexing by latent semantic analysis[J].Journal of the Society for Information Science，1990，41（6）：391-407.

[6] 单松巍，冯是聪，李晓明.几种典型特征选取方法在中文网页分类上的效果比较[J].计算机工程与应用，2003，39（22）：146-148.

[7] 刘艳民.中文网页分类方法研究[J].微电子学与计算机，2009， 26（9）：167-169.

[8] 茆诗松，程依明，濮晓龙.概率论与数理统计教程[M].北京：高等教育出版社，2009.

[9] NGOCANH V，ALISTATR M. Inverted index compression using word-aligned binary codes[J]. Information Retrieval， 2007，8（1）：151-166.

[10] 刘小珠，彭智勇，陈旭.高效的随机访问分块倒排文件自索引技术[J].计算机学报， 2010，33（6）：977-987.

[11] 陈燕红，张太红，冯向萍，等.基于双重语义空间的农业信息检索模型研究[J].新疆农业大学学报，2012，35（3）：253-258.

2.3 基于双重语义空间的语义检索模型

3 系统的实现

3.1 开发环境与工具

3.2 系统运行实例

在IE地址栏内输入相应网址访问AgriRoom的首页面，结果如图6所示。

在搜索框中输入“新疆棉花价格”后，搜索结果如图7所示。

在检索结果页面内点击第一个结果的超链接即可跳转到该网页，结果如图8所示。

4 小结

参考文献：

[1] CHRISTOPHER M， PRABHAKAR R. An Introduction to Information Retrieval[M]. Cambridge：Cambridge University Press，2008.

[2] 陈苒，董占球.WWW信息搜索技术研究[J].计算机工程与应用，2001，37（14）：62-64.

[5] DEERWESTER S，DUMAIS S T， LANDAUER T K ，et al. Indexing by latent semantic analysis[J].Journal of the Society for Information Science，1990，41（6）：391-407.

[6] 单松巍，冯是聪，李晓明.几种典型特征选取方法在中文网页分类上的效果比较[J].计算机工程与应用，2003，39（22）：146-148.

[7] 刘艳民.中文网页分类方法研究[J].微电子学与计算机，2009， 26（9）：167-169.

[8] 茆诗松，程依明，濮晓龙.概率论与数理统计教程[M].北京：高等教育出版社，2009.

[9] NGOCANH V，ALISTATR M. Inverted index compression using word-aligned binary codes[J]. Information Retrieval， 2007，8（1）：151-166.

[10] 刘小珠，彭智勇，陈旭.高效的随机访问分块倒排文件自索引技术[J].计算机学报， 2010，33（6）：977-987.

[11] 陈燕红，张太红，冯向萍，等.基于双重语义空间的农业信息检索模型研究[J].新疆农业大学学报，2012，35（3）：253-258.