基于Python的海外工程政策信息采集研究与实现

2020-08-16林艺馨周弋焜张策其乐木格

科技创新与应用 2020年23期

林艺馨　周弋焜　张策　其乐木格

摘要：本研究通过聚焦爬虫爬取我国海外工程政策信息相关网站建立数据库，创建我国海外工程政策信息专业搜索引擎，并利用自然语言处理、知识图谱等技术实现对检索词的近义词与相关词的推荐，降低对用户输入检索词的要求，优化用户的搜索体验。本研究构建了完整的搜索引擎，提供了一套针对于工程专业领域信息搜集与整合的方法，同样可应用于其他领域的信息收集与处理。

关键词：Python;数据库;搜索引擎

中图分类号：TP311.13 文献标志码：A 文章编号：2095-2945（2020）23-0037-02

Abstract： This study establishes a database by focusing on Crawler crawling the website of overseas engineering policy information of our country， creates a professional search engine of overseas engineering policy information of our country， and uses natural language processing， knowledge map and other technologies to realize the recommendation of synonyms and related words of search terms， so as to reduce the requirements for users to enter search terms and optimize the search experience of users. This research constructs a complete search engine， provides a set of methods for information collection and integration in engineering fields， and can be applied to other fields of information collection and processing.

Keywords： Python; database; search engine

1 概述

隨着“一带一路”“走出去”战略不断发展，我国承包的海外工程越来越多，国家也不断出台相关政策进行调控。但我国海外工程政策信息在搜寻过程中仍然存在很多问题，具体包括：第一，政策信息来源分散，有多个网站发布政策部令，但各个网站互相交叉重复，也互有遗漏，没有一个针对于海外工程集中的网站;第二，关键词索引不便，无法分辨近义词，也无法提供相关联词方便用户搜索;第三，查询被引文件的不方便性，被引文件可能需要去其他网站搜索。

因此本研究提出相应的解决方法，首先为解决政策信息来源分散的问题，本文利用聚焦爬虫爬取海外工程政策信息相关的网站建立数据库，并搭建了专业性更强的搜索引擎。其次，为改善用户检索体验，本文利用自然语言处理技术实现了近义词推荐功能，并且构建知识图谱实现了检索词的相关联词推荐功能。最后，由于搜索引擎的专业性较强，故可以直接对部分政策的条款中涉及引用其他的政策信息，进行检索并准确检出相关结果。

2 文献综述

2.1 聚焦爬虫

聚焦爬虫属于网络爬虫的一种，是为了解决随着大数据时代到来和数据形式越来越多，而通用网络爬虫抓取深度浅，且无法处理含量密集的结构化信息而开发出来，针对于搜索范围相对较小且极具针对性的结构化信息数据。聚焦爬虫按照一定的规则自动提取网页超链接，并下载相应的网络信息，从而为用户提供特定主体的数据信息，并不一味追求高覆盖率[1]。

2.2 数据库

数据库也称为数据结构模型，是用于数据信息组织、存储、管理等方面工作安排的资源控制条件[2]。数据库的发展可以被视为计算机技术和信息技术的发展，数据库技术作为数据管理与运用的有效工具，它为我国任何行业提供了极佳的信息服务体验。

2.3 自然语言处理

自然语言处理，是计算机科学与人工智能领域的一个重要方向。自然语言处理有文本检索、机器翻译、文本分类、信息抽取、序列抽取、文本摘要、问答系统、对话系统、知识图谱、文本聚类等等多个领域。涉及分词、词性标注、句法分析、词干提取、命名体识别指代消歧、关键词提取、词向量等等基本技术[3]。本研究中的文本分词以及近义词推荐功能，都利用了自然语言处理技术。

2.4 知识图谱

知识图谱是一种用可视化技术描述知识资源及其载体，挖掘、分析、构建、绘制和显示知识及它们之间的外在关联和内在发展规律，以图形图像为表现形式的一种研究方法[4]。主要特点是对大量数据的深度挖掘和图像的可视化[5]。运用知识图谱提取各网页关键词之间的关联，可以提供相关词的推荐。

2.5 搜索引擎

搜索引擎是指根据一定的策略、运用特定的计算机程序从互联网上搜集信息，在对信息进行组织和处理后，为用户提供检索服务，将用户检索相关的信息展示给用户的系统。一个搜索引擎由搜索器、索引器、检索器和用户接口四个部分组成。搜索器的功能是在互联网中漫游，发现和搜集信息。索引器的功能是理解搜索器所搜索的信息，从中抽取出索引项，用于表示文档以及生成文档库的索引表。检索器的功能是根据用户的查询在索引库中快速检出文档，进行文档与查询的相关度评价，对将要输出的结果进行排序，并实现某种用户相关性反馈机制。用户接口的作用是输入用户查询、显示查询结果、提供用户相关性反馈机制[6]。

3 研究内容

3.1 聚焦爬虫

聚焦爬虫在本研究的项目中是数据库建立的重要工具，其功能主要是把网站上的内容从服务器下载到本地，作为数据库的资料来源。

本研究编写的网络爬虫步骤如下：（1）挑选出中华人民共和国商务部、中国一带一路等官网的首页网址作为带爬取的队列queue。（2）从queue队列中挑出第一个的网址，判断是否已经爬取，即与已爬取的网址队列visited进行查找，如果没有，说明为爬取，则可以利用网络爬虫将内容下载下来，并把这个网址从未爬取队列queue移入已爬取队列visited。（3）对爬取的网址内容进行解析，利用正则表达式匹配出所有的网址，并且进行删选后补全网址，存入待爬取的队列queue。（4）进行下一个循环，确认queue列队清空。

3.2 数据库的建立

在爬虫爬取到数据之后，并不是直接存入数据库之中，即使是爬虫爬取到的内容也不一定都是本研究所需要的;其次本研究的目的并不是将网站内容从服务器下载到本地作为镜像，所以对数据进行清洗是非常必要的。

本研究采用自然语言处理、正则匹配等方式将无用信息去除，将这些信息按照一定的数据结构进行存储，以便于检索器查找，本研究选择了关系型数据库mysql，在其中新建了两个表doc、word来存储信息，并通过软件SQLiteSPY查看数据库。

3.3 检索器

检索器主要功能是按照用户的需求在索引库中找出相似文档，对文档与用户需求的相似程度进行评价，返回相似度和某一方面相似的文档集合[6]。

本研究将用户输入的语句进行分词处理，同样是利用了jieba分词，得到了查询关键词，然后检索器通过建立向量空间，对倒排索引列表中，关键词所对应的文档利用向量空间模型的TF-IDF算法进行相似度计算，按照相似度排序后返回给用户。

3.4 近义词与相关词推荐

本研究通过自然语言处理和知识图谱实现了近义词与相关联词的推荐。其中近义词的推荐是调用了自然语言处理的synonyms中文近义词库，在用户使用界面推荐给用户，而知识图谱的构建是利用TextRank算法将数据库中的每个网页信息提取出十个关键词，并对关键词进行筛选和删减，然后设计代码将关键词转为EndNote格式，导入SATI进行处理，生成共现矩阵，进而绘制成为知识图谱。最后通过分析知识图谱绘制原理，利用代码将知识图谱中的对应关系提取出来，并转化为.json格式，形成相关联词结构化数据库，在用户使用界面调用。

3.5 用户使用界面

用戶接口主要是给用户提出搜索条件的输入和查询结果的输出[7]。本研究利用python中的PyQt5进行编写用户界面，支持用户进行语句输出，通过检索器进行处理，返回的结果也会在界面中得到展示，并显示出结果文档的相似度得分以及URL，并通过复制URL到跳转一栏中，可以实现调用chrome浏览器打开目标网站进行浏览，如下图1。

4 结论

本研究最终的成果为海外工程政策信息搜索引擎，该搜索引擎首先通过派出“蜘蛛”程序，利用聚焦爬虫对中国一带一路网等网站，关于海外工程政策的相关信息进行爬取并且下载到本地，用于构建数据库。由于这些数据不仅数据量很大而且其中含有较多的非关键信息，所以必须通过自然语言处理程序进行数据清洗。最后与搜索引擎相结合，实现了对中国海外工程方面相关政策的收集。除此之外还利用知识图谱和自然语言处理在用户使用界面为用户提供了相关联词和近义词推荐，优化了用户搜索体验。

参考文献：

[1]周立柱，林玲.聚焦爬虫技术研究综述[J].计算机应用，2005（9）：1965-1969.

[2]张玮.探析计算机网络数据库中的安全管理技术[J].计算机产品与流通，2020（05）：40+78.

[3]宗成庆.统计自然语言处理[M].2版.北京：清华大学出版社，2013.

[4]官思发.基于科学知识图谱的知识共享研究进展分析[D].武汉：华中师范大学，2012.

[5]何玮，齐凤青，郑斐.浅议将知识图谱融入查新工作以推动学科化服务[J].图书情报导刊，2012，22（2）：99-101.

[6]童明.基于HDFS的分布式存储研究与应用[D].武汉：华中科技大学，2012.

[7]赵明宇.基于web中数据检索技术的应用与研究[J].自动化技术与应用，2015，34（01）：30-32.