APP下载

基于大数据的智能搜索服务系统*

2022-06-24静,张

山西电子技术 2022年3期
关键词:爬虫搜索引擎网页

温 静,张 颖

(山西省信息产业技术研究院有限公司,山西 太原 030006)

0 引言

搜索引擎成为人们当下学习、生活中不可缺少的助手,有什么问题,上搜索引擎搜索,答案迎刃而解。不过,即使现在的搜索服务系统已经相当成熟,但是人们还经常抱怨搜索内容不符合自己心理预期的内容,每次搜索的结果有自己想要的内容,也有和自己搜索词条无关的内容。例如搜索“苹果”,搜索结果中不仅出现水果苹果,还搜索出苹果公司、苹果手机等内容。而这些都不是用户想要的结果,用户真正想要的结果是苹果及其营养价值,种植方式等内容的介绍。如图1所示。

图1 常用的搜索引擎

由上例可知,目前搜索引擎存在的问题包括两个方面:一是现在的搜索引擎普遍是按照网页中是否含有搜索词条去搜索的,并不是按照语义搜索的;二是搜索方式比较单一,不可以语音识别,图像识别,这样对于文化程度不高的用户来说,使用搜索引擎成为一大难题。

一个智能搜索服务系统最主要的任务就是能够理解用户需求,通过分析用户输入的文字、图片、语音来解决以上问题。

如何解决这一普遍性问题成为一大热点。

1 背景分析

搜索引擎是时代发展必然的产物,人类文明采用文字、书籍记录着,如果没有搜索引擎的出现,我们很难找到自己想要的目标信息。

在1990年,出现了历史上第一个真正意义的搜索引擎——Archie,用于FTP服务器。而1993年用于WEB网络的搜索引擎Word Wide Web Wanderer,只能用作收集网址;同年产生的ALIWEB已经可以检索辩题等信息,但文件主体内容还是无法索引。1997年,ASK正式上线,由于当时采用纯人工输入方式进行录入、搜索,之后不得不采用其他搜索引擎的数据。1998年下半年,谷歌公司成立。2000年初,百度公司成立,在2001年百度正式上线,中文搜索随即进入百度时代,2005年百度上市。中文搜索引擎不仅为用户提供了问题的解答,更提高了大家的工作效率。

2 基础知识

2.1 网络爬虫

网络爬虫是一个可以实现自动提取网页功能的程序,它可以从万维网下载所需网页,并提交给搜索引擎,因此,它成为了搜索引擎必不可少的一部分。

目前,爬虫软件的主要功能就是爬取网页信息,为用户从万维网上搜取数据,供大家使用。

2.2 知识图谱

知识图谱是将数学、图像学、可视化技术等科学理论与方法结合,并利用可视化图谱展现学科的核心结构、发展前沿以及整体知识架构等内容,从而达到多学科融合的目的。

2.3 自然语言处理

自然语言几乎是人们日常使用的通俗语言,自然语言处理就是建立一个能够分析自然语言的计算机模型。处理过程中需要采用汉语分词技术、短语识别技术和同义词处理等技术。

汉语分词技术:中文不像英文那样每个单词中间有空格间隔,中文之间没有界定符,只能人为切分。但是在分词的过程中可能会偏离查询词汇的真正含义。因此我们可以根据语料库进行总结,获取词语出现的概率以及每个词之间的关联,这样就能有效排除词语的歧义,从而提高分词的准确性。

短语识别技术:就是利用词语之间的特定搭配和语法规则,快速全面的建立他们之间的联系,从而合理的切分词语。

同义词处理技术:处理同义词有两种方法,一种方法是人工构造同义词词库进行搜索,另一种方法是从语料库中获取同义词关联,从而搜索出同义词。

3 开发环境

系统前端界面采用HTML、CSS、JS等开发语言,其余采用python语言进行开发,后台数据采用Mysql数据库集群云处。

4 设计目标

基于大数据的智能搜检系统实现网内网外数据的融合、基于机器自学习的智慧爬虫、专业化的科技搜索、知识图谱的构建。通过对现有数据的融合处理和互联网数据的爬取积累,搭建专业化的科技搜索,实现企业需求数据的多维知识图谱构建。建成智能科技搜索服务系统,实现网内外数据的积累、融合挖掘、知识图谱展现。具体内容分为三步:

1)研究知识库、知识图谱的构建方法,进行网内数据的分析整理:目标整理完成自由数据。研究网络爬虫和机器学习,进行智慧爬虫的架构;目标初步建成网络爬虫,开始数据积累。

2)在融合网内数据和爬虫数据基础上,不断积累新的数据,进行智慧爬虫的建设和完善,研究并设计构架专业化的科技搜索。深入研究知识图谱等,构建图元关系网络,进行特征行为分析,建立技术需求与科技要素的关联元数据库,构架需求数据知识图谱。

3)持续积累数据,不断补充完善机器自学习规划的设计,进行智慧爬虫算法优化,进行科技搜索算法优化,完善扩充数据知识图谱。

5 功能设计

本系统一共分为三个模块:文字搜索模块、图片搜索模块和语音搜索模块。主要实现采用不同类型的载体对数据实现智能搜索功能。

5.1 文字搜索系统

文字搜索模块下又分成三个不同的子模块:文档搜索、新闻搜索和网页搜索。

1)文档搜索:输入文档的关键字,点击文档搜索,进行定向搜索,搜索的内容只能是文档形式,没有其他形式。如图2所示。

图2 文档搜索

2)新闻搜索:新闻搜索的主要内容是摘取自中国新闻网、各地新闻网、新闻联播、新闻头条等官方新闻网站的信息。考虑到新闻关注者老年人比例较大,所以又设置了适老版PC端。如图3所示。

图3 新闻搜索

3)网页搜索:网页搜索的主要内容是百度百科、360百科等关于专业知识的权威解答。如图4所示。

图4 网页搜索

5.2 图片搜索模块

搜索框末端有相机样式的标志,首先将想要搜索的内容以图片的形式上传到系统中,然后点击搜索。搜索出来的内容只有图片格式,没有其他格式的。如图5所示。

图5 图片搜索

5.3 语音搜索模块

搜索框下端有话筒样式的标志,点击话筒开始讲话,输入想要搜索的内容后松开鼠标,此时搜索框内出现语音,点击搜索开始检索内容。如图6所示。

图6 语音搜索

6 智能搜索系统的优点

1)搜索结果精度高。传统的搜索系统存在很多缺点,如:查询结果定位不准确、查询的无用信息过多,给用户带来不必要的困扰等。智能搜索系统基于大数据的方法获得用户在查询过程中表达出来的真正意图,使用户告诉搜索系统哪些文档和用户相关,哪些不相关,通过多次交互逐步实现。

2)搜索范围准确。由于采用知识图谱等先进技术,将搜索范围确定的更加准确.用户不需要再对搜索出来的内容做进一步的筛选,同时它还能够支撑全文检索以及概念检索,使不同的用户得到满足。

3)搜索过程交互智能。智能搜索系统在信息检索的过程中,不断的与用户交互,在用户提出进一步查询的线索基础上,不断修改检索过程。

7 总结

本文用一种大数据的智能方法来进行搜索系统的改进,采用基于机器自学习的智慧爬虫、专业化的科技搜索、知识图谱的方法,使得搜索的内容更加准确,更加符合用户需求。

猜你喜欢

爬虫搜索引擎网页
利用网络爬虫技术验证房地产灰犀牛之说
Chrome 99 Canary恢复可移除预置搜索引擎选项
基于Python的网络爬虫和反爬虫技术研究
基于HTML5与CSS3的网页设计技术研究
世界表情符号日
基于CSS的网页导航栏的设计
基于HTML5静态网页设计
大数据背景下校园舆情的爬虫应用研究
基于URL和网页类型的网页信息采集研究
大数据环境下基于python的网络爬虫技术