基于大数据的智能搜索服务系统*

2022-06-24温静，张颖

山西电子技术 2022年3期

温静，张颖

(山西省信息产业技术研究院有限公司，山西太原 030006)

0 引言

搜索引擎成为人们当下学习、生活中不可缺少的助手，有什么问题，上搜索引擎搜索，答案迎刃而解。不过，即使现在的搜索服务系统已经相当成熟，但是人们还经常抱怨搜索内容不符合自己心理预期的内容，每次搜索的结果有自己想要的内容，也有和自己搜索词条无关的内容。例如搜索“苹果”，搜索结果中不仅出现水果苹果，还搜索出苹果公司、苹果手机等内容。而这些都不是用户想要的结果，用户真正想要的结果是苹果及其营养价值，种植方式等内容的介绍。如图1所示。

图1 常用的搜索引擎

由上例可知，目前搜索引擎存在的问题包括两个方面：一是现在的搜索引擎普遍是按照网页中是否含有搜索词条去搜索的，并不是按照语义搜索的；二是搜索方式比较单一，不可以语音识别，图像识别，这样对于文化程度不高的用户来说，使用搜索引擎成为一大难题。

一个智能搜索服务系统最主要的任务就是能够理解用户需求，通过分析用户输入的文字、图片、语音来解决以上问题。

如何解决这一普遍性问题成为一大热点。

1 背景分析

搜索引擎是时代发展必然的产物，人类文明采用文字、书籍记录着，如果没有搜索引擎的出现，我们很难找到自己想要的目标信息。

在1990年，出现了历史上第一个真正意义的搜索引擎——Archie，用于FTP服务器。而1993年用于WEB网络的搜索引擎Word Wide Web Wanderer，只能用作收集网址；同年产生的ALIWEB已经可以检索辩题等信息，但文件主体内容还是无法索引。1997年，ASK正式上线，由于当时采用纯人工输入方式进行录入、搜索，之后不得不采用其他搜索引擎的数据。1998年下半年，谷歌公司成立。2000年初，百度公司成立，在2001年百度正式上线，中文搜索随即进入百度时代，2005年百度上市。中文搜索引擎不仅为用户提供了问题的解答，更提高了大家的工作效率。

2 基础知识

2.1 网络爬虫

网络爬虫是一个可以实现自动提取网页功能的程序，它可以从万维网下载所需网页，并提交给搜索引擎，因此，它成为了搜索引擎必不可少的一部分。

目前，爬虫软件的主要功能就是爬取网页信息，为用户从万维网上搜取数据，供大家使用。

2.2 知识图谱

知识图谱是将数学、图像学、可视化技术等科学理论与方法结合，并利用可视化图谱展现学科的核心结构、发展前沿以及整体知识架构等内容，从而达到多学科融合的目的。

2.3 自然语言处理

自然语言几乎是人们日常使用的通俗语言，自然语言处理就是建立一个能够分析自然语言的计算机模型。处理过程中需要采用汉语分词技术、短语识别技术和同义词处理等技术。

汉语分词技术：中文不像英文那样每个单词中间有空格间隔，中文之间没有界定符，只能人为切分。但是在分词的过程中可能会偏离查询词汇的真正含义。因此我们可以根据语料库进行总结，获取词语出现的概率以及每个词之间的关联，这样就能有效排除词语的歧义，从而提高分词的准确性。

短语识别技术：就是利用词语之间的特定搭配和语法规则，快速全面的建立他们之间的联系，从而合理的切分词语。

同义词处理技术：处理同义词有两种方法，一种方法是人工构造同义词词库进行搜索，另一种方法是从语料库中获取同义词关联，从而搜索出同义词。

3 开发环境

系统前端界面采用HTML、CSS、JS等开发语言，其余采用python语言进行开发，后台数据采用Mysql数据库集群云处。

4 设计目标

基于大数据的智能搜检系统实现网内网外数据的融合、基于机器自学习的智慧爬虫、专业化的科技搜索、知识图谱的构建。通过对现有数据的融合处理和互联网数据的爬取积累，搭建专业化的科技搜索，实现企业需求数据的多维知识图谱构建。建成智能科技搜索服务系统，实现网内外数据的积累、融合挖掘、知识图谱展现。具体内容分为三步：

1)研究知识库、知识图谱的构建方法，进行网内数据的分析整理：目标整理完成自由数据。研究网络爬虫和机器学习，进行智慧爬虫的架构；目标初步建成网络爬虫，开始数据积累。

2)在融合网内数据和爬虫数据基础上，不断积累新的数据，进行智慧爬虫的建设和完善，研究并设计构架专业化的科技搜索。深入研究知识图谱等，构建图元关系网络，进行特征行为分析，建立技术需求与科技要素的关联元数据库，构架需求数据知识图谱。

3)持续积累数据，不断补充完善机器自学习规划的设计，进行智慧爬虫算法优化，进行科技搜索算法优化，完善扩充数据知识图谱。