APP下载

企业级搜索引擎中结果聚类和查询补全技术研究

2023-03-20王伟桃

电脑迷 2023年23期

王伟桃

【摘  要】 随着时代的发展,传统搜索引擎已无法满足用户的需求,为适应新时代的潮流,相关技术人员需要不断进行创新,从用户体验出发,对技术以及应用方面进行优化,从而实现企业级搜索引擎中结果聚类和查询补全技术,该技术可以在很大程度上提升系统应用的有效性,且具有更高可靠性,同时,也可以满足智能时代的需求。

【关键词】 企业级搜索引擎;搜索结果聚类;查询补全技术

一、企业级搜索引擎系统总体结构

企业级搜索引擎与传统搜索引擎之间存在一定的差异性,在实际应用的过程中,传统搜索引擎更重视搜索的广度,而企业级搜索引擎更重视搜索的精确性(如图1所示),两者分别为不同领域提供了强有力的支持。

企业级搜索引擎的六大模块如下:

1. 管理模块:其主要是对整体系统进行管理,接收不同管理节点发出的不同命令,避免人工干预,并对搜索信息等进行记录。

2. 采集模块:其主要工作是收集互联网网页的网络蜘蛛程序,具有自动化的特点,对网页内容进行分析,并提取关键信息,计算关联度。

3. 索引模块:其主要是针对采集的内容进行集中处理,并对其进行分类,以此为基础建立索引数据库。

4. 搜索页面构建模块:用户在输入搜索内容的关键词之后,其会对搜索请求进行相应的分析,形成检索命令查询包,获取与搜索内容相关信息,最终构成搜索页面。

5. 检索合并模块:其主要是将用户的搜索请求发送给不同的索引机器之后,合并成为单独的结果数据包,最后发送至查询端。

6. 数据分发控制模块:其主要的工作内容是将采集模块采集的信息发送至索引模块之中,同时其也可以根据实际情况增加多组机器,增加搜索结果。

二、企业级搜索引擎中结果聚类技术研究

(一)基本思想

通过研究人员的不断分析,发现当前由于信息数据内容数量较多,为后续的一系列工作带来了一定的难度,因此技术人员提出了结果聚类技术,进行结果聚类分析,对数据信息进行分类,同时对数据信息进行筛选,以此提升企业级搜索的精准性。

(二)系统模型的基本设计

1. 预处理:在实际进行结果聚类之前,需要对数据信息进行清理,筛选关键信息,此过程尤为重要,在信息数据筛选的过程中,主要包括去除非字符、选取HTML标签、标记标题以及页面语言识别等内容。

2. 明确聚类算法:企业级搜索引擎中结果聚类技术主要以Lingo算法为主,Lingo算法在很大程度上解决了其他聚类算法存在的弊端,其在实际应用的过程中,可以生成更为精准、描述能力更强的聚类,并且将用户体验作为核心,从根本上提升结果聚类质量,以更好地为用户提供所需内容(如图2)。

3. Lingo算法:Lingo算法整体较为复杂,较为重要的有两个内容(如图3所示)。(1)在生成标签的过程中,首先要做的就是提取候选标签,应用后缀词组,主要是對共现的短语和词组进行获取;(2)潜在语义索引(LSI方法),此方法的应用以VSM方法为基础,其在实际进行工作的过程中,首先对TF-IDF权重进行计算,权重一般表达公式为W(d,t)=TF(d,t),其中TF(d,t)表示词t在文本d中出现的次数,随后进行矩阵分解。

(三)确定系统结构

聚类搜索引擎在工作的过程中,具有较强的自动性,在用户发起搜索之后,聚类搜索引擎会自主对结构进行搜索,并进行相应的组织分类,将最终结果呈现给用户。聚类技术与分类和标引之间存在较强的差异性,其在实际运行的过程中,具有实时性,且不受人为干预,此种方式在很大程度上能降低出现失误的情况。此外,聚类搜索引擎在实际进行工作的过程中,可以自主对搜索结果进行分类,其中较为重要的一项内容就是选取类名,以帮助用户更加清楚此类结果的核心内容。对类名的选取而言,需要保证其简洁性、准确性、唯一性以及易于理解性(如图4)。

(四)系统流程设计

在设计的过程中,技术人员将整体系统分为输入模块、过滤模块以及输出模块3项内容,同时需要保证各模块之间的独立性,这样可以更好地利用算法对其中模块进行替换,进而提升搜索结果聚类的有效性以及质量,且处理速度更快。为保证企业级搜索引擎中结果聚类技术应用的有效性,相关技术人员根据实际情况设计了系统主要运行流程,如图5所示。在完成聚类分析之后,可以将结果展现给用户,在展现的过程中,为方便用户观看和获取结果,会应用分类目录的方式,从根本上提升用户体验,提升应用的整体效果,满足企业级搜索引擎的应用需求,这也是其在不同领域被大量应用的主要原因之一。

企业级搜索引擎中结果聚类技术运行会先获取Web网页的信息数据,随后进入文件预处理阶段,对获取的信息进行简单处理,接着对预处理后的数据信息进行分词以及降维,并将其发送至过滤模块,过滤模块在实际运行的过程中,主要是应用Lingo算法,对获取的数据信息进行聚类分析。

(五)系统阈值说明

在实际进行设计的过程中,为保证搜索结果聚类的效果和有效性,需要阈值进行定义,进而对整体结果进行控制。对系统阈值而言,主要分为4种,分别是短语频率阈值(2.00~5.00)、聚类标签数目阈值(0.70~0.90)、聚类标签合并阈值(0.20~0.50)以及聚类内容生成阈值(0.15~0.30),阈值定义的方式可以分为两种,一种是提前由系统进行设置,另外一种是方法与Lingo算法之间存在一定的相似性,让用户按照说明,将其作为参数,自行进行设置,此种方法具有个性化特点,满足不同用户的需求,具有一定的优势。

三、企业级搜索引擎中查询补全技术研究

(一)核心技术

Ajax技术的应用直接改变了传统Web应用的交互模式,在实际进行设计建设的过程中,其主要是构建效果更好的Web应用,完善和优化Web应用的动态性能,同时也可以提升Web应用的响应速度,使其更加灵敏,为用户带来更为良好的体验。

Ajax技术设计内容更多,完整性更强,其相当于一个综合体,融合了多种不同的技术,其中主要包括JAVA、HTML、CSS、DOM、XML以及XSTL技术等。而现阶段随着科学技术的不断进步,其也成为Web2.0的核心技术之一。

Ajax技术在实际应用的过程中,其主要寄宿在浏览器的类中,即XML-HTTPRewquest。在XML-HTTPRewquest类的支持下,Ajax技术在与服务器进行链接的过程中,不需要提交任何表单,简化了整体流程,且不需要对整体页面进行刷新,只需要刷新用户需要的部分内容,一般是通过动态更新的方式进行。对XML-HTTPRewquest而言,在对数据进行交换时,一般将XML作为载体,除此之外也可以应用其他类型的载体,如纯文本载体。在企业级搜索引擎运行的过程中,在XML-HTTPRewquest的支持下,可以将用户输入的信息内容发送至不同的服务器,同时也可以异步接收服务器处理并返回信息,最后利用JAVA技术与对网页内部分内容进行动态更新。

(二)具体实现方法

为实现查询自动补全功能,Ajax技术成了核心技术,在其实际运行的过程中,需要在Web页面上产生一个div区域,当用户利用企业级搜索引擎进行搜索时,自动进行补全。但当索引框内未输入任何文本时,自動隐藏div区域,而当用户输入搜索信息时,JAVA运行,其可以从服务端获取搜索关键信息,并触发div区域,自动进行查询补全。最后,利用JAVA技术,向服务端发送相应的请求,而此时对Web页面而言,会产生XML数据信息,并将其作为返回的关键数据信息,最终实现自动补全的目的。

(三)数据来源

查询补全技术在实际运行的过程中,会将用户输入的关键词进行记录,并将其作为下一次查询补全的数据,同时不断对查询补全数据库进行充实和完善。对数据而言,其主要是将用户的日常使用习惯作为核心,对传统自动补全技术进行完善和优化,并对其进行改进。在完善优化的过程中,需要对现有企业级搜索引擎搜索日志文件进行整理和分析,提取搜索日志文件的关键内容,并将其作为查询自动补全数据库的基础数据信息内容。为使企业级搜索引擎实现查询自动补全的目的,需要大量数据的支持,才能实现企业级搜索引擎的应用效果。通常情况下,为保证查询补全的完整性以及整体性,需要的数据信息一般在8万~10万的范围之内。为保证数据来源的精准性,需要对数值性属性的相似度进行计算,计算公式为Sim(vi,vj)=1-d(vi,vj)=1-dij,其中vi和vj是某个属性V的两个属性值,dij典型的定义与绝对距离以及欧氏距离,在完成计算之后可以保证内容补全的精准性。