APP下载

基于搜索引擎的提高用户粘性优化研究

2020-08-14贾博研王瑞琰郑宇峰王丹丹

无线互联科技 2020年10期
关键词:粘性搜索引擎关联

贾博研,王瑞琰,郑宇峰,王丹丹

(江苏大学,江苏 镇江 212013)

1 搜索引擎的发展

搜索的本质是用户通过互联网工具找寻信息,搜索行为就是二者之间的交流。搜索引擎的更多渠道引导有效信息直达,从“单流主导”到“人与信息双向互动”,从“信息找人”到双向“选择搜索”,形成“信息流”与“搜索流”的闭环。

早期的搜索引擎主要是PC端的信息检索,单单通过技术爬虫去全网抓取海量信息,供用户使用;而现在的搜索引擎则是基于内容平台和移动互联网的产物。移动时代到来后,海量APP涌现,移动端的搜索引擎面对拥有海量客户与优质内容的平台,需要在技术与内容上不断优化,在实现精确搜索的同时,通过地理与时间标签,发掘用户兴趣,提高用户粘性[1]。

2 关联规则

2.1 算法简介

若两个或多个变量的取值之间存在某种规律,就称为关联。关联规则是寻找同一个事件中出现的不同项的相关性,比如,在一次购买活动中所购买不同商品的相关性。关联分析,即利用关联规则进行数据挖掘,目的是挖掘隐藏在数据间的相互关系,自动探测以前未发现的、隐藏着的新模式[2]。

2.2 算法发展

解决关联规则问题的原始算法是AIS算法,为改进AIS算法,提出了OCD算法、Apriori算法。由于Apriori算法I/O开销很大,因此,大多改进算法都在如何减少搜索次数上做文章。其后又提出一个基于Hash技术的DHP算法与数据进行分区的Partition算法。Partition算法提出了频繁模式增长(FP-Growth)的思想,设计了基于该思想的频繁模式树(FP-tree)存储结构,并在此结构上的频繁模式挖掘算法FP-growth,FP-growth在效率上较Apriori算法有较大的提高。在国外,关联规则已经进入产品化阶段。

近年来,国内随着大数据时代的到来和互联网的发展,关联规则算法开始应用于各方面,如:挖掘电子商务潜在客户,在临床医疗诊断、精准扶贫中的应用,基于关联规则分析的物流定制服务推送系统、学校教育和学生行为分析等[3]。

现如今,在智能搜索引擎的发展中,关联规则能够提供一定技术支持,进行搜索引擎优化(Search Engine Optimization,SEO)。关联规则的概念扩展包括:频繁模式、序列模式挖掘、时序模式挖掘、空间模式挖掘、结构(图)挖掘、多媒体挖掘、其他高级挖掘等方面,对搜索引擎搜索与推荐等不断进行优化,可通过用户搜索索引提取时间、地理标签等,进一步搭建用户兴趣库模型,与用户保持良好粘性。

3 搜索引擎简介

3.1 搜索引擎运作机制

搜索引擎的工作原理是从互联网上抓取网页,建立索引数据库并进行搜索排序。整个工作过程大体分为4个部分:信息采集、信息分析、信息查询和用户接口。

搜索引擎的信息主要源自于互联网网页,通过网络爬虫将整个互联网的信息获取到本地,当搜索引擎接收到用户的查询后,首先,需要对查询词进行分析,结合查询词和用户信息来正确推导用户的真正搜索意图。其次,检索器根据用户输入的关键字,在索引库中快速检出文档,进行文档与查询的相关度评价,对将要输出的结果进行排序,并将查询结果返回给用户。

结果排序最重要的两个参考排序中,一个是内容相似性因素,即网页是和用户查询密切相关的;另外一个是网页重要性因素,即网页是质量较好或相对重要的,往往从链接分析的结果获得。结合以上两个考虑因素,就可以对网页进行排序,作为用户查询的搜索结果。搜索引擎的最重要目的是为用户提供准确、全面的搜索结果,满足用户查询需求并实时提供准确结果,最终构成了搜索引擎前台计算系统。

3.2 搜索引擎搜索对比

本次研究实际体验各搜索引擎的搜索效率、设计及用户体验等,并进行横向比较,以“世界上最大的岛屿是”为检索字句,体验结果如表1所示。

表1 各搜索引擎体验分析

4 数据分析

对于用户现阶现使用搜索引擎现状的数据获取,本次研究采用了问卷调查法,共收集问卷217份,皆为有效数据,基于此,共分为以下4个方面对用户使用情况做数据分析。

4.1 搜索引擎使用现状

常用搜索引擎使用占比:百度为34%,自带浏览器为20%,360搜索为20%,其他占比相对较低,对于搜索引擎的使用主要为国内搜索引擎,且对于移动设备的搜索引擎有一定依赖性;对于调查人员,18~25岁居多,使用搜索引擎的年限为6年以上的人群占比超过50%,在一定程度上表明搜索引擎在用户的使用中仍占有重要地位[4]。

对于无法使用平台的失望度可侧面反映用户对于平台的依赖性,对于所搜集的数据进行统计,将近90%的用户对搜索引擎平台有较强的依赖性;同时,对于附加扩展应用的用户使用情况,在一定程度上也表明用户对于搜索引擎的粘性。

4.2 平台使用频率情况

对于平台使用频率(见图1),结合调查的用户学历发现,高学历人群使用搜索引擎的频率相对较高,专本科及本科以上的用户使用搜索引擎的频率平均每天10次以上,在一定程度上表明对于知识、信息的获取,有专业研究的人群更倾向于对搜索引擎的使用。

4.3 平台使用偏好

对于搜索平台的使用,大部分是需要查询特定信息,对于搜索平台的选择因素,主要看重搜索平台使用的简易度、搜索范围、搜索准确度与相关浏览信息等;对于平台的使用期望最首要的就是搜索结果的准确性、搜索页面的简洁性、减少广告的植入,并由搜索信息对于其他知识领域的扩展等方面,对于平台的个性化搜索期望不高。

4.4 对于搜索内容的选择

搜索内容的选择性浏览方面,用户会优先选择与信息相关度较高词条,描述内容简单易懂,对于搜索结果的返回,一些信息的更新也会对内容的选择有一定影响,如图2所示。

图1 搜索引擎使用频率

图2 搜索内容选择

5 SEO趋势展望

5.1 SEO意义价值

随着互联网的诞生与新技术的不断兴起,处于信息时代的用户最重要的就是对信息的检索与获取。搜索引擎平台除了提供搜索功能外,现下智能化互联网搜索与推荐应用也将会推动搜索引擎的进一步更新与完善,兼具搜索与自动问答功能,并结合可视化技术,能为用户更好地提供检索服务[5]。

Google,Yahoo、百度、搜狐等传统的搜索引擎也在不断探索新的、符合时代潮流的搜索方式,并随之衍生了个性化推荐的功能,让用户不仅能够主动搜索信息,也能被动接受自己需要信息的扩展部分。对于兴起的、结合社交媒介的社会化引擎,更倾向于将自己定位为社交与新闻热点推荐的引擎产品,即为用户提供有特色的、个性化的信息。无论是传统的搜索引擎,或是社会化搜索引擎,都面临着如何保持用户粘性与提高用户体验的问题。

5.2 SEO趋势展望

5.2.1 搜索界面的优化

依据问卷数据可知,用户对于搜索界面的简洁度选择有一定偏好;在搜索入口的优化方面,可以设置多个小搜索入口,如热点推荐、猜你喜欢、与你相关、学科细分等;对于搜索路径,也可以添加个性化时间搜索、位置搜索。

5.2.2 技术上的革新

技术决定搜索的体验,搜索引擎的技术支持主要依赖于协同过滤算法与关联规则算法,协同过滤算法对于电商平台的个性化推荐有一定的准确性,而关联规则在智能引擎上的应用也逐渐深入,二者结合推动智能引擎的发展。用户检索词条记录的数据库要不断更新,提高自然语言处理能力,建立词条索引,通过对频繁搜索索引,可在用户再次搜索时进行推荐。对于用户兴趣库的建立,也可关联规则算法进行搭建,通过用户的搜索行为及点击行为对用户行为心理进行分析,选择适合用户偏好的推荐结果,从而提高用户与搜索引擎粘性。

5.2.3 内容上的优化

内容是搜索的根本,对于用户搜索内容的返回,准确性为最首要的因素。返回结果的准确性也影响着用户对于搜索引擎的粘性。对于内容返回的准确性,一方面,要扩大检索数据库,联合互联网生成内容,知识库等;另一方面,要对检索匹配技术进行优化,提取有效信息。

对于搜索引擎,要提供多场景优质内容,满足多行业搜索需求,依据问卷数据,专业人士更倾向于使用搜索引擎以满足知识需求,多场景打造垂直内容,满足多行业商业信息搜索需求。支持用户创造内容,国内一些视频软件拥有巨大而无可替代的内容池,建立了更加丰富与优质的内容,搜索引擎也可与其结合,形成多场景、多内容、多信息数据库的聚合凭条,一站式满足用户需求,提高用户与平台的粘性。

猜你喜欢

粘性搜索引擎关联
一类具有粘性项的拟线性抛物型方程组
不惧于新,不困于形——一道函数“关联”题的剖析与拓展
带粘性的波动方程组解的逐点估计
“一带一路”递进,关联民生更紧
奇趣搭配
智趣
粘性非等熵流体方程平衡解的稳定性
网络搜索引擎亟待规范
Nutch搜索引擎在网络舆情管控中的应用
家庭医生增强基层首诊粘性