APP下载

常用搜索引擎的局限性与改进策略
——基于百度与goog l e对比的视角

2014-03-29李伶思

赤峰学院学报·自然科学版 2014年7期
关键词:搜索引擎网页百度

李伶思,赵 兴,刘 孟

(1.广西民族大学 管理学院,广西 南宁 530006;2.河北新华第一印刷有限责任公司,河北 保定 071000)

常用搜索引擎的局限性与改进策略
——基于百度与goog l e对比的视角

李伶思1,赵 兴1,刘 孟2

(1.广西民族大学 管理学院,广西 南宁 530006;2.河北新华第一印刷有限责任公司,河北 保定 071000)

分析了百度与Google两大搜索引擎的不足之处,在对比分析的基础上,结合搜索引擎的具体情况提出了进一步完善其功能的建议.

搜索引擎;Google;Baidu;差异比较;提升策略

1 搜索引擎的局限性

1.1 百度的不足之处

至目前为止,在满足用户的搜索需求上,百度依然存在一些令人遗憾的地方.

首先,搜索结果中广告、垃圾网站和死链比较多,如搜索网页链接打开后却标示着“该链接已被删除”的信息或“请尝试其他链接”等提示,网民不能第一时间获取自己想要的信息.

其次,商业味太重.百度搜索引擎的有浓厚的商业味.你搜索的关键字的首页排名基本被出价高的企业占据了,很难找到你需要的真正自然搜索的结果,百度的搜索排名技术不够权威.关键词搜索结果排名时,关键词的匹配度所占的比重太低,难以找到想要的咨讯.时常使用百度的用户,可能会感觉到,搜索的结果中,大多是不相干的,为什么会呈现这种景象?那是因为百度较器重权重,而淡化了关键词的匹配度.

1.2 Google的不足之处

Google是一种非常优秀的搜索引擎,通常情况下,只要输入几个相关的词,用户就能在搜索结果的第一页中找到想要的结果,这就是Google受到广大用户青睐的理由.但是Google本身也不是完美无缺,其不足对检索结果造成一定的影响.

首先,死链率比较高是Google最大的问题.Google是功能强大,易用性最强的搜索网站,搜索速度快而且提供了最丰富的高级搜索功能.死链率比较高是Google最大的问题,中文网站检索的更新频率不够高,不能及时淘汰已经过时的链接.虽然通过“网页快照”功能,可以减少目标页面不存在的现象,但Google的“网页快照”功能在国内经常出现不可访问的问题,令用户无所适从.

其次,信息更新速度不够快Google一般每隔28天派出“蜘蛛”程序检索现有网站一定IP地址范围内的新网站,而登录Google的周期一般为3个星期(从提交网站到被索引).由于Google系统数据库庞大,造成数据的更新速度无法大幅度提高,从而无法满足部分用户对时效性的要求.为此,Google在原来每月更新的基础上,对一部分Page Rank值较高的网页和更新较快的网站加快其数据更新速度,以保证这部分数据的时效性.

再其次,检索结果有一定重复.一方面同样的信息内容被不同的网站所收录,另一方面来自同一站点不同页面的信息分条显示,在计算查准率时,Google视上述网页为不同的检索结果.检索结果重复容易造成信息污染,影响检索效果.

2 搜索引擎的提升策略

2.1 继续重视技术创新

到2013年,百度已经走过了13个年头,而今天中国互联网正在经历从PC向移动的转型.针对外界对百度创新不足的质疑,李彦宏力推其三个核心产品:语音搜索、图像处理技术——人脸搜索、个人云.作为搜索领域最早的参与者之一,李彦宏反复强调自己的技术基因,指出技术的积累是一切互联网产品的基础.他说:“云计算、语音、图像、自然语言理解等一系列技术会成为我们引领产业的关键.”

多年来百度坚持构建扎实的技术体系,这些面向未来的技术和产品的布局,正在日益显现出成果:比如在语音领域,项目仅仅正式启动了3个多月,就上线了业界领先的语音搜索.凭借语音、NLP(自然语言处理)这些技术的支持,百度的语音助手仅用了55天就完成了开发、顺利上线;同样的技术也已经应用在全球首部声纹解锁的智能手机上.再比如图像处理技术,百度只用了1个月时间,就上线了全世界首个全网的人脸搜索产品.

互联网发展到今天,它的灵魂依然没有改变——技术创新永远是这个行业的核心驱动力.面对竞争对手,李彦宏抨击了“渠道至上”的看法:“我们不会忽视渠道的价值,但是百度坚信,技术创新永远是用户需求的最根本的动力”.

百度继续坚持语音、图像等潜力十足的技术方向,不断加大投资,吸引顶尖精英,进一步拉开百度和竞争对手的差距.2013年,百度建立历史上第一个研究院,这个研究院初期将专注于Deep learning,就是深度学习的技术,百度将这个研究院叫做Institute of Deep Learning,简称IDL.百度会吸引这个领域里球最顶尖的高手陆续加盟,为新一年的产品和业务发展提供最坚实的基础!百度希望IDL会成为像AT&T-Bell labs,Xerox PARC这样的顶尖的研究机构,为中国,为全世界的创新历史再添一笔浓墨重彩!

2.2 继续完善传统网页检索

有人说:“网页检索已经没有什么改变的空间了.”其实不然,百度的首要任务就是满足用户的各种检索需求,百度更是没有忘记初衷,在大搜索团队的努力下,基于“知识图谱”的新型网页搜索结果正在冲击用户的视觉感官,也成为了网页搜索新的标杆.

能在网页的第一页给用户呈现最有价值的内容一直是百度所追求的.那就要求百度要对网站的内容取其精华去其糟粕.要解决这一问题,首先要思考哪些网站没有价值,然后进行筛选.百度在前段时间清理了大量的低质量网站,这次大面积的调整,最初的时候只是封杀了一些严重违规的低质量网站,后来又进行了一次比较全面的围堵.但是那些高质量的权威网站,基本上没有受到任何的影响.可以看出百度打击垃圾,作弊网站的决心是非常坚决的.

随着百度技术的不断成熟,相信今后还会有网站会被无情的清除,消失在百度搜索的结果之中.因为今后的百度会提高其搜索引擎的技术,让搜索更加的智能化.最终实现在百度搜索的时候,再也不会出现垃圾信息,也就是留住精华去掉糟粕,只有这样才会大大提高用户体验.

2.3 构建无线应用布局,更加注重用户体验

总有一些声音质疑:“百度在移动互联网时代是否还能保住入口地位?”但是今天,无线搜索已经迅速崛起,成为无线互联网第二大应用,百度的市场份额也正在继续扩大.百度以搜索框和浏览器为核心的手机客户端产品,只用了一年时间,日活跃用户就超过了千万.这种为每一分用户体验,把事情做到极致的精神,已经融入了百度人的血脉.无数的百度人通过不断的努力,为用户带来更精益求精的服务.

百度发展到今天,已经不是一家单纯追求自身发展的公司.百度的工作,往往关系到更大范畴——社会的幸福和进步.PC互联网时代,百度改变了人的生活方式、提高了企业的经营效率.在移动时代,百度依然会和广大的用户和企业客户在一起,拥抱每一点变化、做好每一次创新. 2.4不断升级完善

由于Google系统的技术复杂性,以及互联网信息资源的不断增加,Google系统承受的搜索压力也不断升级.只有不断地开发研究新的技术,去完善和升级Google系统,才能满足用户日益增加的检索需求.目前Google正致力于以下几个主要方面的努力:

由于互联网中的网页在不断地增加,而且有的网页在不断地进行更新,为了避免系统的大量重复工作,Google正在设计更加“聪明”的遍历搜索算法,可以判断已经索引过的网页不至于被系统重新分析;更新的网页需要系统重新索引分析;以及索引分析互联网中新增加的网页.

由于Google系统数据库的庞大,使得数据的更新速度无法大幅度提高,从而无法满足部分用户的时效性要求. Google也在努力改善其数据的更新速度,并且已经有所突破.目前,Google在原来每月更新的基础上,对一部分Page Rank值较高的网页和更新较快的网站提高了数据的更新速度.

Google对其Page Rank技术也正在做一些改进.由于某个网页可能不仅仅只有一个主题内容,那么网页的Page Rank值就不能准确反应网页的所有主题内容.因此,Google将根据网页的多个主题分别给出几个主题方面的Page rank值.在检索结果排序时,将根据检索词的相关主题来参考相应主题的Page Rank值,这样,网页的Page Rank值有了“个性化”权值,因此,网页的Page Rank值可以更准确地服务于检索结果的排序,从而更好地满足用户的检索需求.

〔1〕谈大军,林明茵,叶赛.中文Google和百度的排序方式与检索效率比较分析[J].现代情报,2005(03):87-89+92.

〔2〕王炼.从用户角度评价网络搜索引擎[J].情报科学,2005(03):457-463.

〔3〕黄琛.十大著名中文搜索引擎的特征及其比较[J].现代情报,2006(01):69-71.

〔4〕姚明,余波,刘孟.基于知识地图的广西文化信息资源开发构想[J].湖北第二师范学院学报,2013(09):130-132.

〔5〕罗贤春,谢阳群.基于全信息认知的信息检索模型整合[J].图书情报工作,2006(06):46-50.

〔6〕马丽.谷歌能否让百度过时[J].法人杂志,2009(05):80-81+96.

〔7〕曾定山.Google与Baidu搜索引擎比较研究[J].科技信息, 2008(35):852+858.

TP393

A

1673-260X(2014)04-0054-02

本文系广西民族大学研究生社会调查项目(gxun-dc201309)的资助成果

猜你喜欢

搜索引擎网页百度
Robust adaptive UKF based on SVR for inertial based integrated navigation
基于CSS的网页导航栏的设计
基于HTML5静态网页设计
百度年度热搜榜
基于URL和网页类型的网页信息采集研究
网页制作在英语教学中的应用
网络搜索引擎亟待规范
百度医生
基于Nutch的医疗搜索引擎的研究与开发
百度“放卫星”,有没有可能?