APP下载

搜索引擎怎样对网页排序

2017-05-16胡光能

中学科技 2016年7期
关键词:访问量搜索引擎指向

胡光能

2016年5月,魏則西事件将百度的网页竞价排序模式推向了风口浪尖。排除网页排序背后的商业因素,搜索引擎是怎样在纷繁复杂的信息中快速搜得所需的呢?

从现实生活到虚拟网络

去图书馆查找书籍时,书是按文学、数学、计算机等科目分类放置的;去超市购物时,物品也是按生鲜、日用品、糕点等门类分区放置的。这样的安排“合情合理”,能够帮助我们迅速找到自己所需的书或物品。

从真实世界到虚拟世界,互联网犹如一张巨大的虚拟网,汇聚各类网页。互联网中的网页就好比是图书馆里的书或超市中的物品,如果不对其进行排序,要想从数量惊人的网页中“海选”出所需的信息,那就如同天方夜谭。在这样的背景下,搜索引擎应运而生。

搜索引擎的“工作”是将用户需要的网页“搜索”出来,并展现给用户。例如在百度搜索框中输入“科学不倒问”后,可能会得到如右下图所示的搜索结果(搜索结果一般会随着时间而变化)。观察搜索引擎给出的搜索结果,确实与“科学不倒问”这个“主题”相关,而且相关性越高,它就会被排在越靠前的位置。

排序的奥秘

要探究搜索引擎背后的奥秘,那就需要了解搜索结果的网页排序方法。观察“科学不倒问”的搜索结果,直观上说,将“《中学科技》杂志科学不倒问栏目”排在第一的排序应是合理的,因为相比于其他网页,此网页与“科学不倒问”这个主题的相关程度更高,而网页的排序也在一定程度上反映出在此关键词下此网页的“受欢迎程度”。

网页的“受欢迎程度”通常可以用网页的访问量来衡量,它和网页的访问量成正比。但依据访问量对网页进行排序也会存在一些现实的问题。访问量虽能体现网页的“受欢迎程度”,但却并不能体现网页的“权威性”,例如许多低俗网页便有较高的访问量。此外,依据访问量排序还易受到“刷流量”的恶意误导。更为重要的是,网页的访问量是动态变化的,如要及时更新排序,代价也非常巨大。因此,要解决网页排序中所遇到的问题就要充分挖掘网页的特征,确定评价网页“权威性”和“受欢迎程度”的综合指标。

网页特征包含网页的内容(图片及文字等)以及其中指向其他网页地址的超链接。一个网页越“重要”,理论上就应该会有越多的用户浏览。网页间的超链接结构能够影响用户的浏览行为,因此,可以依据各网页之间的超链接关系来确定各网页的综合浏览量,并由此对网页进行排序。

巧妙的循环分配

如右上图,假定一个用户U正在浏览网页A,A含有两个超链接(蓝色横线表示),分别指向网页B和C,那么U在浏览完A后,可能会沿着超链接继续浏览B或C,由此B或C的“重要性”便可以由A的“重要性”来体现。依据同样的原理,B的“重要性”便可由指向B的所有网页的“重要性”之和来表示。

与此同时,处于整个网络之中的B对其他网页也是有影响的,例如网页B中包含指向网页C的链接,即C也影响指向B的网页A的“重要性”,由此便会陷入一个两难的境地:要想知道网页B的“重要性”,就必须知道指向它的所有的网页(A和C)的“重要性”之和;而要想知道所有这些网页的“重要性”之和,又需要先知道对其有影响的网页B的“重要性”。这便让人困惑了,犹如陷入了“先有鸡还是先有蛋”的怪圈。

为了打破这个循环,谷歌的创始人佩奇和布林提出了PageRank算法来衡量网页的重要性程度。他们首先给所有的网页设置了相同的“初始得分”,然后依据网页间的超链接结构不断运行,经过一系列的迭代计算之后,得到终止状态下的“网页得分”,由此便可依据“得分”确定网页的排列顺序。得益于在网页排序算法上的创新,谷歌在短短数年间横扫整个互联网,成为搜索引擎业的一代霸主。

依据网页排序算法,我们可以确定网页A和C的得分较B高。仔细分析三者的关系,这样的结果的确也是合理的。网页A和B中都包含指向网页C的超链接,这说明网页C的“重要性”较高;与此同时,网页C中也包含指向网页A的超链接,网页C从侧面反映了网页A的“重要性”,因此网页A的得分也较高。

谷歌的网页排序算法对网页排序的过程仅仅是对简单思维的巧妙运用,它将网页排序变成了一个简单的数学问题,也使互联网摆脱了依据网页访问量进行排序的种种弊端。

猜你喜欢

访问量搜索引擎指向
科学备考新指向——不等式选讲篇
把准方向盘 握紧指向灯 走好创新路
高职院校图书馆电子资源中数据库的使用情况分析
如何做好搜索引擎优化(SEO)提高新闻网站访问量
如何做好搜索引擎优化(SEO)提高新闻网站访问量
一所大学有40人被确诊为抑郁症
网络搜索引擎亟待规范
Nutch搜索引擎在网络舆情管控中的应用
基于Nutch的医疗搜索引擎的研究与开发
广告主与搜索引擎的双向博弈分析