Monthly Archives: December 2012

轉發【网站排名问题】

一、问题背景与实验目的 几乎每个人都有使用Google搜索引擎进行网上搜索的体验.我们在Google搜索引擎中输入一些关键词后,Google会很快地找到所有与搜索关键词匹配的网页,并给出所有的网站排名情况(一般认为排在第一个的最重要,以下类推).到目前为止,世界上有近千万个网站,十多亿个网页,难道Google搜索引擎真的如此神奇,能够在几秒、几十秒的时间内扫遍世界上所有的网站(网页)吗?答案是否定的.事实上,Google网站是基于自己的大型数据库系统的网站,它定期地(比如每个月一次)对世界上的所有网站进行大搜索,并将结果保存在自己的数据库中.我们通过Google搜索引擎进行网上搜索,实际上是在Google网站的数据库里进行搜索,因此,所用时间一般不会太长. 要验证这一点并不难.假如你是一个“网管”,你可以控制一个网站,比如你可以很快地向网站发布信息(内含某些特殊的关键词).此后,你迅速利用Google搜索引擎搜索你刚才的关键词,一般情况下是找不到的. 我们关心的重点是:与某个关键词相关的网站可能有几个、几十、……、最多可能有几百万个,Google是如何给出网站排名情况的呢?本实验将要介绍的PageRank(网页级别)算法就是Google用于评测一个网页“重要性”的一种方法.虽然现在不断地有改善的排名算法,但其本质上与PageRank(网页级别)算法十分接近.相信如能彻底理解PageRank算法,对于理解、设计其它算法将是十分有益的.本实验将主要介绍该算法. PageRank算法用到的数学知识看上去并不十分高深,但十分实用.主要用到线性代数的一些知识,包括:正矩阵性质、特征向量与特征值关系、幂迭代方法(Power Iteration)和Gauss-Seidel迭代方法等. 实验中的一些程序看起来是小题大作,比如对已知的6阶方阵,用Matlab求解代数方程不是十分困难的事.但如若方阵的阶数是60、600、6000、60000,你的方法将可能彻底崩溃.因此,认真学习本实验的一些计算方法是有意义的.通过实践对比,你会发现这些算法的效率是相当高的,特别适合大规模计算.事实上,Google采用的是大规模的并行计算技术,以求解高达上亿阶的代数方程. 下面我们先简要介绍一下什么是PageRank算法. 1. 什么是PageRank(网页级别)? PageRank(网页级别)是Google用于评测一个网页“重要性”的一种方法.在揉合了诸如Title标识和Keywords标识等所有其它因素之后,Google通过PageRank来调整结果,使那些更具“重要性”的网页在搜索结果中令网站排名获得提升,从而提高搜索结果的相关性和质量. 简单说来,Google通过下述几个步骤来实现网页在其搜索结果页(SERPS)中的排名: 1) 找到所有与搜索关键词匹配的网页; 2) 根据页面因素如标题关键词密度等排列等级; 3) 计算导入链接的锚文本中的关键词; 4) 通过PageRank得分调整网站排名结果. 事实上,真正的网站排名过程并不是这么简单,读者可参见有关网站,获得更详细、深入的阐述. 2.PageRank的决定因素 Google的PageRank是基于这样一个理论:若B网页设置有连接A网页的链接(B为A的导入链接时),说明B认为A有链接价值,是一个“重要”的网页.当B网页级别(重要性)比较高时,则A网页可从B网页这个导入链接分得一定的级别(重要性),并平均分配给A网页上的导出链接. 导入链接(也叫逆向链接)指链至你网站的站点,也就是我们一般所说的“外部链接”.而当你链至另外一个站点,那么这个站点就是你的“导出链接”,即你向其它网站提供的本站链接. PageRank反映了一个网页的导入链接的级别(重要性).所以一般说来,PageRank是由一个网站的导入链接的数量和这些链接的级别(重要性)所决定的. 3.如何知道一个网页的PageRank得分 可从http://toolbar.google.com上下载并安装Google的工具栏,这样就能显示所浏览网页的PageRank得分了.PageRank得分从0到10,若不能显示PageRank得分,可检查所安装版本号,需将老版本完全卸载,重启机器后安装最新版本即可. 4.PageRank的重要性 搜索引擎网站排名算法中的各排名因子的重要性均取决于它们所提供信息的质量.但如果排名因子具有易操纵性,则往往会被一些网站管理员利用来实现不良竞争.例如初引入的排名因子之一 —关键词元标识(Meta Keywords),是由于理论上它可以很好地概括反映一个页面的内容,但后来却由于一些网站管理员的恶意操纵而不得不黯然退出.所以“加权值” —即我们对该因子提供信息的信任程度是由排名因子的易操纵程度和操纵程度共同决定的. PageRank无疑是颇难被操纵的一个排名因子了.但在它最初推出时针对的只是链接的数量,所以被一些网站管理员钻了空子,利用链接工厂和访客簿等大量低劣外部链接轻而易举地达到了自己的目的.Google意识到这个问题后,便在系统中整合了对链接的质量分析,并对发现的作弊网站进行封杀,从而不但有效地打击了这种做法,而且保证了结果的相关性和精准度. 5.Google如是说 关于PageRank,最权威的发言人自然还是Google.虽然Google不会也不可能提供相关的技术信息,但我们亦可从中窥得一斑: Chris:PageRank的命名是基于“Page”,还是和某个创始人有关? Google:PageRank是以Google的联合创始人兼总裁Larry Page的名字命名的. Chris:Google是否把PageRank视做显著区别于其它搜索引擎的一个特性? Google:PageRank是一种能够使Google在搜索速度和搜索结果的相关性上区别于其它搜索引擎的技术.不唯如此,在排名公式中Google还使用了100种其它的算法. … Continue reading

Posted in Msc Courses | Leave a comment