回到主页 / 互动网络

 

Google的原罪--网页序列等级
PageRank: Google's Original Sin

作者:Daniel Brandt
翻译:晓春
校对:几何
原文刊于:Google-Watch.org, Daniel Brandt 授权品牌几何网站翻译并拥有中文版权!

1998年,当时互联网正在高速发展,处于最光彩照人的阶段。1995年开始出现的搜索引擎引起世人关注,在当时被高科技的权威们(以及福布斯杂志)评判为另一个互联网神奇组合中又一个让大家富裕的利润增长点。然而,这样的创新除了意味着整个商业模式的终结之外没有其他。

事实的真相是,就像这些早期的预言家事后不得不承认的是:轻松的迅速致富的虚假诺言成为一种附加在优秀公司头上的最大压力,妨碍了他们本来可以了解得更多,做得更好。最早最成功的搜索引擎之一,数字设备公司(DEC)旗下的AltaVista,从1998年开始就迷失了它原有的方向,所有的网络先驱们都在谈论"门户",所以AltaVista也尝试成为一个门户网站,它忘却了继续在搜索引擎序列上寻求发展。

甚至到了1998年,搜索人在搜索引擎中键入一到两个关键字所获得的搜索结果过多这个问题已经变得非常明显。AltaVista提供了众多的方法以调整关键字的特定联系,但是它仍然极少关心到"序列或者排序"的问题。序列,或者说是按照一定标准的返回信息列,应该早就不成为问题了。搜索引擎用户们可不想进行布尔逻辑运算,同时他们也不会想看前二十个以外的搜索结果。所以,真正的问题是:相对于搜索引擎B,在搜索引擎A中输入相同的关键字,其首页显示结果如何能给用户更多有用的帮助。AltaVista在忙着尝试成为门户网站的同时根本无法注意到这么重要的一点。

进入Google

1998年初,斯坦福大学毕业生Larry Page和Sergey Brin已经在网上运用了一个独有的排列方法。他们在全球互联网大会上交了名为"超级文本搜索引擎网站的解析"一文。斯坦福作为指导而Larry Page作为发明者,并于1998年9月注册了专利。直到2001年9月4日被授予专利(专利号:第6,285,999),这种计算方法被成为"页面序列等级",而Google在当时拥有1亿5千万的日查询量。AltaVista则日暮西山;甚至连续两次易主都未能有所起色。

Goolge开始大肆宣传页面序列等级,因为这一个极为方便的流传词汇,使那些想知道为何Google的引擎确实能提供更好的搜索结果的人感到满意。甚至在今天,Google都在为他们所取得的进步而骄傲。所有的宣传都接近于一点,那些网络文章的发表者有时候不得不说明他们所使用的"PR"含义,是指页面序列等级(PageRank),一种计算方式,而非指Google所做的优秀的公共关系(Public Relations):

页面序列等级凭借了互联网特有的自由民主特性,将大量的链接指向作为判定单个网页价值的标准以及指向器。非常精髓之处在于:Google把从网页A通向网页B的链接作为一个A对B的投票。投票的多少决定在搜索引擎中的排名。但是,Google并不仅仅只注意一个绝对的链接量,或者是某个网页接到的链接要求有多少。一个网页本身在Google的重要性越高,将越能使其它被链接的网页显得重要。比如:品牌几何网站在Google的重要性指数为5,在中文网页中已经算较高,所以被品牌几何链接的网页的重要性会比其他被低于5的网站链接的重要性要高。

Google继而承认,除了网页序列等级之外,还有其它的变量被使用于决定网页的意义。当另外的这些变量的宏大外观易于被那些想知道如何提升自己网站排名的斑竹们辨识的时候,所有序列计算方法实际的细节将会被考虑作为Google公司的商业机密。使网站的管理者尽可能困难地探知他们的序列方法正是Google的兴趣所在。

万般皆序列

早在饱受怀疑之前,搜索引擎已经在网上日渐重要。电子商务与网页序列非常合拍,因为高位的网页序列等级能直接转化为销售成绩。各种不同的引擎设计出各种不同的方式使网页序列创造利益价值,诸如付费排名,点击付费广告以及付费的含有性链接。2002年6月27日,美国联邦交易委员会在讨论此类问题后要求:不论是按照客观公正的网页重要性标准进行排列,还是按照付费高低的网页序列等级,都应该清楚地被标识出来,从而保护消费者的利益。这表明,像网页序列等级这类总能被解释得合情合理的计算方式将会为搜索网站的未来维持一个重要的方向。 这样,搜索引擎网站不仅仅是改进了他们的排列方式,同时还使他们的网站成长得庞大以至于大多数网上冲浪的人每天都会使用搜索引擎数次。所有的门户网站都嵌入了搜索功能,而且他们中大多数都不得不依靠少数已有的搜索引擎提供商提供搜索结果。这是因为真正有能力经常检索和排列超过2亿个页面以保持数据时效性的网站屈指可数。Google也许是唯一被公认的持续性和规律性最好的搜索引擎,而实现这一点也只用了两年不到的时间。Google用一周时间覆盖现有的网页,同时再用一周时间计算排列每一个页面的序列等级。Google的一个更新周期大约是28天,这对那些对新闻如饥似渴的网虫们来说似乎是慢了一些。2001年8月,Google对新闻类网站开始了二次迷你检索,此类检索将会使新闻类网站每天均被检索一次。而每次检索的结果将会被混在一起,这样就会给搜索者一种更新的印象。

对于普通的网站管理者,从1996年到2002年,运营好一个网站的技巧被戏剧性地改变了。这完全是由于搜索引擎重要性的增加。尽管在2000年以及2001年大多数.COM神话开始崩溃(这对于那些对崩溃前的日子记忆犹新的非商业性网站的斑竹们是一个解脱),这个事实一直延续到现在,而搜索引擎几乎是所有网站页面设计与链接的基本要素。那也是为什么搜索引擎网站认为应该将联邦交易委员会所提出的公正客观的排序标准计算法则需要进一步审视。

什么样的客观标准才是有效的

序列标准评判分成三个部分。第一部分是链接受欢迎程度,这被大量的搜索引擎一定程度使用。Google的页面序列等级是"链接知名度"的最原始模式,并且保持着其最纯洁的表达方式。这第二个部分则是网页特色。这部分包括字体大小、网页标题、关键字、关键字出现频率、文字相近度、文件名、目录名以及域名。最后那部分是内容分析。通常这一步会将搜索结果即时分类后归入几个项目中,这使得搜索者可以通过更具体的样式得到数据。以上每一种方法都有自己的作用。搜索引擎使用第一和第二种方法的一些组合,或者是单独使用页面特性检索(第三种方法),又或者是三种方法全部使用。

内容分析是这三种方法中最最困难的一种,但它也是非常让人浮想联翩的。如果一切变得理想化,当使用这种方法时,图形的检索将会成为可能,这种方法会使搜索引擎因为其创新与卓越赢得辉煌的声誉。但在许多情况下,这种方法并不能正常运作,因为计算机对于自然语言的处理并不擅长。它们不会明白这一大堆来自于不相干的来源的语言之间有什么细微的差别。而且大部分顶级的搜索引擎都会使用成打的语言种类,而由于每一种语言都会有自己的不同之处,这使得内容分析更为困难。有一些搜索引擎已经对此做了一些有趣的改进,其中有些甚至还发展了图形搜索功能,但是Google并不是其中之一。其实内容分析最有希望的前景在于它能够被用于和链接知名度相结合,在特定的领域内排列网站。这可能为解决一些纯链接知名度的问题提供一个新的思考角度。 链接知名度,Google把它成为PageRank,很显然是Google的序列层最重要的部分。当一个页面的部分页面特性能够胜过其较其上位的竞争页面的页面序列时,一些按照通常标准具有十分完美页面关联的网页会因为极低的页面序列而被埋没将会成为十分正常的事。另一方面,一个在其标题、头条以及内部链接均有可查询元素的网站,也可能因为其母网站的链接知名度不够而在排列中遭到埋没,同时不能向这些相关网站过渡足够的页面序列等级。 2002年12月,Google发布了一个可供下载的工具栏,它可以看到任何网页相关的页面序列等级。实际上可下载的工具栏解析,以及针对竞争页面所做的页面排列研究,也涉及了对页面序列规律的相当洞察。

此外,页面序列等级驱使Google每月检索一次,相对于那些页面序列等级低的网站,页面序列等级高的网站将会被更早,更快,更深入地检索。对于那些拥有相对较低序列等级的大型网站,这确实是个阻碍。假如你的网页不被检索,那也就不会被编入序列索引中。假如不被编入Google的索引中,人们就不会知道。假如人们不知道,那么就没有足够的点数维持网站。Google另外对所有网页启动了28天的更新周期,所以错过的网页在下一轮更新还有机会。简单地说,页面序列等级是Google的核心与实质,对于非常重要的检索和排列也一样。到2002年Google已经被普遍认知为世界最知名的搜索引擎。

如何使页面序列等级达到标准?

首先,Google的单纯的宣言"页面序列等级完全是依赖于网站的独一无二的民主特性"必须被认真审视一番。在一个民主体制中,每一个人只有一次投票机会。而对于页面序列等级,富有的人比贫穷的人有更多的投票机会,或者,在网络范围内,页面序列等级高的网页所投的票会比页面序列等级低的网页所投的票重要。Google对此的解释是:"投票计算是投票方自身的重要性决定了投票本身的重要?quot;。换句话说其实就是,富人更富,而穷人几乎都不能被计算在内。这不是"独一无二的民主",而是独一无二的暴政。搜索引擎是美国的梦幻机器,是一个可以以大欺小的地方。页面序列等级只是看上去更贴合联邦交易委员会所标榜的 "公平、客观的序列标准"。

其次,只有大型的网站才会有大量的数据。假如你的网站拥有一个较平均的页面序列等级,你就不用非常费心地将你的数据改成Google能检索到的有效格式,因为Google很有可能不会检索你所有的数据。这对于一些拥有超过几千个网页,同时主页在Google的工具栏上的粗略分数只有不足5个等级分的网站来说非常重要。

再次,为了让Google能深入访问并检索拥有数千个页面的网站,这就需要一个入口网页的分层系统,它能使Google的检索系统从顶层向下开始工作。一个拥有数千网页的单独网站,其所有典型的外部链接都会链接至它的主页,而很少或者根本不会链接到它的内页上。因此主页的页面序列等级也籍由内部分层链接结构的功效而得以分布到深层页面上。但当检索系统搜索到这些大树底下的真正"事物"的时候,这些页面的页面序列等级经常会归零。零意味着该页面的序列等级完全毁坏,甚至当该页面已经被Google的检索系统发现,并被列入索引中,而它具有出色的页面特性。因此原则是:只有较大型的,知名度高的网站将它们的数据置于网上的机会更大,然后期待Google能够适时地光顾它们的数据。这对于早在1999年Google启动之前就已经存在的网站也是一样的。

无数据网站会如何呢?

页面序列等级也会在一些地方产生负面的效果,甚至是那些没有什么数据的网站。页面序列等级的实质是不公平的,它其实是其积极作用的对立面。当大多数人将积极的作用看作反面的不公正时,没有人会主张这种有利于已有特权的人为的不公正是解决问题的方法。这本来也是Google所主张的内容。

由于Google的强势,在2002年开设新网站并使网站走上正规相对于Google成名前困难了许多。新网站的第一步是要让自己被列入一个开放式的目录计划,比较直白的说最好去dmoz.org 登记你的网站。这是Google每月一次检索基础。再经过将近一年试图从其它已建立的网站诱骗链接(或友情链接交换)到自己的新网站,一个新的斑竹可以期望每天有不到30次的访问量。而另一方面,一个有相当页面序列等级的网站每天则会有上万的访问量。这是网络世界的标准,而Google那0~10的工具栏则是这一标准的最佳表达,而6分也许是及格。由原先的等级4升至等级5需要更多次的新链接。这一点并不容易达到。癌症的治疗法可能早就已经在网络某个角落存在了,只不过假如存在于新的网站上,那么你就无法发现它。值得注意的是中文网站的分数会相对低很多,这是因为发展及Google业务进程的原因。

页面序列等级也鼓励网站管理者们改变他们的链接模式。在讨论"搜索引擎最优化"的论坛上,斑竹们甚至讨论对一些链接广告收费,收费标准是按照它们所达到的页面序列等级。这将使那些页面序列等级很低同时支付这些链接广告的网站收益。而有时候这些页面序列等级是由于链接作弊或者是其它一些不正当努力的成果,而这些正是Google努力去侦测并及时将之页面序列等级归零作为处罚。另一方面,Google专业的网站优化员能够消除这些类似垃圾邮件的技术。镜像网站以及存在于某些网域内的复制页将会被Google查禁并立即处罚,甚至当某些类似网站有其存在的特殊原因时也是这样。总之,Google使得链接模式发生了意义重大的改变。许多网站管理者吝啬于给出自己的链接(这能缓解你的页面序列等级转移到你所给予链接的网站),同时他们又不顾一切地想从别人的网站得到更多的链接。因此品牌几何网站将友情链接的页面放在了二级页面,也正式因为这样的考虑。当游戏变得商业化时,才会这样有趣。

Google应该做什么

我们觉得页面序列等级在走它自己的路。Google完全可以放任它,同时不应该去突出它。第一步应该停止在工具栏上再显示页面序列等级。这同时会减弱页面序列等级在网站优化者和网站管理者中的印象,以及由于这些已形成的印象所导致的奇异的影响。第二步是在所有的公关文章中不提及页面序列等级,而代之以有关链接知名度只是众多页面序列算法中的一个重要因素的内容。同时Google应该保持众多算法的平衡以使得优秀的页面特色不会因为较低的链接知名度而变得无用。

页面序列等级必须合理化以使"富人的专制"特性缩减,并代之以类似链接知名度的更为平等的方式。这在很大程度上将会简化那些用以满足排列2亿网站需要的复杂的循环计算结果,而得出如此复杂的计算结果对Google来说代价也是是非常昂贵的。而网站检索也必须不以页面序列等级所驱动。Google应该使用一种方法,使得某网站即使在一次检索中未被发现,Google的检索程序也能在下一次检索时从前一次遗漏的地方发现这个网站。

Google对于网络来说是越来越重要了,它也许应该成为一项公众或公益事业。来自于像联邦交易委员会这样的政府机构的,对于搜索引擎利益的控制是非常应该的,但我们感觉联邦交易委员会也仅仅非常表面和空洞地注意到了搜索引擎表面的弊端。开始采用赞助链接以及广告栏的Google并不是一个很大的顾虑,即使Nader小组针对所谓"商业目的提示警告"向联邦交易委员会进行了投诉。

这其实是个错误,因为"商业目的提示警告"的提出是没有足够接近地观察和了解页面序列等级的结果。Google已经实行的页面序列等级的一些方面几乎和付费页面排序一样有害。为了保护消费者的利益,联邦交易委员会应该控制广告商在搜索引擎中的过度炫耀以保护消费者利益。Google仍旧是个搜索引擎,他们只要修正了页面序列等级的一些坏处就足以说明它还是一个优秀的搜索引擎。

当这篇写于2002年8月的文章被最终翻译时,Google收购了Blogger.com, 中国的.CN域名刚刚于3月17日推出,blogger.cn还没有被人注册。外面天气很好。

UPDATE 2003-01-10: While Google still uses the phrase "uniquely democratic" in describing PageRank, it's clear by now that they don't believe their own hype. In 2002, SearchKing sued Google for zeroing SearchKing's PageRank. SearchKing openly attempted to monetize PageRank, and everyone expected Google to do something. Google's response to the lawsuit admits that they did this, and then defends their action on the grounds that PageRank is Google's "opinion" of SearchKing, protected by the First Amendment. To wit: PageRank is ultimately, after Google applies whatever special tweaks it chooses for whatever reasons, a measure of a web page's usefulness to Google. (PageRank was worth $100 million in profits to Google last year. Zeroing the competition can be useful!)


注:Daniel Brandt是公众信息调查有限公司(Public Information Research, Inc.)的创建人和总裁。这家公司是一个赞助NameBase服务的免税公共团体。他自1982年开始编辑NameBase,而他所编辑的数据资料是从1974开始的,而现在他PIR的一些网站的程序员和网站管理人。他经常参加各种论坛上的讨论,在这些论坛上许多网站管理者交流一些秘密的计算方法,程序错误以及对搜索引擎的不同行为的看法。在2000年10月Google成为第一个透过数千个动态页面深入PIR主网站的搜索引擎之前,Brandt就已经在观察Google与NameBase的交互性。而关于他反对Google的霸权这件事上他是这么说的:"我感觉这像是件正确的事情。这相当于在网络世界里又一次我的起兵反抗。"第一次是针对他以前的一次起诉官司而言。

 

严正声明:品牌几何是一家非盈利的个人网站,请尊重作者版权,如欲转载请注明文章出处并给予链接同时以电子邮件形式告知几何,几何保留对非法转载追索的权利。

Copyright 2000, BrandVista.com. All Rights Reserved.