一个A前谷歌软件工程师评论了黑客新闻关于谷歌如何运作的讨论。一路上他提到谷歌不再使用原来的 PageRank 算法。

Google 不使用原始 PageRank?

Hacker News 的讨论分为关于创建竞争性搜索引擎的讨论和前 Google 员工讨论 Google 的 PageRank。

以下是一位前 Google 员工关于不再使用 PageRank 的说法:

“这里说 PageRank 是 Google 的秘密武器的评论也不是真的 – Google自 2006 年以来一直没有使用 PageRank。更接近于搜索和点击数据的重要性……”

他接着说:

“他们在 2006 年用算法取代了它这给出了大致相似的结果,但计算速度要快得多。替换算法是工具栏中报告的数字,Google 声称的是 PageRank(它甚至具有相似的名称,因此 Google 的说法在技术上是不正确的)。

两种算法都是 O(N log N),但是替换在 log N 因子上的常数要小得多,因为它不需要迭代直到算法收敛。随着 Web 从大约 1-10K 页面增长到 150B+,这一点非常重要。”

PageRank 和新的 PageRank

Hamlet Batista Hacker News 讨论中的启示是

搜索专利专家 Bill Slawski 通过 Twitter 回应:

“Google 的新版 PageRank 在 2006 年获得了专利。巧合吗?”

Bill Slawski 在 2015 年 11 月写了这篇文章新的 PageRank。

在 2015 年的文章中,Beer 写道:

“根据这项新专利,Google 添加了一组不同的受信任页面作为 torrent 站点。在计算 PageRank 时。 Google 计算从种子页面到被排名页面的距离。”

这是 Bill 在 2018 年 4 月关于新 PageRank 注释的后续帖子:

“分配给斯坦福大学的原始 PageRank 专利已经过期。 Google 拥有使用 PageRank 的独家许可。谷歌提交了对 PageRank 的更新,其背后采用了不同的算法。”

比尔随后引用了该专利:

“由谷歌公司开发的流行搜索引擎. of Mountain View, CA 使用 PageRank.RTM。作为网络抓取的有效指南,用于索引选择和页面排名过程的页面质量指标。”

新的 PageRank 是一种链接距离排名算法吗?

Google Bill Slawski 引用的专利侧重于对来自可信种子集的链接进行排名。它不是一种信任算法。该专利的标题是 Generating Page Rank Using Distance in a Web Link Graph。

标题表明这是一种链接距离排名算法,它使用与可信种子集的距离来计算一种形式的 PageRank。它不是一种信任算法。

不再使用原始的 PageRank 算法?

如果相信这位软件工程师,原来的 PageRank 算法已不再使用。Bill Slawski 建议它可能已被更高效的同名算法所取代。

这真的是真的吗前 Google 员工?

我相信这是前 Google 员工。根据他的 Hacker News 简介,他的名字叫 Jonathan Tang。

Name对应一个同名的LinkedIn个人资料,如下背景资料:

《高级软件工程师》
公司名称:Google
入职时间:2009年1月-2014年5月

我作为UI加入搜索软件工程师,然后逐渐转向后端工作,最终致力于完整的搜索堆栈。还帮助推出了 Google+ 和 GFiber。”

Google 工程师发布了更多关于 Google 的信息

工程师认为,有些人可能会觉得 Google 的搜索结果不尽如人意,因为它被调整为满足大众而不是个人。我称之为 Fruit Loops 效应 Google 就像超市的麦片过道一样,会向用户展示他们期望看到的东西,在某些情况下是水果圈。

这就是他解释 Google 的原因某些人可能不喜欢 SERP:

“那是因为 Google 是为主流受众打造的,因为主流(根据定义)比任何利基市场都要大得多。通过这样做,他们可以增加总体幸福感(尽管不是你的特定幸福感)。”

商业搜索补贴非商业搜索

谷歌还讨论了商业搜索带来的收入,尽管他承认他的数字可能已经过时。

“基本上,Google 80% 的收入来自搜索商业产品或服务(保险、律师、治疗师、SaaS、鲜花等)。其余部分分配给 AdSense、Cloud、Android , Google Play , GFiber, YouTube, DoubleClick, 等等(现在可能有点高了)。检索文档:

“请记住在每个查询中搜索(几乎)每个索引文档 - 如果您为 4B 文档投入 200 毫秒的请求延迟,您的请求将需要大约 25 年才能完成.

...它使用索引并且只涉及出现在相关发布列表之一中的文档。但是,在词干提取、拼写更正、同义词和其他一些我无法讨论的扩展之后,可能需要查看很多查询词,涵盖索引的重要部分。

这些中的每一个都需要评分(好吧,排序——你可以使用各种技巧来避免评分阅读某些文档,这也是我不能随意讨论的内容),并且只有在为所有查询词计算了分数之后才合并分数通常是有益的,因为您可以获得有关上下文的更多信息。”

原来的 PageRank 有没有可能不再使用了?

如果有人仔细想想,可能不使用原始的 PageRank 算法是有道理的。它可能已被开发或修改。前谷歌员工声称它已被完全取代。该声明与最近谷歌专利更新中可见的证据相符,该专利更新了一种新形式的 PageRank。

阅读 Hacker News 讨论:

https://news.ycombinator.com/item?id=20440079

阅读 Twitter 讨论
https://twitter.com/hamletbatista/status/1150885678680428545