在任何领域做出的最困难的决定之一就是有意识地选择错过最后期限。在过去的几个月里,由一些最聪明的工程师、数据科学家、项目经理、编辑和营销人员组成的团队努力推动将新的 Page Authority (PA) 发布日期定为 2020 年 9 月 30 日。新模型有所不同从目前的功率放大器几乎所有方面来看,但我们最近的质量控制措施揭示了我们不能忽视的异常现象。

因此,我们做出了推迟发布 Page Authority 2.0 的艰难决定。因此,让我花点时间回顾一下我们如何到达这里、我们离开的地方以及我们打算如何进行的步骤。

睁大眼睛看老问题

从历史上看,Moz 一遍又一遍地使用相同的方法来模拟页面权限(以及与此相关的域权限)。这个模型的优势在于它的简单性,但它还有很多不足之处。

Previous Page Authority 模型针对 SERP 进行训练,以尝试根据从 Link Explorer 反向链接索引计算的一组链接指标来预测一个 URL 是否会在另一个 URL 上排名。这种模型的关键问题是它无法有意义地解决一组特定链接指标的最大强度。

例如,想象一下互联网上最强大的 URL,这些 URL 的链接是:Google、Youtube、Facebook 的主页,或者要遵循的社交网络按钮的分享 URL。没有 SERP 可以让这些 URL 相互竞争。相反,这些非常强大的 URL 通常排名第一,其后的指标要低得多。试想一下,如果迈克尔·乔丹、科比·布莱恩特和勒布朗·詹姆斯各自对高中生进行一对一的挤压。每个人每次都赢。但很难从这些结果中推断出迈克尔乔丹、科比布莱恩特或勒布朗詹姆斯是否会在一对一的比赛中获胜。

在重新访问域权限时,我们最终选择了一个具有丰富经验的模型:原始的 SERP 训练方法(尽管有很多调整)。借助 Page Authority,我们决定采用另一种训练方法,预测哪些页面将获得更多自然流量。该模型具有一些有前途的品质,例如能够比较未出现在同一 SERP 上的 URL,但也存在其他困难,例如具有高链接公平性但仅位于不常搜索的主题区域的页面。我们解决了其中的许多问题,例如增加训练集以使用非链接指标衡量竞争力。

衡量新 Page Authority 的质量

结果是积极的,非常令人鼓舞。

首先,新模型清楚地预测了一个页面比另一个页面拥有更有价值的自然流量的可能性。这是意料之中的,因为新模型旨在实现这一特定目标,而当前的“页面权限”仅试图预测一个页面是否会排名在另一个页面之上。

其次,我们发现新模型预测的页面是否优于之前的 Page Authority。这是特别令人高兴的,因为它让我们很担心,因为新的训练模型使新模型在旧的质量控制上表现不佳。

新模型在预测 SERP 方面比当前 PA 好多少?在每个间隔(下降到位置 4 与 5),新模型与当前模型持平或表现不佳。它永远不会丢失。

一切都很好。然后,我们开始分析异常值。我喜欢称它为“它看起来很愚蠢吗?”测试。机器学习就像人类一样会犯错误,但人类往往会以非常具体的方式犯错误。当一个人犯错时,我们通常会准确地理解为什么会犯错。 ML 并非如此,尤其是神经网络。我们将 URL 授予在我们的新模型中碰巧有机流量为零的 URL,并将它们包含在训练集中以了解这些错误。我们很快看到 90 多岁的单一 PA 下降到更合理的 60 多岁和 70 多岁……又一次胜利。

我们做了最后一个测试。

品牌搜索的问题

网络上一些最流行的关键词是导航性的。人们在 Google 上搜索 Facebook、Youtube,甚至 Google 本身。这些关键词相对于其他关键词的搜索量是天文数字。随后,少数强势品牌可能会对将总搜索量作为其核心培训目标一部分的模型产生巨大影响。

最终测试涉及将当前页面权限与新页面权限进行比较,以确定是否存在任何奇怪的异常值(无明显原因的 PA 显着变化)。首先,让我们看一下链接根域的 LOG 与页面权限的简单比较。

不会太寒酸。我们看到链接根域和页面权限之间通常存在正相关关系。但是你能发现其中的奇怪之处吗?继续,花点时间......

此图中有两个异常:

  1. URL 的主要分布与上面的异常值和以下 。
  2. 单项成绩差异最大的是PA99。 PA99数量多,链接根域范围广。

这是一个有助于发现这些异常的可视化:

绿色和红色之间的灰色空间代表分布的大部分和离群值之间的奇数间隙。异常值(红色)倾向于聚集在一起,尤其是在主要分布之上。当然,我们可以看到 PA 99s 顶部的分布不均匀。

请记住,这些问题不足以使新的 Page Authority 模型不如当前模型准确。然而,经过进一步检查,我们发现该模型确实产生了严重到足以影响客户决策的错误。最好是有一个模型在这里和那里有点偏差(因为 SEO 所做的调整并不是非常精细),而不是拥有一个几乎在所有地方都正确但在少数情况下严重错误的模型。

幸运的是,我们对问题出在哪里很有信心。似乎首页的 PA 膨胀得太高了,可能的罪魁祸首是训练集。在我们完成再训练之前,我们无法确定这就是原因,但这是一个强有力的线索。

好消息和坏消息

目前,我们处于良好状态,因为我们有几个候选模型优于现有的 Page Authority。我们正处于漏洞压缩阶段,而不是模型构建阶段。但是,我们不会发布新乐谱,除非我们确信它将引导我们的顾客朝着正确的方向前进。我们高度重视客户根据我们的指标做出的决定,而不仅仅是这些指标是否符合某些统计标准。

考虑到所有这些,我们决定推迟发布 Page Authority 2.0。这将使我们有必要的时间来解决这些主要问题并制定出色的指标。令人沮丧吗?是的,也是必须的。

一如既往,感谢您的耐心等待,因为我们期待产生我们发布过的最好的 Page Authority 指标。

访问 PA 资源中心