这是一个常见且有趣的重复内容问题。

您有像David Yurman这样的零售商,产品有不同的颜色变化,并选择在自己的URL上显示每种产品颜色。

每个产品/颜色网址通常都具有相同的内容,但会更改主要产品图片,这与将它们分开的差异不足。

您是否应该将所有产品变体标准化为一个并合并重复内容?

或者您是否应该重写产品名称,描述等,以使每个版本保持独立和独特?

当您合并具有大部分相同内容的页面时,通常会获得更高的性能。 这个例证 谷歌显示原因。

您正在间接构建规范页面的链接。

当您的网页内容大部分相同时,他们会在SERP中竞争相同的条款,其中大多数会在查询时进行过滤。过滤的每个页面都会累积浪费的链接。

但是,这是一个有趣的案例。如果人们专门搜索某些页面中仅提供的内容会怎么样?

在这种情况下,巩固这些是不明智的,因为我们会失去相关的排名。

让我们使用SEMrush为这个家庭带来一个具体的例子。

David Yurman的产品至少有六种主要颜色:纯银,黑钛,玫瑰金,黄金,白金和绿色祖母绿。

Google中可能存在特定于颜色的搜索,这些搜索会导致产品页面。如果是这种情况,我们不希望合并这些页面,以便他们可以捕获相关的颜色特定搜索流量。

这是一个例子 SEMrush搜索 这可以帮助我们检查是否是这种情况。

例如,我们对纯银有489种有机关键词排名,玫瑰金有863种,黑钛只有51种。

我还使用手机作为设备进行了检查,其中纯银为30,玫瑰金为77,黑钛仅为11。

大多数网站要么像David Yurman那样将颜色网址分开,要么将颜色合并到URL级别的一个页面中或使用规范。

至少从SEO性能的角度来看,考虑到搜索次数较少,将黑钛作为单独的URL看起来并不是一个特别好的选择。

但是,如果我们能找到理想的中间地带呢?

如果我们可以合并某些产品网址而不是其他网址,该怎么办

如果我们能够根据性能数据执行这些决策怎么办?

这就是我们将在本文中学习如何做的事情!

以下是我们的行动计划:

  • 我们将使用OnCrawl的爬虫来收集所有产品页面及其SEO元数据(包括规范)。
  • 我们将使用SEMrush收集特定颜色的搜索词和相应的产品页面。
  • 我们将定义一个简单的聚类算法,根据是否有颜色搜索对产品进行分组(或不分组)。
  • 我们将使用Tableau可视化群集更改并更好地了解更改。
  • 我们将使用RankSense应用程序将我们的实验性更改上传到Cloudflare CDN。

1.使用OnCrawl获取产品页面组

我使用主站点URL开始网站抓取:https://www.davidyurman.com。

因为我只对审查美国产品感兴趣,所以我下载了 美国产品XML站点地图,将其转换为CSV文件,并将其作为zip文件上传。

我将现有的rel = canonical添加为列,并导出了2,465个URL的列表。

2.使用SEMrush将颜色搜索查询提供给产品页面

我把最初的颜色列表放在一起:纯银,黑钛,玫瑰金,黄金,白金,绿宝石。然后从SEMrush导出六个产品列表。

3.按产品标识符对产品URL进行聚类

我们将使用Google Colab和一些Python脚本来进行聚类。

首先,让我们导入OnCrawl导出文件。

然后,我们也可以 进口 带有颜色搜索的SEMrush文件。

我尝试了一些想法从URL中提取产品ID,包括使用OnCrawl的内容提取功能,但最终解决了从URL中提取它的问题。

接下来,我们可以将产品ID列添加到Dataframe中,并将URL分组以执行群集。

在此群集练习中,您可以看到一些没有规范的产品ID。我们将通过向这些URL添加自引用规范来解决这个问题。

让我们将数据框导出到CSV文件并导入Tableau以进行进一步分析。在Tableau中,我们可以更好地可视化当前的规范集群。

在Tableau中,完成以下步骤:

  • 使用文本文件数据源连接到CSV文件。
  • 通过将URL和Canonicals拖动到该部分,将其转换为Measures。
  • 将产品ID拖到行中。
  • 将Canonicals和URL计数拖到列中。
  • 右键单击空URL行,然后选择要将其排除的选项。
  • 将图表类型更改为 树形图。
  • 添加名为“Canonicalized”的计算字段并粘贴此公式.IF COUNTD((URL)) – COUNTD((Rel Canonical))== 0然后“自我参照”ELSE“Canonicalized”END
  • 将计算字段拖动到颜色标记。
  • 将URL计数拖到筛选器并指定至少两个URL。
  • 拖动计数URL并将规范计数到详细信息标记。

这就是设置的样子。

每个方块代表产品ID群集。较大的网站有更多的网址。计算字段“canonicalized”使用颜色来判断群集是规范化还是自引用。

我们可以看到,在其当前的设置中,David Yurman产品大多是自引用的,很少有簇规范化(蓝色方块)。

这是一个仔细看看。

如果大多数产品从特定颜色的产品搜索中获得搜索流量,这将是一个很好的设置。让我们看看接下来的情况。

4.将Canonical Clusters转换为Canonicalized

我们将执行一个中间步骤并强制所有产品组规范化为组中的第一个URL。

这足以说明这个概念,但是对于生产用途,我们希望规范化到组中最流行的URL。它可能是链接最多的网页,也可能是搜索次数或展示次数最多的网页。

更新集群后,我们可以返回Tableau,重复与之前相同的步骤并查看更新的可视化。

你可以看到,现在没有一个集群是自我引用的,因为我们强迫它们不是这样的。所有这些都规范化为只有一个URL。

5.将一些规范集群转为自引用

现在,在最后一步中,我们将了解有多少簇应该是自引用的。

由于所有群组现在都规范化为一个网址,我们只需要打破这些群集,其中网址具有颜色词的搜索流量。我们将改变规范是自我指涉的。

首先,让我们导入我们导出到数据帧中的所有SEMrush文件,并将URL转换为一组以便于检查。

下一步是仅为匹配的组更新规范。

完成此过程后,我们可以返回Tableau并查看最终的集群。

令人惊讶的是,我们只需要更新一个集群,这意味着David Yurman在桌面上留下了大量资金,其当前的设置依赖于自我引用的规范。

6.使用RankSense实现Cloudflare的实验变化

在传统的CMS上执行像这样的选择性和实验性更改可能不切实际,需要认真的开发工作,或者如果没有证据可以解决这个问题。

幸运的是,这些是使用我们的应用程序在Cloudflare中轻松部署并且无需编写后端代码的更改类型。 (披露:我为RankSense工作。)

我们会将建议的规范群集复制到Google表格中。这是一个例子:

假设David Yurman使用了Cloudflare并拥有了我们的 实施应用 安装后,我们可以简单地上传工作表,添加一些标签来跟踪性能并提交它以获得对暂存预览或生产的更改。

最后,我们可以使用我们的15分钟审核Chrome扩展程序手动审核规范正常运行,但可以肯定的是,我们应该运行另一次OnCrawl抓取以确保所有更改都已到位。

我发现了重复的元描述,我确信他们有更多的SEO问题需要解决。

如果这个想法证明对他们有效,他们可以自信地委托开发工作在他们的网站上实现这个。

资源以了解更多信息

看到Python SEO社区在过去几个月里增长如此之快,真是令人兴奋。甚至谷歌的约翰穆勒也开始注意到了。

社区中的一些人一直在做一些不可思议的工作。

例如,JR Oakes分享了他已经工作了两年的内容生成项目的结果!

阿莱西奥 建了一个 很酷的剧本 这会生成“人们也问过”问题的交互式可视化。

总的来说,尽管我的工作得到了如下所述的好评,但我对整个社区正在建设的越来越多的工作感到非常兴奋。

我们每天都在变得更强大,更可信!

图片来源

所有截图均由作者拍摄,2019年7月