这是一个常见且有趣的重复内容问题。
您有像David Yurman这样的零售商,产品有不同的颜色变化,并选择在自己的URL上显示每种产品颜色。
每个产品/颜色网址通常都具有相同的内容,但会更改主要产品图片,这与将它们分开的差异不足。
您是否应该将所有产品变体标准化为一个并合并重复内容?
或者您是否应该重写产品名称,描述等,以使每个版本保持独立和独特?
当您合并具有大部分相同内容的页面时,通常会获得更高的性能。 这个例证 谷歌显示原因。
您正在间接构建规范页面的链接。
当您的网页内容大部分相同时,他们会在SERP中竞争相同的条款,其中大多数会在查询时进行过滤。过滤的每个页面都会累积浪费的链接。
但是,这是一个有趣的案例。如果人们专门搜索某些页面中仅提供的内容会怎么样?
在这种情况下,巩固这些是不明智的,因为我们会失去相关的排名。
让我们使用SEMrush为这个家庭带来一个具体的例子。
David Yurman的产品至少有六种主要颜色:纯银,黑钛,玫瑰金,黄金,白金和绿色祖母绿。
Google中可能存在特定于颜色的搜索,这些搜索会导致产品页面。如果是这种情况,我们不希望合并这些页面,以便他们可以捕获相关的颜色特定搜索流量。
这是一个例子 SEMrush搜索 这可以帮助我们检查是否是这种情况。
例如,我们对纯银有489种有机关键词排名,玫瑰金有863种,黑钛只有51种。
我还使用手机作为设备进行了检查,其中纯银为30,玫瑰金为77,黑钛仅为11。
大多数网站要么像David Yurman那样将颜色网址分开,要么将颜色合并到URL级别的一个页面中或使用规范。
至少从SEO性能的角度来看,考虑到搜索次数较少,将黑钛作为单独的URL看起来并不是一个特别好的选择。
但是,如果我们能找到理想的中间地带呢?
如果我们可以合并某些产品网址而不是其他网址,该怎么办
如果我们能够根据性能数据执行这些决策怎么办?
这就是我们将在本文中学习如何做的事情!
以下是我们的行动计划:
- 我们将使用OnCrawl的爬虫来收集所有产品页面及其SEO元数据(包括规范)。
- 我们将使用SEMrush收集特定颜色的搜索词和相应的产品页面。
- 我们将定义一个简单的聚类算法,根据是否有颜色搜索对产品进行分组(或不分组)。
- 我们将使用Tableau可视化群集更改并更好地了解更改。
- 我们将使用RankSense应用程序将我们的实验性更改上传到Cloudflare CDN。
1.使用OnCrawl获取产品页面组
我使用主站点URL开始网站抓取:https://www.davidyurman.com。
因为我只对审查美国产品感兴趣,所以我下载了 美国产品XML站点地图,将其转换为CSV文件,并将其作为zip文件上传。
我将现有的rel = canonical添加为列,并导出了2,465个URL的列表。
2.使用SEMrush将颜色搜索查询提供给产品页面
我把最初的颜色列表放在一起:纯银,黑钛,玫瑰金,黄金,白金,绿宝石。然后从SEMrush导出六个产品列表。
3.按产品标识符对产品URL进行聚类
我们将使用Google Colab和一些Python脚本来进行聚类。
首先,让我们导入OnCrawl导出文件。
然后,我们也可以 进口 带有颜色搜索的SEMrush文件。
我尝试了一些想法从URL中提取产品ID,包括使用OnCrawl的内容提取功能,但最终解决了从URL中提取它的问题。
接下来,我们可以将产品ID列添加到Dataframe中,并将URL分组以执行群集。
在此群集练习中,您可以看到一些没有规范的产品ID。我们将通过向这些URL添加自引用规范来解决这个问题。
让我们将数据框导出到CSV文件并导入Tableau以进行进一步分析。在Tableau中,我们可以更好地可视化当前的规范集群。
在Tableau中,完成以下步骤:
- 使用文本文件数据源连接到CSV文件。
- 通过将URL和Canonicals拖动到该部分,将其转换为Measures。
- 将产品ID拖到行中。
- 将Canonicals和URL计数拖到列中。
- 右键单击空URL行,然后选择要将其排除的选项。
- 将图表类型更改为 树形图。
- 添加名为“Canonicalized”的计算字段并粘贴此公式.IF COUNTD((URL)) – COUNTD((Rel Canonical))== 0然后“自我参照”ELSE“Canonicalized”END
- 将计算字段拖动到颜色标记。
- 将URL计数拖到筛选器并指定至少两个URL。
- 拖动计数URL并将规范计数到详细信息标记。
这就是设置的样子。
每个方块代表产品ID群集。较大的网站有更多的网址。计算字段“canonicalized”使用颜色来判断群集是规范化还是自引用。
我们可以看到,在其当前的设置中,David Yurman产品大多是自引用的,很少有簇规范化(蓝色方块)。
这是一个仔细看看。
如果大多数产品从特定颜色的产品搜索中获得搜索流量,这将是一个很好的设置。让我们看看接下来的情况。
4.将Canonical Clusters转换为Canonicalized
我们将执行一个中间步骤并强制所有产品组规范化为组中的第一个URL。
这足以说明这个概念,但是对于生产用途,我们希望规范化到组中最流行的URL。它可能是链接最多的网页,也可能是搜索次数或展示次数最多的网页。
更新集群后,我们可以返回Tableau,重复与之前相同的步骤并查看更新的可视化。
你可以看到,现在没有一个集群是自我引用的,因为我们强迫它们不是这样的。所有这些都规范化为只有一个URL。
5.将一些规范集群转为自引用
现在,在最后一步中,我们将了解有多少簇应该是自引用的。
由于所有群组现在都规范化为一个网址,我们只需要打破这些群集,其中网址具有颜色词的搜索流量。我们将改变规范是自我指涉的。
首先,让我们导入我们导出到数据帧中的所有SEMrush文件,并将URL转换为一组以便于检查。
下一步是仅为匹配的组更新规范。
完成此过程后,我们可以返回Tableau并查看最终的集群。
令人惊讶的是,我们只需要更新一个集群,这意味着David Yurman在桌面上留下了大量资金,其当前的设置依赖于自我引用的规范。
6.使用RankSense实现Cloudflare的实验变化
在传统的CMS上执行像这样的选择性和实验性更改可能不切实际,需要认真的开发工作,或者如果没有证据可以解决这个问题。
幸运的是,这些是使用我们的应用程序在Cloudflare中轻松部署并且无需编写后端代码的更改类型。 (披露:我为RankSense工作。)
我们会将建议的规范群集复制到Google表格中。这是一个例子:
假设David Yurman使用了Cloudflare并拥有了我们的 实施应用 安装后,我们可以简单地上传工作表,添加一些标签来跟踪性能并提交它以获得对暂存预览或生产的更改。
最后,我们可以使用我们的15分钟审核Chrome扩展程序手动审核规范正常运行,但可以肯定的是,我们应该运行另一次OnCrawl抓取以确保所有更改都已到位。
我发现了重复的元描述,我确信他们有更多的SEO问题需要解决。
如果这个想法证明对他们有效,他们可以自信地委托开发工作在他们的网站上实现这个。
资源以了解更多信息
看到Python SEO社区在过去几个月里增长如此之快,真是令人兴奋。甚至谷歌的约翰穆勒也开始注意到了。
未来:约翰正在看到更多聪明的SEO。
– 再次搜索引擎优化和编码
– 更少的魔法咒语,更多的知识
– 倾听并向同学学习,然后尝试一下
– 一些最好的人在MN搜索峰会上发言@johnmu 在 #mnsummit
– Mark Traphagen(@marktraphagen) 2019年6月21日
社区中的一些人一直在做一些不可思议的工作。
例如,JR Oakes分享了他已经工作了两年的内容生成项目的结果!
我刚刚分享的一些结果 @hamletbatista 在谷歌培训一个LM模型的结果为“技术搜索引擎优化”。他就是那个人 #SEO 真的让我更加努力,我非常重视他的友谊。 #很高兴 pic.twitter.com/4Jv4IswirM
– JR%20Oakes?(@jroakes) 2019年6月21日
阿莱西奥 建了一个 很酷的剧本 这会生成“人们也问过”问题的交互式可视化。
总的来说,尽管我的工作得到了如下所述的好评,但我对整个社区正在建设的越来越多的工作感到非常兴奋。
我们每天都在变得更强大,更可信!
爱,爱,爱 #ML 内容@hamletbatista与…分享 #seo 社区通过@sejournal?另一个伟大的入门?使用深度学习的自动意图分类 https://t.co/w0c2i8UVM9
– MichelleRobbins(@MichelleRobbins) 2019年6月20日
可能是到目前为止2019年最聪明的SEO帖子 – >使用深度学习的自动意图分类 https://t.co/bRgMqekdZX 通过 @hamletbatista, @sejournal
– chriscountey(@chriscountey) 2019年6月21日
图片来源
所有截图均由作者拍摄,2019年7月