在网站架构的SEO领域中,毫无疑问,消除重复的内容可能是最艰难的战斗之一。
太多的内容管理系统和贫穷的开发人员构建的站点非常适合显示内容,但从搜索引擎友好的角度出发,几乎没有考虑该内容的功能。
这通常会造成有害的重复内容困境,供SEO处理。
重复内容有两种,两种都可能是一个问题:
-
站点复制是指将相同的内容复制到站点的两个或多个唯一URL上。通常,这可以由站点管理员和Web开发团队控制。
-
异地复制是指两个或多个网站发布完全相同的内容。这通常是无法直接控制的,而是依赖于与第三方和有问题的网站的所有者合作。
为什么重复内容有问题?
解释重复内容为什么不好的最好方法是首先告诉您唯一内容为什么很好。
独特的内容是使自己与其他网站区分开的最好方法之一。当您网站上的内容仅由您自己决定时,您会脱颖而出。你有别人没有的东西。
另一方面,当您使用相同的内容来描述您的产品或服务或在其他站点上重新发布内容时,您将失去独特的优势。
或者,在现场重复内容的情况下,单个页面失去了唯一性的优势。
请看下面的插图。如果A表示在两个页面上重复的内容,并且B到Q表示链接到该内容的页面,则复制会导致拆分链接值。
现在,假设B-Q页仅链接到A页。所有值都将分配给单个URL,而不是拆分每个链接提供的值,这增加了该内容在搜索中排名的机会。
无论是场内还是场外,所有重复内容都在与自己竞争。每个版本都可能吸引眼球和链接,但如果是唯一且唯一的版本,任何人都不会获得全部价值。
但是,当在Web上的任何地方最多只能找到一个URL时,才可以找到有价值的独特内容,因此,该URL是该内容的唯一授权信号收集者,因此被发现的可能性最大。
现在,有了这些了解之后,我们来看一下重复内容的问题和解决方案。
异地重复内容
异地复制有三个主要来源:
-
您在自己的网站上重新发布的第三方内容。通常,这是以制造商提供的通用产品描述的形式。
-
经您批准,您的内容已重新发布在第三方网站上。这通常是文章分发或反向文章分发的形式。
-
有人从您的网站上窃取的内容,未经您的许可而重新发布。这是内容刮板和小偷变得令人讨厌的地方。
让我们看看每个。
内容刮板和小偷
内容抓取工具是重复创建内容中最大的违规行为之一。垃圾邮件发送者和其他邪恶的作恶者构建的工具可以从其他网站获取内容,然后自行发布。
在大多数情况下,这些网站都在尝试使用您的内容来吸引访问他们自己网站的流量,以吸引人们点击他们的广告。 (是的,我在看着你,谷歌!)
不幸的是,除了提交 版权侵权报告 希望Google能够将其从搜索索引中删除。虽然在某些情况下,提交这些报告可能是一项全职工作。
处理此内容的另一种方法是忽略它,希望Google能够分辨出高质量网站(您的网站)与抓取内容所在的网站之间的区别。由于我发现抓取的内容排名高于原始来源,因此屡见不鲜。
您可以采取以下措施来消除抓取的内容的影响:将内容内的绝对链接(完整URL)用于任何指向您网站的链接。那些窃取内容的人通常不会进行清理工作,因此,至少,访问者可以将其追踪给您。
您也可以尝试将规范标签添加回源页面(无论如何都是一种好习惯)。如果抓取工具抓取了这些代码中的任何一个,则规范标签至少会为Google提供一个信号,使其将您识别为发起者。
文章分配
几年前,似乎每个SEO都将其内容重新发布在“电子杂志”上,以此作为建立链接的策略。当Google严厉打击内容质量和链接方案时,重新发布的方式就被淘汰了。
但是只要有正确的重点,它就可以成为可靠的营销策略。注意,我说的是“营销”而不是“ SEO”策略。
在大多数情况下,无论何时您在其他网站上发布内容,他们都希望获得该内容的唯一权利。
为什么?因为他们不希望网络上该内容的多个版本贬低发布者所提供的内容。
但是随着Google在向内容创作者分配权利方面做得更好(更好,但不是完美的),许多发布者也允许在作者的个人网站上重用内容。
这会造成重复的内容问题吗?以较小的方式,它可以实现,因为仍然有两个版本的内容,每个版本都可能生成链接。
但是最后,如果限制和控制重复版本的数量,那么影响也将受到限制。实际上,主要缺点在于作者而不是次要出版商。
内容的第一个发布版本通常记为规范版本。在少数情况下,这些发布者将从重新发布该内容的作者网站上的内容中获得更多价值。
通用产品说明
重复内容的一些最常见形式来自 产品说明 每个(几乎每个)卖方都可以重复使用。
许多在线零售商出售与数千家其他商店完全相同的产品。在大多数情况下,产品说明由制造商提供,然后上传到每个站点的数据库中,并显示在其产品页面上。
尽管页面的布局会有所不同,但大部分产品页面内容(产品说明)都是相同的。
现在,将其乘以成千上万种不同的产品以及成千上万个销售这些产品的网站,您会发现很多内容,总之,不是唯一。
搜索引擎在执行搜索时如何区分一个或另一个?
在纯粹的内容分析级别上,它不能。这意味着搜索引擎必须查看其他信号来确定应该对哪个信号进行排名。
这些信号之一就是链接。获取更多链接,即可赢得平淡无奇的内容抽奖。
但是,如果您要与实力更强的竞争对手抗衡,那么在将其加入链接建设部门之前,您可能需要进行漫长的战斗。这使您重新寻找另一个竞争优势。
实现这一目标的最佳方法是花费额外的精力为每种产品编写独特的说明。根据您提供的产品数量,这最终可能会是一个挑战,但最终还是值得的。
看下面的插图。如果所有灰色页面代表具有相同产品描述的同一产品,则黄色代表具有唯一描述的同一产品。
如果您是Google,那么您想排名哪个更高?
与独特但相似的内容相比,具有独特内容的任何页面都将自动具有固有的优势。这可能足以或可能不足以超越您的竞争对手,但这无疑是不仅在Google方面而且在您的客户中脱颖而出的基准。
现场重复内容
从技术上讲,Google对所有重复内容都一视同仁,因此现场重复内容与非现场重复实际上没有什么不同。
但是现场的可避免性却较低,因为这是您可以实际控制的一种重复类型。它以众所周知的脚步记录着您的SEO努力。
现场重复内容通常源于不良的网站架构。或者更有可能是不良的网站开发!
一种 强大的网站架构 是强大网站的基础。
如果开发人员不遵循对搜索友好的最佳做法,由于这种自我竞争,您可能会失去宝贵的机会来使您的内容排名。
有些人以谷歌关于谷歌如何“形象化”的宣传为由反对良好的架构,这是一个问题,那就是它依靠谷歌弄清楚事情。
是的,Google可以确定应将某些重复内容视为相同内容,并且算法可以在分析您的网站时将其考虑在内,但不能保证一定会。
换一种说法,就是因为您知道某人聪明,不一定意味着他们可以保护您免受自己的愚蠢之苦!如果您将事情留给Google,但Google失败了,那您将为难。
现在,让我们深入研究一些常见的现场重复内容问题和解决方案。
问题:产品分类重复
太多的电子商务网站都遭受这种重复。这通常是由内容管理系统引起的,该系统允许您按类别组织产品,其中可以在多个类别中标记单个产品。
这本身并不坏(对访问者来说可能很好),但是这样做时,系统会针对出现单个产品的每个类别生成一个唯一的URL。
假设您正在上门维修站点,并且正在寻找有关安装浴室地板的书籍。您可以通过以下任一导航路径找到所需的书:
- 首页>地板>浴室>书本
- 首页>浴室>书本>地板
- 首页>书籍>地板>浴室
这些都是可行的导航路径,但是当为每个路径生成唯一的URL时就会出现问题:
- https://www.myfakesite.com/flooring/bathroom/books/fake-book-by-fake-author
- https://www.myfakesite.com/bathroom/books/flooring/fake-book-by-fake-author
- https://www.myfakesite.com/books/flooring/bathroom/fake-book-by-fake-author
我见过这样的网站为每个产品最多创建十个URL,从而将一个5k产品的网站变成一个具有4.5k重复页面的网站。那是个问题。
如果上面的示例产品生成了十个链接,那么这些链接最终将被分成三种方式。
而如果同一个产品的竞争对手页面具有相同的十个链接,但只有一个URL,那么哪个URL可能在搜索中表现更好?
竞争对手的!
不仅如此,搜索引擎还限制了其爬网带宽,因此他们可以将其用于索引独特且有价值的内容。
当您的网站有很多重复的页面时,引擎很有可能会停止抓取,甚至没有索引到您的唯一内容的一小部分。
这意味着数百个有价值的页面将不会出现在搜索结果中,而被索引的页面是相互竞争的重复项。
解决方案:主URL分类
解决此问题的一种方法是仅将产品标记为一个类别,而不是多个。这样就解决了重复问题,但对于购物者而言,不一定是最佳的解决方案,因为它消除了其他导航选项来查找他们想要的产品。因此,从列表中删除该列表。
另一种选择是从URL完全删除任何类型的分类。这样,无论用于查找产品的导航路径如何,产品URL本身始终是相同的,并且可能看起来像这样:
- https://www.myfakesite.com/products/fake-book-by-fake-author
这可以修复重复项,而不会更改访问者浏览产品的方式。这种方法的缺点是您会丢失URL中的类别关键字。虽然这对SEO的整体带来了很小的好处,但一点点都可以帮助您。
如果您想将解决方案提高到一个新的水平,并在保持用户体验的同时获得最大的优化价值,请建立一个选项,除其他产品外,还可以将每个产品分配到“主”类别。
在播放主类别时,可以继续通过多个导航路径找到产品,但是可以通过使用主类别的单个URL来访问产品页面。
这可能会使URL看起来像这样:
- https://www.myfakesite.com/flooring/fake-book-by-fake-author或
- https://www.myfakesite.com/bathroom/fake-book-by-fake-author或
- https://www.myfakesite.com/books/fake-book-by-fake-author
尽管确实需要一些额外的编程,但后一种解决方案是最佳的整体解决方案。但是,有一个相对较容易实现的“解决方案”,但我只能将其视为临时解决方案,直到可以实施真正的解决方案为止。
创可贴解决方案:规范标签
由于主分类选项并非总是可用于开箱即用的CMS或电子商务解决方案,因此有一个替代选项可以“帮助”解决重复内容的问题。
这涉及防止搜索引擎索引所有非规范的URL。尽管这样做可以将重复的页面排除在搜索索引之外,但不能解决拆分页面权限的问题。发送到不可索引URL的任何链接值都将丢失。
更好的创可贴解决方案是利用规范标签。这类似于选择主类别,但通常几乎不需要任何其他编程。
您只需为每个产品添加一个字段,即可为您分配一个规范的URL,这只是一种奇特的说法,即“您想在搜索中显示的URL”。
规范标签如下所示:
尽管访问者使用的是URL,但每个重复的URL上的幕后规范标记都将指向单个URL。
从理论上讲,这告诉搜索引擎不要索引非规范的URL,也不要将所有其他价值指标分配给规范的版本。
这在大多数情况下都有效,但实际上,搜索引擎仅将规范标记用作“信号”。然后,他们会选择视情况应用或忽略该标记。
您可能会或可能不会将所有链接权限传递给正确的页面,并且可能会也可能不会将非规范页面排除在索引之外。
我总是建议实施规范标签,但由于它不可靠,因此在可以实施更正式的解决方案之前,应将其视为占位符。
问题:URL冗余复制
最基本的网站体系结构问题之一是如何在浏览器中访问页面。
默认情况下,几乎可以使用稍微不同的URL访问站点的每个页面。如果未选中,则每个URL都将导致具有完全相同内容的完全相同页面。
仅考虑主页,可以使用四个不同的URL来访问它:
- http://site.com
- http://www.site.com
- https://site.com
- https://www.site.com
在处理内部页面时,您可以通过添加斜杠来获得每个URL的附加版本:
- http://site.com/page
- http://site.com/page/
- http://www.site.com/page
- http://www.site.com/page/
- 等等。
每个页面最多有八个备用URL!当然,Google应该知道所有这些URL都应该被视为一个,但是哪个呢?
解决方案:301重定向和内部链接一致性
除了我在上面提到的规范标记之外,这里的解决方案是确保您具有所有替代版本的URL重定向到规范URL。
请注意,这不仅是首页问题。同一问题适用于您的每个网站URL。因此,实施的重定向应该是全局的。
确保强制每个重定向到规范版本。例如,如果规范URL为https://www.site.com,则每个重定向都应指向该URL。许多人都犯了错误,添加了如下所示的其他重定向跃点:
- Site.com> https://site.com> https://www.site.com
- Site.com> www.site.com> https://www.site.com
而是,重定向应如下所示:
- http://site.com> https://www.site.com/
- http://www.site.com> https://www.site.com/
- https://site.com> https://www.site.com/
- https://www.site.com> https://www.site.com/
- http://site.com/> https://www.site.com/
- http://www.site.com/> https://www.site.com/
- https://site.com/> https://www.site.com/
通过减少重定向跃点的数量,您可以加快页面加载速度,减少服务器带宽并减少一路上可能出现的错误。
最后,您需要确保网站中的所有内部链接也都指向规范版本。
虽然重定向应该解决重复的问题,但是如果服务器或事物实现方面出现问题,则重定向可能会失败。
如果发生这种情况,即使是暂时的情况,仅在内部链接规范页面也可以防止突然出现大量重复内容问题。
问题:URL参数和查询字符串
几年前,会话ID的使用给SEO造成了主要的重复内容问题。
但是,当今的技术使会话ID几乎已经过时,但是出现了另一个问题,即使不是更糟,它也是一样:URL参数。
参数通常用于根据一个或多个过滤器或所做的选择从服务器提取新鲜内容。
以下两个示例显示了单个URL的备用URL:site.com/shirts/。
第一个显示按颜色,尺寸和样式过滤的衬衫,第二个URL显示按价格排序的衬衫,然后每页显示一定数量的产品,
- Site.com/shirts/?color=red&size=small&style=long_sleeve
- Site.com/shirts/?sort=price&display=12
仅基于这些过滤器,搜索引擎可以找到三个可行的URL。但是,这些参数的顺序可以根据选择它们的顺序而改变,这意味着您可能会获得以下几个更易于访问的URL:
- Site.com/shirts/?size=small&color=red&style=long_sleeve
- Site.com/shirts/?size=small&style=long_sleeve&color=red
- Site.com/shirts/?display=12&sort=price
还有这个:
- Site.com/shirts/?size=small&color=red&style=long_sleeve&display=12&sort=price
- Site.com/shirts/?display=12&size=small&color=red&sort=price
- Site.com/shirts/?size=small&display=12&sort=price&color=red&style=long_sleeve
- 等等。
您会看到它可以产生很多URL,其中大多数不会提取任何类型的唯一内容。
在上面的参数中,您可能要为其编写销售内容的唯一参数是样式。剩下的就不多了。
解决方案:用于过滤器的参数,而非合法的着陆页
从战略上计划您的导航和URL结构对于解决重复的内容问题至关重要。
该过程的一部分包括了解拥有合法登录页面和允许访问者过滤结果的页面之间的区别。
然后,在为它们开发URL时一定要相应地对待它们。
着陆页(和规范网址)网址应如下所示:
- Site.com/shirts/long-leeve/
- Site.com/shirts/v-neck/
- Site.com/shirts/collared/
过滤后的结果URL看起来像这样:
- Site.com/shirts/long-sleeve/?size=small&color=red&display=12&sort=price
- Site.com/shirts/v-neck/?color=red
- Site.com/shirts/collared/?size=small&display=12&sort=price&color=red
正确构建URL后,您可以执行以下两项操作:
- 添加正确的规范标记(URL中“?”之前的所有字符)。
- 进入Google Search Console,让Google忽略所有此类参数。
如果您一贯只将参数用于过滤和排序内容,则不必担心会意外地告诉Google不要抓取有价值的参数……因为它们都不是。
但是因为规范标签只是一个信号,所以您必须完成第二步才能获得最佳结果。请记住,这只会影响Google。您必须对Bing执行相同的操作。
Pro Developer的技巧:搜索引擎通常会忽略URL中井号“#”右侧的所有内容。
如果您将其编程到任何参数之前的每个URL中,则不必担心规范只是一个临时解决方案:
- Site.com/shirts/long-sleeve/#?size=small&color=red&display=12&sort=price
- Site.com/shirts/v-neck/#?color=red
- Site.com/shirts/collared/#?size=small&display=12&sort=price&color=red
如果任何搜索引擎要访问上述URL,则它们只会索引URL的规范部分,而忽略其余部分。
问题:广告目标网页和A / B测试重复
营销人员开发大量类似内容的版本并不少见,无论是作为广告的目标网页还是用于A / B /多变量测试。
这通常可以为您提供一些不错的数据和反馈,但是如果这些页面打开供搜索引擎搜索和索引,则可能会造成重复的内容问题。
解决方案:NoIndex
更好的解决方案不是使用规范标签指向母版页,而是在每个页面上添加noindex元标记,以将它们完全排除在搜索引擎的索引之外。
通常,这些页面往往是孤立的,没有从站点内部直接链接到它们的页面。但这并不总是会使搜索引擎无法找到它们。
规范标记旨在将页面值和权限转移到主页面,但是由于这些页面不应收集任何值,因此最好将它们保留在索引之外。
当重复内容不是(大部分)问题时
SEO最常见的神话之一是重复的内容惩罚。
没有。至少不给汽油加油并让其空行驶是有罪的。
Google可能不会积极惩罚重复的内容,但这并不意味着不会因此而导致自然后果。
在没有罚款威胁的情况下,营销人员可以更加灵活地确定他们愿意承受的后果。
尽管我认为您应该积极消除(而不是临时解决)所有现场重复内容,但异地重复实际上可能创造的价值大于后果。
将有价值的内容重新发布到异地可以帮助您建立品牌知名度,而您自己发布则无法。这是因为许多异地发布商拥有更大的受众群体和更大的社会影响力。
在您自己的网站上发布的内容可能会引起数千人的关注,但在异地发布的内容可能会达到数十万。
许多发布者确实希望保留其发布内容的专有权,但有些发布者允许您在短暂的等待期后将其重新用于自己的网站。这样一来,您不仅可以获得更多展示机会,还可以通过稍后在您的网站上重新发布内容来建立自己的受众群体。
但是,为了使任何人都有效,需要限制这种类型的文章分发。如果您要将内容发布到其他数百个要重新发布的站点,则该内容的价值呈指数下降。
通常,它并不能增强您的品牌,因为愿意发布大量重复内容的网站一开始就没有什么价值。
无论如何,都要权衡在多个地方发布内容的利弊。
如果您在自己的网站上通过独特的内容进行大量品牌复制而获得的较小的授权价值,则应采取合理的重新发布策略。
但是那里的关键词是衡量的。您不希望成为只有重复内容的网站。那时,您开始削弱为品牌创造的价值。
通过了解重复内容的问题,解决方案以及某些情况下的价值,您可以开始消除不需要的重复并继续进行重复的过程。
最后,您要构建一个以强大而独特的内容而闻名的网站,然后使用该内容获得尽可能高的价值。
图片积分
特色图片:Paulo Bobita
后期图片:作者提供