Google的 指数覆盖率报告 绝对很棒,因为它可以使SEO更加清晰地了解Google的抓取和编制索引决策。自推出以来,我们几乎每天都在Go Fish Digital使用它来为客户大规模诊断技术问题。
在报告中,有许多不同的“状态”可为网站管理员提供有关Google如何处理其网站内容的信息。尽管许多状态提供了有关Google的爬网和索引编制决策的背景信息,但仍不清楚:“已爬网-当前未建立索引”。
自从看到报告为“已抓取-当前未建立索引”状态以来,我们已经听到一些网站所有者在询问其含义。在代理机构工作的好处之一是能够掌握大量数据,并且由于我们已经在多个帐户中看到了此消息,因此我们开始从报告的URL中了解趋势。
Google的定义
让我们从官方定义开始。根据 Google的官方文件,此状态表示:“页面已被Google抓取,但未编入索引。将来可能会或可能不会将其编入索引;无需重新提交该URL即可进行抓取。”
因此,基本上我们知道的是:
- Google可以访问该页面
- Google花时间抓取页面
- 搜寻后,Google决定不将其包含在索引中
理解这种状态的关键是思考Google为何会“有意识地”决定反对建立索引的原因。我们知道Google找不到页面很麻烦,但是由于某种原因,它觉得用户不会从页面中受益。
这可能非常令人沮丧,因为您可能不知道为什么您的内容没有被编入索引。下面,我将详细说明我们团队看到的一些最常见的原因,以解释这种神秘状态可能会影响您的网站的原因。
1.误报
优先级:低
我们的第一步是始终对“已爬网-当前未建立索引”部分中标记的URL进行几次抽查,以建立索引。找到被报告为排除在外但最终被归入Google索引的URL并不少见。
例如,以下网址在我们网站的报告中被标记:https://gofishdigital.com/meetup/
但是,使用网站搜索运算符时,我们可以看到该URL实际上包含在Google的索引中。您可以通过在URL之前附加文本“ site:”来实现。
如果您看到在此状态下报告的网址,建议您首先使用网站搜索运算符来确定该网址是否已建立索引。有时,这些结果都是误报。
解决方案:什么都不做!你很厉害。
2. RSS feed URL
优先级:低
这是我们看到的最常见的例子之一。如果您的网站使用RSS Feed,则可能会找到出现在Google的“已抓取-当前未建立索引”报告中的URL。很多时候,这些URL的末尾会附加“ / feed /”字符串。它们可以这样显示在报告中:
Google找到了从首页链接的这些RSS feed URL。它们通常会使用“ rel = alternate”元素进行链接。 WordPress插件(例如Yoast)可以自动生成这些URL。
解决方案:什么都不做!你很厉害。
谷歌很可能有选择地选择不对这些URL编制索引。如果导航到RSS feed URL,则会看到一个XML文档,如下所示:
尽管此XML文档可用于RSS feed,但Google无需将其包含在索引中。由于内容并非针对用户,因此这将提供非常差的体验。
3.分页网址
优先级:低
“抓取-当前未编入索引”排除的另一个极为常见的原因是分页。我们经常会在此报告中看到大量的分页URL。在这里,我们可以看到在一个非常大型的电子商务网站上出现了一些分页的URL:
解决方案:什么都不做!你很厉害。
Google将需要通过分页URL进行爬网以获得网站的完整爬网。这是其获取内容的途径,例如更深的类别页面或产品描述页面。但是,尽管Google使用分页作为访问内容的途径,但不一定需要索引分页的URL本身。
如果有的话,请确保您不做任何事情来影响单个分页的抓取。确保所有分页均包含 自我参照规范标签 并且没有任何“ nofollow”标签。这种分页是Google抓取您网站上其他关键页面的一种途径,因此您肯定希望Google继续抓取它。
4.过期产品
优先级:中
在对报告中列出的各个页面进行抽查时,我们在客户中看到的一个常见问题是URL包含的文本标记为“过期”或“缺货”产品。尤其是在电子商务网站上,Google似乎检查以查看特定产品的可用性。如果确定产品不可用,它将继续从索引中排除该产品。
从用户体验的角度讲,这是有道理的,因为Google可能不想在用户无法购买的索引中包含内容。
但是,如果您的站点上实际提供了这些产品,则可能会导致许多SEO机会错失。通过将页面从索引中排除,您的内容根本没有机会排名。
此外,Google不仅会检查页面上的可见内容。在某些情况下,我们在可见内容中未发现该产品不可用的指示。但是,在检查结构化数据时,我们可以看到 “可用性”属性 设置为“ OutOfStock”。
Google似乎从可见内容和结构化数据中获取了有关特定产品可用性的线索。因此,请务必同时检查内容和架构。
解决方案:检查库存可用性。
如果在此报告中列出了实际可用的产品,则需要检查所有可能被错误地列为不可用的产品。对您的网站进行爬网并使用 自定义提取工具,例如Screaming Frog’s 从产品页面抓取数据。
例如,如果您想大规模查看架构设置为“ OutOfStock”的所有URL,则可以将“ Regex”设置为:“ availability”:
这个: “ class =” redactor-autoparser-object“> http://schema.org/OutOfStock” 应该会自动使用此属性抓取所有网址:
您可以使用Excel或商业智能工具导出此列表并与库存数据进行交叉引用。这应该可以使您迅速找到站点上的结构化数据与实际可用产品之间的差异。可以重复相同的过程来查找可见内容表明产品已过期的实例。
5. 301重定向
优先级:中
我们看到的一种有趣的示例是重定向页面的目标网址。通常,我们会看到Google在搜寻目标网址,但未将其包含在索引中。但是,在查看SERP时,我们发现Google正在为重定向URL编制索引。由于重定向URL是被索引的URL,因此目标URL被扔到“已爬网-当前未索引”报告中。
这里的问题是Google可能尚未识别重定向。结果,它将目标URL视为“重复”,因为它仍在索引重定向URL。
解决方案:创建一个临时sitemap.xml。
如果这是在大量网址上发生的,则值得采取步骤向Google发送更强的合并信号。此问题可能表明Google无法及时识别您的重定向,从而导致内容信息不统一。
一种选择是设置“临时站点地图”。您可以创建此站点地图来加快对这些重定向URL的爬网。这是一个策略 约翰·穆勒(John Mueller)以前曾建议。
要创建重定向,您将需要对过去创建的重定向进行反向工程:
- 从“已抓取-当前未建立索引”报告中导出所有URL。
- 在Excel中将它们与以前设置的重定向进行匹配。
- 在“已抓取-当前未建立索引”存储桶中找到所有具有目标URL的重定向。
- 使用Screaming Frog创建这些URL的静态sitemap.xml。
- 上载站点地图,并在Search Console中监视“已抓取-当前未建立索引”报告。
Google的目标是使Google可以比其他方式更频繁地抓取临时sitemap.xml中的URL。这将导致更快地合并这些重定向。
6.内容薄
优先级:中
有时,我们会发现此报告中包含的URL内容很少。这些页面可能具有正确设置的所有技术元素,甚至可能已在内部正确链接,但是,当Google进入这些URL时,页面上的实际内容很少。下面是一个产品类别页面的示例,其中很少有唯一文本:
该产品列表页被标记为“已爬网-当前未编制索引”。这可能是由于页面上的内容太薄。
该页面可能太薄而无法让Google认为它有用,或者内容太少而被Google认为是另一页面的副本。结果是Google从索引中删除了内容。
这是另一个示例:Google能够在Go Fish Digital网站(如上所示)上搜寻推荐组件页面。虽然此内容是我们网站独有的内容,但Google可能不相信单句推荐书应该单独作为可索引页面。
由于缺乏质量,谷歌再次做出行政决定,将页面从索引中排除。
解决方案:添加更多内容或调整索引信号。
下一步将取决于对这些页面建立索引的重要性。
如果您认为该页面一定包含在索引中,请考虑添加其他内容。这将帮助Google看到该页面,从而为用户提供更好的体验。
如果您不需要为所要查找的内容建立索引,那么更大的问题就在于您是否应该采取其他步骤来强烈暗示不应将该内容编入索引。 “已抓取-当前未编入索引”报告表明该内容符合出现在Google索引中的条件,但Google选择不包含该内容。
可能还有其他一些低质量的页面,而Google并未对其应用此逻辑。您可以执行常规的“站点:”搜索以找到符合与上述示例相同的条件的索引内容。如果您发现索引中包含大量此类页面,则可能需要考虑采取更强有力的措施来确保将这些页面从索引中删除,例如“ noindex”标记,404错误,或者将其从您的索引中删除内部链接结构完全。
7.重复的内容
优先级:高
在众多客户中评估此排除条件时,这是我们看到的最高优先级。如果Google认为您的内容重复,它可能会抓取内容,但选择不将其包含在索引中。这是Google避免SERP重复的一种方式。通过从索引中删除重复的内容,Google可以确保用户拥有更多种类的唯一页面来与之交互。有时,报告会将这些URL标记为“重复”状态(“重复,Google选择了与用户不同的规范”)。然而,这并非总是如此。
这是一个高度优先的问题,尤其是在许多电子商务网站上。诸如产品描述页面之类的关键页面通常包含与整个Web上许多其他结果相同或相似的产品描述。如果Google在内部或外部都认为它们与其他页面过于相似,则可能会将它们全部排除在索引之外。
解决方案:将唯一的元素添加到重复的内容。
如果您认为这种情况适用于您的网站,请按照以下方法进行测试:
- 摘录潜在的重复文本,并将其粘贴到Google中。
- 在SERP URL中,将以下字符串追加到末尾:“&num = 100”。这将显示前100个结果。
- 使用浏览器的“查找”功能查看您的结果是否出现在前100个结果中。如果不是这样,您的结果可能会从索引中过滤掉。
- 返回SERP URL,并将以下字符串追加到末尾:“&filter = 0”。这应该显示Google未过滤的结果(谢谢, 帕特里克·斯托克斯(Patrick Stox),为小费)。
- 使用“查找”功能搜索您的URL。如果您现在看到页面,则表明您的内容已从索引中过滤掉。
- 对一些URL重复此过程,这些URL可能具有重复或非常相似的内容,您在“已抓取-当前未建立索引”报告中看到这些内容。
如果您持续看到网址从索引中被过滤掉,则需要采取措施使您的内容更加独特。
虽然没有一个万能的标准可以实现这一目标,但这里有一些选择:
- 重写内容,使其在高优先级页面上更加独特。
- 使用动态属性将独特的内容自动注入到页面上。
- 删除大量不必要的样板内容。模板文本多于唯一文本的页面可能会被重复读取。
- 如果您的网站依赖于用户生成的内容,请告知贡献者所有提供的内容都应该是唯一的。这可能有助于防止提供者在多个页面或域中使用相同内容的情况。
8.面向私人的内容
优先级:高
在某些情况下,Google的抓取工具可以访问他们不应该访问的内容。如果Google找到开发人员环境,则可以在报告中包含这些URL。我们甚至看到了Google抓取为JIRA票证设置的特定客户子域的示例。这引起了网站的爆炸性爬网,该站点集中于不应考虑用于索引的URL。
这里的问题是Google对网站的抓取没有重点,并且花了很多时间抓取(并可能将其编入索引)不适合搜索者的URL。这可能会对网站的抓取预算产生巨大影响。
解决方案:调整您的爬网和索引编制计划。
该解决方案将完全取决于情况和Google能够访问的内容。通常,您要做的第一件事就是确定Google如何发现这些面向私人的网址,尤其是通过内部链接结构来查找时。
从主要子域的主页开始爬网,并查看Screaming Frog是否可以通过标准爬网访问任何不需要的子域。如果是这样,可以肯定地说Googlebot可能正在寻找完全相同的途径。您需要删除与此内容的任何内部链接,以切断Google的访问权限。
下一步是检查应排除的URL的索引状态。 Google是否已将所有这些都充分排除在索引之外,还是有些人被索引夹住了?如果Google没有为大量此类内容编制索引,则您可以考虑调整robots.txt文件以立即阻止抓取。如果没有,则“ noindex”标签,规范和受密码保护的页面都在桌子上。
案例研究:重复用户生成的内容
对于一个实际示例,这是我们在客户端站点上诊断问题的实例。该客户端类似于电子商务站点,因为它们的许多内容由产品描述页面组成。但是,这些产品描述页面都是用户生成的内容。
本质上,允许第三方在此站点上创建列表。但是,第三方经常在其页面上添加非常简短的描述,从而导致内容稀疏。经常发生的问题是这些用户生成的产品描述页面被“已抓取-当前未建立索引”报告所捕获。这导致错过SEO机会,因为能够生成自然流量的页面被完全排除在索引之外。
通过上述过程,我们发现客户的产品描述页面在独特内容方面非常薄。被排除的页面似乎只有一段或更少的唯一文本。此外,页面上的大部分内容是所有这些页面类型中都存在的模板化文本。由于页面上唯一的内容很少,因此模板化的内容可能导致Google将这些页面视为重复项。结果是Google以“已抓取-当前未建立索引”状态从索引中排除了这些页面。
为了解决这些问题,我们与客户合作,确定每个产品描述页面上不需要存在哪些模板内容。我们能够从数千个URL中删除不必要的模板内容。随着Google开始认为每个页面更加独特,这导致“已爬网-当前未建立索引”页面的显着减少。
结论
希望这可以帮助搜索营销人员更好地理解“索引覆盖率”报告中神秘的“已爬网-当前未建立索引”状态。当然,Google可能会选择许多其他原因来对此类URL进行分类,但这是迄今为止我们与客户见过的最常见的实例。
总体而言,“索引覆盖率”报告是Search Console中功能最强大的工具之一。我会极力鼓励搜索营销人员熟悉数据和报告,因为我们通常会发现次优的抓取和索引行为,尤其是在大型网站上。如果您在“已抓取-当前未建立索引”报告中看到了其他网址示例,请在评论中告诉我!