WordPress 宣布已经进行了一项重要更改,这将阻止搜索引擎为该站点编制索引。此更改放弃了传统的 Robots.txt 解决方案,转而采用机器人元标记方法。此更改符合阻止 Google 的通常意图。这是为了防止被阻止的网页出现在 Google 的搜索结果中。

这是 WordPress 将使用的机器人元标记:

阻止 Google 编入索引

使用 Robots.txt 来防止站点被“编入索引”长期以来一直是标准做法。

“索引”一词表示 GoogleBot 将抓取网站。通过使用 Robots.txt 阻止,您可以阻止 Google 下载指定的网页,假设 Google 无法在搜索结果中显示您的网页。

但是 robots.txt 指令只是阻止 Google 抓取该页面。如果 Google 可以发现该 URL,Google 仍然可以将其添加到索引中。

因此,为了防止网站出现在索引中,发布商会阻止 Google 将网页“编入索引”。这不能始终如一地工作。

WordPress 5.3 实际上会阻止索引

WordPress 采用 Robots.txt 方法。但是在 5.3 版本中情况发生了变化。

当发布商当前选择“阻止搜索引擎将此站点编入索引”时,它会向站点的 robots.txt 添加一个条目,以防止 Google 抓取该站点。

从 WordPress 5.3 开始,WordPress 将采用更可靠的机器人元标记方法来阻止网站索引。

此更改将影响“阻止搜索引擎索引此站点”设置。

此更改是一项改进。 WordPress 发布者可以更加安全,因为他们知道被阻止的页面不会出现在 Google 的搜索结果中。

WordPress 5.3变更公告截图。为什么 WordPress 使用 Robots.txt?

WordPress 依靠 Robots.txt 来防止网站被索引,因为每个人都不会在 Google 的搜索结果中显示页面。这是标准做法。

但是,即使大家都这样做了,前面已经说明了,也是不靠谱的方法。

“索引”这个词有两个意思:

  1. 索引就是爬行的意思,就像Googlebot访问和下载网页一样。
  2. 索引还可以表示将网页添加到 Google 的网页数据库(称为索引)。

阻止谷歌“索引”一个网页会阻止它看到该网页,但谷歌仍然可以索引该网页并将其添加到谷歌的索引中。合理的?

Robots.txt 与 Robots 元标记的对比

将页面排除在 Google 的索引之外并不是 Robots.txt 解决方案的目的。这样做是机器人元标记的工作。

因此,很高兴看到 WordPress 将机器人元标记作为防止页面出现在搜索引擎中的解决方案。

WordPress 5.3 计划于 2019 年 11 月发布。

阅读 WordPress 公告:

防止搜索引擎索引站点更改

阅读 Google 的权威文档

  1. Robots Meta Tags 和 X-Robots-Tag HTTP 标头规范
  2. 使用“noindex”防止搜索索引