有多少这些类型的指令告诉搜索引擎机器人哪些页面和其他内容搜索引擎机器人将允许抓取和索引。最常见的是 robots.txt 文件和元机器人标签。
robots.txt 文件告诉搜索引擎抓取您网站的特定部分,无论是页面、子文件夹等。
这最终有助于通过告诉 Google您不想被优先编入索引的网站部分。
但请记住,搜索引擎机器人不需要遵守此文件。
另一个常用的指令是 meta robots 标签。这允许在页面级别进行索引控制。
元机器人标签可以包含以下值:
- 索引:允许搜索引擎将页面添加到它们的索引中。
- Noindex:阻止搜索引擎将页面添加到其索引中,并阻止它出现在特定搜索引擎的搜索结果中。
- Follow:指示搜索引擎跟随页面上的链接,以便爬虫可以找到其他页面
- Nofollow:指示搜索引擎不跟随页面上的链接。
- None:这是noindex、nofollow的快捷方式。
- 全部:这是索引的快捷方式,关注。
- Noimageindex:防止搜索引擎索引页面上的图像(但是,如果您从另一个站点链接到图像,您仍然可以使用 meta robots 标记来索引图像)。
- Noarchive:告诉搜索引擎不要显示页面的缓存版本。
- Nocache:这与 noarchive 标签相同,但特定于 Bingbot/MSNbot。
- Nosnippet:指示搜索引擎不要显示文本或视频片段。
- Notranslate:指示搜索引擎不要在 SERP 中显示页面的翻译。
- Unavailable_after:告诉搜索引擎特定的日期和时间它们不应在其索引中显示结果。
- Noyaca:指示 Yandex 爬虫机器人不要在结果中使用页面描述。
但是,还有另一个标签允许发出 noindex、nofollow 指令。
X-Robots-Tag 不同于 robots.txt 文件和 meta-robots 标签,因为 X-Robots-Tag 是 HTTP 标头的一部分,除特定元素外,它控制整个页面的索引。在页面上。
根据 Google 的说法:
“任何可以在机器人元标记中使用的指令也可以指定为 X-Robots-Tag。”
虽然您可以使用元机器人标签和 X-Robots 标签在 HTTP 响应的标头中设置与 robots.txt 相关的指令,但在某些情况下您可能希望使用 x-robots 标签.
例如,如果要屏蔽特定的图片或视频,可以使用 HTTP 响应方式。
从本质上讲,X-Robots-Tag 的强大之处在于它比元机器人标签更灵活。
也可以使用通用表达式,对非 HTML 文件执行爬网命令,并在更大的全局级别应用参数。
为了进一步解释所有这些指令之间的区别,将它们分类为它们所属的指令类型是有帮助的。这些是爬虫指令或索引器指令。
爬虫指令 | 索引器指令 |
Robots.txt – 使用 user-agent、allow、block 和 sitemap 指令来指定哪些搜索引擎机器人可以抓取,哪些站点不允许抓取。 | Meta Robots 标签 – 允许您指定和阻止搜索引擎在搜索结果中显示您网站上的特定页面。
Nofollow – 允许您指定不应传递权限或 PageRank 的链接 X-Robots-tag – 允许您控制指定文件类型的索引方式 td> |
X-Robots-Tag 的真实示例和使用
要阻止特定文件类型,理想的方法是将 X-Robots-Tag 添加到 Apache配置或 .htaccess 文件。
可以通过 .htaccess 文件将 X-Robots-Tag 添加到 Apache 服务器配置中的站点 HTTP 响应。
例如,假设我们希望搜索引擎不索引 .pdf 文件类型。 Apache 服务器上的配置如下所示:
在Nginx中,它看起来像这样:
在不同的场景下,假设我们要使用X-Robots-Tag来防止对图片文件进行索引,比如.jpg, .gif, .png等。示例如下:
了解这些指令的组合以及它们如何相互影响至关重要。
假设当爬虫机器人找到URL时,X-Robots-Tag和Meta Robots标签都会被找到。
如果 URL 被 robots.txt 屏蔽,某些索引和服务指令将不会被发现,也不会被遵循。
如果要遵循包含这些指令的 URL,则不能禁止抓取它们。
检查 X-Robots-Tag
有几种不同的方法可以检查您网站上的 X-Robots-Tag。
一种方法是通过 Screaming Frog。
一旦您的网站通过 Screaming Frog 运行,您可以导航到“指令”选项卡并查找“X-Robots-Tag”列,并查看您网站的哪些部分正在使用该标签,以及哪些具体指令。
还有有一些不同的插件,例如 Web Developer 插件,可让您确定是否正在使用 X-Robots-Tag。
您可以通过单击浏览器中的插件,然后导航到“查看响应标头”来查看正在使用的各种 HTTP 标头。
总结
有多种方法可以指示搜索引擎机器人不要抓取页面上的某些部分或某些资源。
了解每一个以及它们如何相互影响对于避免与 SEO 指令相关的任何主要陷阱至关重要。
图片来源
作者提供的特色图片和屏幕截图,2019 年 6 月