就是我,还是“元机器人标签”和“ robots.txt”一词听起来像施瓦辛格在《终结者2》中所说的一样?
这就是我开始从事SEO的原因之一-当时我的技能似乎是未来派的,但绝对是技巧性的。
希望本文能减少您的元机器人标签和robots.txt文件的设置。让我们开始吧。
元机器人标签与Robots.txt
在深入了解meta robots标签和robots.txt文件的基础知识之前,重要的是要知道在SEO中,没有哪一方比另一方更好。
Robots.txt文件可指导抓取工具了解整个网站。
虽然元机器人标签进入了特定页面的本质。
我更喜欢将meta robots标签用于其他SEO专业人员可能仅使用robots.txt文件的简单性的许多事情。
没有正确或错误的答案。根据您的经验,这是个人喜好。
什么是Robots.txt?
robots.txt文件 告诉抓取工具应抓取的内容。
它是机器人排除协议(REP)的一部分。
Googlebot是爬虫的示例。
Google部署了Googlebot来抓取网站并在该网站上记录信息,以了解如何在Google的搜索结果中对该网站进行排名。
您可以通过在网址后添加/robots.txt来找到任何网站的robots.txt文件,如下所示:
www.mywebsite.com/robots.txt
这是一个基本的,新鲜的robots.txt文件,如下所示:
用户代理后面的星号*告诉抓取工具robots.txt文件适用于所有访问该网站的漫游器。
“ Disallow”(禁止)后的斜线/指示机器人不要转到网站上的任何页面。
这是一个 例 Moz的robots.txt文件。
您可以看到他们正在使用用户代理和指令告诉爬网程序哪些页面要爬网。一会儿我会深入探讨。
为什么Robots.txt很重要?
我无法告诉您在迁移网站或启动新网站后有多少客户来问我:为什么工作几个月后我的网站排名没有上升?
我说60%的原因是robots.txt文件未正确更新。
意思是,您的robots.txt文件仍然如下所示:
这将阻止所有网络爬虫访问您的网站。
robots.txt很重要的另一个原因是Google将其称为 抓取预算。
Google声明:
“ Googlebot旨在成为网络的良好公民。抓取是其首要任务,同时要确保它不会降低访问该网站的用户的体验。我们将此称为“抓取速度限制”,它限制了给定站点的最大抓取速度。
简而言之,这表示Googlebot可以用来抓取该网站的并行并行连接数,以及两次获取之间必须等待的时间。”
因此,如果您不想让Google抓取具有低质量页面的大型网站,则可以让Google在robots.txt文件中“禁止”它们。
这样可以节省您的抓取预算,仅抓取您希望Google为您排名的高质量页面。
robots.txt文件没有严格的规则……但是。
谷歌 宣布 于2019年7月提出一项提案,以开始实施某些标准,但目前,我正在遵循过去几年中的最佳做法。
Robots.txt基础知识
如何使用Robots.txt
使用robots.txt对于SEO成功至关重要。
但是,如果不了解它的工作原理,可能会导致您对为什么自己没有排名的问题head之以鼻。
搜索引擎将根据您使用指令和表达式在robots.txt文件中告诉他们的内容来对您的网站进行爬网和编制索引。
以下是 常见的robots.txt指令 你应该知道:
用户代理:*-这是robots.txt文件中的第一行,用于向抓取工具说明您希望他们在您的网站上进行抓取的规则。星号告知所有蜘蛛。
用户代理:Googlebot-仅告诉您要Google的蜘蛛抓取的内容。
不允许:/-这告诉所有搜寻器不要搜寻整个站点。
禁止:—告诉所有搜寻器搜寻整个网站。
不允许:/ staging /-这告诉所有搜寻器忽略您的登台站点。
禁止:/ ebooks / * .pdf-告诉抓取工具忽略所有可能导致重复内容问题的PDF格式。
用户代理:Googlebot
不允许:/ images /-仅告诉Googlebot搜寻器忽略您网站上的所有图像。
* —这被视为代表任何字符序列的通配符。
$ —用于匹配URL的末尾。
要创建robots.txt文件,我使用 WordPress的Yoast。它已经与我网站上的其他SEO功能集成在一起。
但是,在您开始之前 创建您的robots.txt文件,请记住以下一些基本知识:
- 正确设置robots.txt的格式。 SEMrush做的很棒 robots.txt的示例 应该正确格式化。您会看到结构遵循以下模式:用户代理→禁止→允许→主机→站点地图。这使搜索引擎蜘蛛可以按正确的顺序访问类别和网页。
- 确保将要“允许:”或“禁止:”的每个URL放在单独的行中 百思买 在下面做。并且,请勿以空格分隔。
- 像WebCEO一样,始终使用小写字母命名您的robots.txt。
- 除*和$之外,请勿使用任何特殊字符。其他字符无法识别。
- 为不同的子域创建单独的robots.txt文件。例如,“ hubspot.com”和“ blog.hubspot.com”具有单独的文件,并且都具有不同的robots.txt文件。
- 使用#将注释保留在robots.txt文件中。抓取工具不使用#字符来表示行 就像我在这里使用此robots.txt文件一样。
- 如果robots.txt文件中不允许使用页面,则链接权限不会通过。
- 请勿使用robots.txt保护或阻止敏感数据。
用Robots.txt隐藏什么
Robots.txt文件通常用于从SERP中排除特定的目录,类别或页面。
您可以使用“ disallow”指令排除。
以下是我使用robots.txt文件隐藏的一些常见页面:
- 具有重复内容的页面(通常是易于打印的内容)
- 分页页面
- 动态产品和服务页面
- 帐户页面
- 管理页面
- 购物车
- 聊天室
- 谢谢页面
这对于使用Macy’s参数的电子商务网站非常有用。
而且,您可以在这里看到我如何不允许感谢页面。
重要的是要知道,并非所有的抓取工具都会遵循您的robots.txt文件。
错误的漫游器可以完全忽略您的robots.txt文件,因此请确保您不在敏感页面上保留敏感数据。
常见的Robots.txt错误
在管理robots.txt文件超过10年之后,这是我看到的一些常见错误:
错误1:文件名包含大写字母
唯一可能的文件名是robots.txt,也不是Robots.txt或ROBOTS.TXT。
坚持小写,总是涉及到SEO。
错误2:未在主目录中放置Robots.Txt文件
如果您想找到robots.txt文件,则必须将其放置在网站的主目录中。
错误
www.mysite.com/tshirts/robots.txt
正确
www.mysite.com/robots.txt
错误3:格式错误的用户代理
错误
禁止:Googlebot
正确
用户代理:Googlebot
不允许: /
错误四:在一“ Disallow”行中提及多个目录
错误
禁止:/ css / / cgi-bin / / images /
正确
禁止:/ css /
禁止:/ cgi-bin /
禁止:/ images /
错误5:“用户代理”中的空行
错误
用户代理:
不允许:
正确
用户代理: *
不允许:
错误6:在主机指令中镜像网站和网址
在提及“主机”指令时请务必小心,以使搜索引擎正确理解您的身份:
错误
用户代理:Googlebot
禁止:/ cgi-bin
正确
用户代理:Googlebot
禁止:/ cgi-bin
主持人:www.site.com
如果您的站点具有https,则正确的选项是:
用户代理:Googlebot
禁止:/ cgi-bin
主持人:https://www.site.com
错误7:列出目录中的所有文件
错误
用户代理: *
禁止:/pajamas/flannel.html
禁止:/pajamas/corduroy.html
禁止:/pajamas/cashmere.html
正确
用户代理: *
不允许:/睡衣/
不允许:/衬衫/
错误#8:禁止使用说明
必须提供禁止说明,以便搜索引擎机器人了解您的意图。
错误
用户代理:Googlebot
主持人:www.mysite.com
正确
用户代理:Googlebot
不允许:
主持人:www.mysite.com
错误9:阻止您的整个网站
错误
用户代理:Googlebot
不允许: /
正确
用户代理:Googlebot
不允许:
错误10:在*部分中使用不同的指令
错误
用户代理: *
禁止:/ css /
主持人:www.example.com
正确
用户代理: *
禁止:/ css /
错误11:错误的HTTP标头
错误
内容类型:text / html
正确
内容类型:文本/纯文本
错误12:没有站点地图
始终将站点地图放在robots.txt文件的底部。
错误
正确
错误13:使用Noindex
谷歌在2019年宣布它将 不再承认noindex指令 用于robots.txt文件中。
因此,请改用我下面讨论的meta robots标签。
错误
正确
错误#14:在Robots.Txt文件中禁止页面,但仍链接到该页面
如果您禁止robots.txt文件中的页面,则Google仍会抓取该页面 如果您有指向它的内部链接。
您需要删除蜘蛛的那些链接才能完全停止对该页面的爬网。
如果您不确定,可以在Google Search Console覆盖率报告中查看哪些页面已被索引。
您应该会看到以下内容:
而且,你可以 使用Google的robots.txt测试工具。
但是,如果您使用的是Google的移动设备适合性测试工具,则它不会遵循robots.txt文件中的规则。
什么是Meta Robots标签?
Meta robots标签(也称为meta robots指令)是HTML代码段,用于告诉搜索引擎抓取工具如何抓取和索引您网站上的页面。
元漫游器标签已添加到
网页部分。这是一个例子:
meta机器人标签由两部分组成。
标签的第一部分是name =’’’。
您可以在此处识别用户代理。例如,“ Googlebot”。
标签的第二部分是content =’。您在这里告诉机器人您想要他们做什么。
元机器人标记的类型
元机器人标签具有 两种标签:
- 元机器人标记。
- X-robots-tag。
类型1:元机器人代码
SEO营销人员通常使用元机器人标签。
它使您可以告诉用户代理(例如Googlebot)抓取特定区域。
这是一个例子:
此meta robots标签告诉Google的抓取工具Googlebot不要在搜索引擎中为该页面编制索引,也不要跟踪任何反向链接。
因此,此页面不会成为SERP的一部分。
我将使用此meta robots标签作为感谢页面。
这是一个 例 下载电子书后显示的感谢页面。
现在,如果您查看后端代码,您会看到它显示noindex和nofollow。
如果您对不同的搜索用户代理使用不同的meta robots标签指令,则需要为每个机器人使用单独的标签。
请勿将meta robots标签放置在
部分。 Glenn Gabe告诉你为什么 这个案例研究。类型2:X-robots-tag
的 X机器人标签 允许您执行与meta robots标记相同的操作,但是在HTTP响应的标头中。
本质上,它比meta robots标记提供了更多功能。
但是,您将需要访问.php,.htaccess或服务器文件。
例如,如果要阻止图像或视频,而不是整个页面,则应使用x-robots-tag。
元机器人标记参数
在代码中有多种使用meta robots标签指令的方法。但是,首先,您需要了解这些指令是什么以及它们的作用。
以下是meta robots标签指令的细分:
-
全部–索引和内容没有限制。默认情况下使用此伪指令。它对搜索引擎的工作没有影响。接下来,我将其用作索引的捷径。
-
index –允许搜索引擎在其搜索结果中将该页面编入索引。这是默认值。您无需将此添加到页面。
-
noindex –从搜索引擎索引和搜索结果中删除页面。这意味着搜索者将找不到您的站点或单击。
-
关注–允许搜索引擎关注该页面上的内部和外部反向链接。
-
nofollow –不允许遵循内部和外部反向链接。这意味着这些链接不会通过链接资产。
-
none –与noindex和nofollow元标记相同。
-
noarchive –不要在SERP中显示“保存的副本”链接。
-
nosnippet –不要在SERP中显示此页面的扩展描述版本。
-
notranslate –不要在SERP中提供此页面的翻译。
-
noimageindex –不索引页面上的图像。
-
unavailable_after: [RFC-850 date/time] –在指定的日期/时间之后,请勿在SERP中显示此页面。使用RFC 850格式。
-
max-snippet –为元描述中的字符数确定一个最大数目。
-
max-video-preview-确定视频预览的秒数。
-
max-image-preview –确定图像预览的最大尺寸。
有时,不同的搜索引擎会接受不同的元标记参数。这是一个细分:
值 | 谷歌 | ing | Yandex |
指数 | 是 | 是 | 是 |
无索引 | 是 | 是 | 是 |
没有 | 是 | 怀疑 | 是 |
无图像索引 | 是 | 没有 | 没有 |
跟随 | 是 | 怀疑 | 是 |
Nofollow | 是 | 是 | 是 |
存档 | 是 | 是 | 是 |
片段 | 是 | 没有 | 没有 |
不翻译 | 是 | 没有 | 没有 |
unavailable_after | 是 | 没有 | 没有 |
如何使用Meta Robots标签
如果您使用的是WordPress网站,则可以使用许多插件选项来定制元机器人标签。
我更喜欢使用Yoast。它是适用于WordPress的多合一SEO插件,具有许多功能。
但是,还有 元标签管理器 插件和 GA Meta标签 插入。
我推荐Joomla用户 EFSEO 和 标签元。
无论您的网站是基于什么构建的,以下是使用元机器人标签的三个技巧:
-
使其区分大小写。搜索引擎可以识别大小写的属性,值和参数。我建议您坚持使用小写字母以提高代码的可读性。另外,如果您是SEO营销商,最好养成使用小写字母的习惯。
-
避免多次 标签。使用多个元标记将导致代码冲突。在您的中使用多个值 标签,如下所示: 。
-
不要使用有冲突的元标记,以避免索引错误。例如,如果您有多个带有这样的元标记的代码行 和这个 ,仅考虑“ nofollow”。这是因为机器人将限制值放在首位。
Robots.txt和元机器人标签一起工作
当我在客户的网站上工作时看到的最大错误之一是,robots.txt文件与您在元漫游器标签中所说的不匹配。
例如,robots.txt文件将页面隐藏在索引中,但是meta robots标签却相反。
还记得我上面显示的Leadfeeder中的示例吗?
因此,您会注意到 这个谢谢页面 在robots.txt文件中以及使用noindex,nofollow的meta robots标签是不允许的。
根据我的经验,Google优先考虑robots.txt文件禁止的内容。
但是,您可以通过明确告诉搜索引擎哪些索引应该索引,哪些索引不应该,来消除meta robots标签和robots.txt之间的不符之处。
最后的想法
如果您仍然想起在脱衣舞厅购买大片电影的日子,那么使用robots.txt或meta标签的想法似乎仍然不胜枚举。
但是,如果您已经疯狂观看了“陌生事物”,那就欢迎未来。
希望本指南能对robots.txt和meta标签的基础知识有更深入的了解。如果您希望阅读完这篇文章后希望机器人随身携带喷气背包并进行时间旅行,对不起。
图片积分
特色图片:Paulo Bobita