元机器人标记并不是什么新鲜事。
其实很多时候,你可能需要用到一些meta robots标签,比如noarchive标签。
在大型站点上,管理版块可能会变得很有挑战性。
如此之多以至于您可能想要使用一些元机器人标签来控制 Google 如何查看、索引和完全忽略该页面。
让我们看一下noarchive 标签,看看它能做什么。
关于 Noarchive 标记
一些元标记可以帮助您确定您希望 Google 如何抓取或索引您的网页。
noarchive 标签关注的是是否有页面的缓存副本。
创建网页时,通常需要启用所有可能的选项。
但是,在网站的整个生命周期内,您可能希望限制页面的功能。
例如,出于某种原因您说您不希望 Google 缓存该页面(尤其是当您要更新它时)。
通过使用 noarchive 标签,您可以告诉 Google“我不想让您缓存这个”。
使用noarchive标签不会对搜索排名产生明显影响。
Google 的 John Mueller 证实了这一点:
No
p >
- © John (@JohnMu) 2017 年 8 月 29 日
如何创建 Noarchive 标签?
您可以使用以下代码片段:
或者,您可以使用 Google 特定的编码:
第一个实现适用于所有机器人。第二个适用于 Googlebot。
Google 缓存页面是好事吗?
这是可能的。
例如,即使您的网站已关闭,人们也可以访问您的页面。
Google 还提供了页面的“纯文本”版本,让您可以“查看”页面。
什么时候应该使用Noarchive标签?
时间敏感的内容和您不想分发给所有人的其他类型的内容应该存档。
这可以防止您的内容被 Google 完全缓存。
这些包括:
- 您不希望 Google 缓存的广告。
- 您不希望所有人看到的任何 PPC 着陆页。
- 您过去不想公开的内部文件。
- 您不希望缓存历史记录的任何其他敏感文档。
对于其中一些情况,您可能已经拥有传统上未编入索引的内容,或者 robots.txt 不允许该指令。
对于其他人来说,noarchive 标签可以成为您最好的朋友。
我会因为使用 Noarchive 而受到处罚吗?
没有。
过去,有些人担心网站隐藏真实内容可能是 Google 的危险信号。
不过,根据谷歌官方的说法,使用这个标签并没有什么问题,
这个标签只是去掉了页面的“缓存”链接。
Google 将继续为页面编制索引并显示代码段。
您还可以使用哪些其他标签?
我们上面讨论的标签并不是唯一可以用来限制爬虫活动的标签。
声明爬虫指令时可以使用许多其他标记。
这些基本指令并不是什么新鲜事,但是关于它们的最佳实践存在很多混淆。
我们想将此列表的其余部分归咎于这个令人困惑的部分。
这些标签有助于索引、跟踪、缓存和其他基本功能。
通过使用这些标签,您可以确定优先级并确保您希望编入索引的网站部分已编入索引。它们也非常适合排除您可能不想向所有人展示的内容。
当你想阻止索引时:Noindex
代码实现:
< p>如果使用得当,这个标签用于让搜索引擎知道他们不应该索引这个特定的页面。
如果您有只想为用户保留的部分内容(例如 PPC 广告或其他您可能不想编入索引的广告),您可以在这些页面上使用 noindex 标记。
允许搜索引擎索引页面:index
代码实现:
p > 这有一个问题:您不必使用标签。这是多余的。抓取工具的默认行为是抓取您的网站并将其编入索引!
当您的网站证明其价值时,他们会的。添加这样的标签只会增加冗余和不必要的代码膨胀。
让搜索引擎跟随你的链接
代码实现:
< p>此步骤将允许爬虫索引并跟踪页面上的链接。另外,以这种方式跟踪链接将传递所有重要的链接汁,这进一步增强了接收链接汁的页面。
当你不希望搜索引擎跟踪你的链接时
代码实现:
取消关注链接会将它们设置为不传递链接所有权或以其他方式提高链接将转到的页面的 PageRank。
在 PageRank 雕刻的时代,Follow/nofollow 被广泛使用,这就是为什么现在您会发现一些带有许多 nofollowed 链接的旧站点。
通过这种方式使用nofollow和following instructions,接收页面的PageRank可以得到适当的雕刻。
今天,这种做法被认为是垃圾邮件。你不应该使用 nofollow 除非你知道你在做什么,或者想像明天一样囤积 PageRank。
为什么要阻止特定页面接收所有重要的 PR?
nofollow 的新规则
似乎这还不够,Google 在今年早些时候引入了 nofollow 标签的新规则,这使事情变得更加复杂。
以前,如果需要,您可以简单地 nofollow 任何广告链接。
它们不传递值,Google 会忽略它们。
新规则现在创建新名称以区分出于广告原因的链接。
用户生成的内容也被赋予了新的标签。
如果用户生成的内容(例如博客评论和评论)违反了您网站的政策,现在可以将其标记为 nofollow。
您可以在搜索引擎日志中阅读有关这些新规则的更多信息。
Nofollow、Noarchive、Nocache,没有了!
控制爬虫并不复杂。
这可以帮助您控制您可能不想向所有人展示的内容,方法是提高爬虫区分您要抓取的内容和不想抓取的内容的能力。
控制爬虫并不难。
但是,可能很难评估您的整体策略以及下一步应该去哪里。
测试、学习和执行。
图片来源
特色图片:由作者创建,2020 年 4 月