创造性地使用 XPath 有助于提高大型网站的审计效率。将此视为 SEO 工具栏中的另一个工具。

您可以使用 XPath 解锁无数种可用于任何在线业务的信息。

使用 XPath 审计大型站点的一些流行方法包括:

  • 重定向映射。
  • 收集电子商务情报。
  • 审计博客。

在本指南中,我们将详细介绍如何进行这些审核。

什么是XPath?

简而言之,XPath 是一种用于导航 XML 文档并使用路径表达式识别指定元素的语法。

它用于使用 HTML DOM 结构查找页面上任何元素的确切位置。

我们可以使用 XPath 来帮助提取一些信息,例如 H1 页面标题、电子商务网站上的产品描述,或者实际上页面上可用的任何内容。

虽然这对很多人来说听起来很复杂,但实际上很简单!

如何在 Screaming Frog 中使用 XPath

在本指南中,我们将使用 Screaming Frog 来抓取网页。

Screaming Frog 提供自定义提取方法,例如 CSS 选择器和 XPath。

完全可以使用其他的方式来抓取网页,比如python。但是,Screaming Frog 方法只需要很少的编码知识。

(注意:我目前不隶属于 Screaming Frog,但我强烈建议使用他们的软件进行网页抓取。)

第 1 步:确定您的数据点

找出要提取的数据点。

例如,假设我们的搜索引擎期刊没有作者页面,而您想提取每篇文章的作者姓名。

您要做的是:

  • 右键单击作者姓名。
  • 选择检查。
  • 在“开发人员元素”面板中,您会看到您的元素突出显示。
  • 右键单击突出显示的 HTML 元素并转到“复制”并选择“复制 XPath”。

这个,您计算机的剪贴板将复制所需的 XPath。

第 2 步:设置自定义抓取

在这一步中,您需要打开 Sfroging Frog 并设置您要抓取的网站。在这种情况下,我将输入完整的搜索引擎日记 URL。

  • 进入配置>自定义>提取

  • 这将打开自定义提取配置窗口。这里有很多选项,但如果您只想提取文本,请将您的配置与下面的屏幕截图相匹配。

文章第 3 步:运行抓取和导出

此时,您应该已准备好运行抓取。您会注意到 Custom Fetch 是右侧倒数第二列。

在批量分析抓取时,将抓取导出为 Excel 格式是有意义的。这将允许您应用各种过滤器、数据透视表、图表,无论您想要什么。

XPath 可以帮助您扩展审计的 3 种创新方式

既然我们知道如何运行 XPath 爬网,那么可能性是无限的!

我们可以使用所有的答案,现在我们只需要找到正确的问题。

  • 审核的哪些方面可以自动化?
  • 您的内容孤岛中是否有可以提取出来用于审计的共同元素?
  • 页面上最重要的元素是什么?

您要解决的具体问题可能因行业或网站类型而异。以下是 XPath 可以简化您的 SEO 生活的一些独特情况。

1.将 XPath 与重定向映射结合使用

最近,我不得不重新设计一个需要新 URL 结构的网站。以前的页面将参数作为 URL 段而不是页面名称。

这使得创建包含数百页的重定向映射成为一场噩梦!

于是我心想:“我怎样才能轻松识别每个页面进行缩放?”

在分析了各种页面模板之后,我得出的结论是页面的实际标题看起来像 H1,但实际上只是一大块文本。这意味着我不能只从 Screaming Frog 获得标准的 H1 数据。

但是,XPaths 允许我复制每个页面标题的确切位置并将其提取到我的网络抓取报告中。

在这种情况下,我能够提取所有旧 URL 的页面标题,并通过 Excel 中的 VLOOKUP 函数将它们与新 URL 匹配。自动化大部分重定向映射对我有用。

与任何自动化工作一样,您可能必须执行一些抽查以确保准确性。

2.使用 XPath 审核电子商务网站

审核电子商务网站可能是更具挑战性的 SEO 审核类型之一。还有更多因素需要考虑,例如 JavaScript 渲染和其他动态元素。

有时,利益相关者需要临时进行产品级审查。有时这只涵盖产品类别,但有时它可能涵盖整个网站。

使用本文前面学习的XPath提取方法,我们可以提取所有类型的数据,包括:

  • 产品名称
  • 产品描述
  • 价格
  • 审计数据
  • 图片URL
  • 产品类别
  • 及更多
  • 这可以帮助您识别电子商务网站上可能缺少有价值信息的产品。

    Screaming Frog 最酷的一点是您可以提取多个数据点以进一步扩大您的审计范围。

    3.使用 XPath 管理博客

    这是使用 XPath 的更常见的方式。 Screaming Frog 允许您设置参数来抓取站点的特定子文件夹,例如博客。

    但是,使用 XPath,我们可以超越简单的元数据并获得有价值的见解,以帮助发现内容差距的机会。

    类别和标签

    SEO 专业人员使用 XPath 进行博客审核的最常见方法之一是抓取类别和标签。

    这很重要,因为它可以帮助我们将相关的博客归为一组,从而帮助我们识别内容蚕食和差距。

    通常,这是任何博客审查的第一步。

    关键字

    这一步更侧重于 Excel 和高级。其工作原理是您设置 XPath 提取以从每个博客中提取正文的副本。

    公平警告,这会显着增加您的抓取时间。

    无论何时将此爬网导出到 Excel,您都会在一个单元格中获得所有正文文本。我强烈建议禁用文本换行,否则电子表格看起来会很糟糕。

    接下来,在提取的正文副本右侧的列中,输入以下公式:

    =ISNUMBER(SEARCH("keyword",A1))

    < p > 在此公式中,A1 等于主副本的单元格。

    要扩大规模,您可以使“关键字”等于包含类别或标签的单元格。但是,您可以考虑添加一个多列关键字,以便更准确可靠地了解您博客的性能。

    此公式将显示 TRUE/FALSE 布尔值。您可以使用它来快速识别博客中的关键字机会和自相残杀。

    作者

    我们已经介绍了这个示例,但值得注意的是,这仍然是您文章中的一个重要元素。

    当您将博客导出数据与来自 Google Analytics 和 Search Console 的性能数据混合使用时,您可以开始确定哪些作者产生了最好的结果。

    为此,请按作者对博客进行排序并开始跟踪平均数据集,包括:

    • 展示次数 – Search Console
    • 点击次数 – 搜索控制台
    • 会议 – 分析
    • 跳出率 – 分析
    • 转化 – 分析
    • 辅助转化 – 分析

    分享你的创意 XPath 技巧

    你有一些涉及 XPath 的创意复习方法吗?在 Twitter 上分享这篇文章或标记我@seocounseling 让我知道我错过了什么!

    图片来源

    作者截屏,2019年10月