与 SEO 中的许多其他概念一样,TF-IDF 是一个备受争议的话题。

首先,您了解到它是在 Google 上对您的内容进行排名的灵丹妙药。

然后您会立即听说 TF-IDF 太老套了,不值得

真相通常在中间。

这篇文章将探讨为什么您不希望 TF-IDF 取代综合优化策略,以及将它用于 SEO 的真正好处。

TF-IDF:那是什么野兽?

人脑不需要任何数学运算就能知道我的文章是关于什么的。关于 TF-IDF,对吧?

但是,当机器评估相关性时(最重要的是,将其与几篇文章进行比较),我们需要一个数字表示来查看:

  • 文章 A 是关于 TF- IDF(相对于链接建设)。
  • 文章 A 比文章 B 更多关于 TF-IDF 的内容。

我们可以简单地统计关键字 TF-IDF 在每个文档中出现了多少次吗?

没有,所以我们显然会忽略文件大小。

我们可以比较关键词的数量和总字数吗?

这就是我们所说的关键词密度——一种过去被广泛使用的内容优化指标。

但是根据关键字密度,我认为“to”(而不是“TF-IDF”)这个词在这篇文章中最为突出。

是否可以针对某些词通常在演讲中更频繁这一事实调整我的计算?

这就是 TF-IDF 发挥作用的地方,让我们看看“TF-IDF”在这篇文章中的使用频率与其在网络上其他文档中的平均频率相比。

因此我们可以减少对所有常用词的关注,并针对特定内容区分非常具体的主题。

我的计算公式如下:

或者,简单地说(免责声明:我在这里故意过分简化以传达基本思想),这就是我们正在做的事情:

    < li>

    词频=(字数)/(文档总字数)

  • 反向文档频率=log(文档数)/(包含关键词的文档)

  • li>

当乘以逆文档频率时,常用词的词频较低,独特的主题识别词较高。

回到我们的例子,动词“to be”被用在每一篇英文文章中。但很少有文章提到“TF-IDF”、“关键字”、“内容”和我在本文中介绍的其他重要子主题。

因此,针对这些条款的 TF-IDF 越来越高,......瞧!机器知道我的文章是关于什么的。

通常,当我们需要机器识别大量文档的主题时,就会使用TF-IDF。例如,它已广泛用于数字图书馆的推荐系统。

Google 是否使用 TF-IDF 作为排名信号?

最短的答案是否定的。 "

TF-IDF 在 Google 的很多专利中都提到了搜索引擎可以用来去除停用词,也就是去除搜索查询和页面内容中的所有功能词:

但是使用这个机制识别和比较相关性。

只是因为,作为词法搜索机制的一个例子,TF-IDF 不能超越关键字。

最有可能使用 Google 与 Semantic 对比的搜索模型,它将关键字视为字符串,无法识别它们之间的语义关系。

换句话说,TF-IDF 本身并不是确定您网页位置的排名信号。

您不需要为您的内容中的每个关键字匹配预期的 TF-IDF 值。另外,最好不要试图说服您。

语义搜索和共现

> p>因此,谷歌已经转向语义搜索,试图匹配搜索查询的含义o 本地相关内容,而不是将查询关键字与页面上的相同关键字进行匹配。

事实上,这意味着 Google 不再计算关键字本身,而是开始使用周围上下文来计算共现次数以了解

例如,假设您遇到以下句子并且不知道鳟鱼是什么:

  • 鳟鱼富含 omega-3 脂肪酸。
  • 鳟鱼肉质细嫩,味道温和,略带坚果味。
  • 选择鳟鱼时,要注意橙子的清澈。

而你也会遇到以下情况。我想大多数读者都知道什么是三文鱼:

  • 三文鱼是西餐中很受欢迎的鱼类,与白葡萄酒搭配很好。
  • 嫩的三文鱼肉可以加入意大利面。
  • 鲑鱼皮是超级营养丰富的食物,所以保留它用于烹饪。

鳟鱼与 omega-3、果肉和意大利面等词一起出现的事实可能表明鳟鱼是一种有生命力的鱼,吃起来有点类似于鲑鱼。

基于这种对上下文的简单理解,谷歌能够构建一个复杂的词向量系统,进一步用于理解用户查询和内容相关性.

虽然我不是在谈论你,而且我应该尝试对整个向量系统进行逆向工程,但通过用更多的共现填充你的内容来提供更多相关信号似乎是合乎逻辑的(另外,某些情况研究表明它确实会影响 Google 排名)。

TF- IDF 如何帮助您的 SEO?

找到同时出现的术语是 TF-IDF 发挥作用的地方。

当然,我们无法像 Google 那样访问所有网页。但为什么我们需要那些?

要获得并发想法的完整列表,查看一堆页面(比如 20 到 30 页)就足够了。

美妙之处在于使用 TF-IDF 并不是火箭科学。您所要做的就是三个简单的步骤。

1.编写您的内容

我并不是在敦促您对您的内容使用 TF-IDF。

最后,即使页面排名很好并带来了所需的流量,不自然的文字也不会转换。

因此,首先,您坐下来写下您的内容计划中的内容。

2.插入 TF-IDF 工具

我见过的大多数工具的工作方式都相似。

您输入一个 URL 和您想要对其进行优化的关键字。然后,该工具会检查该关键字在 Google 上排名靠前的页面,解析其内容,为找到的所有术语计算 TF-IDF,并将您的内容统计数据与竞争对手的统计数据进行比较。

使用像 Seobility 这样的基本工具,您将获得一个关键字列表。

如果您使用 SEO PowerSuite 的 WebSite Auditor、Ryte 或 Text Tools,您还会得到一个关键短语列表(如果您对科学感兴趣,则可以得到 N-gram),这毫无疑问提供更多信息。 (披露:我在 SEO PowerSuite 工作。)

3.使用 TF-IDF 并发建议丰富您的内容

一些短语只是您内容中已有内容的同义词。

如果合适,试试看。

一些短语指向您尚未想到的新主题。

筛选想法并思考如何在您的内容中使用它们(不要沉迷于它们)。

用于关键字研究的 TF-IDF

一个小技巧。

从竞争对手的内容中选择使用最广泛的术语也可能会激发新的想法,用于您的关键字研究和内容管理,尤其是当您需要跳出框框的思维和灵感时。

结论

很多时候您会看到 TF-IDF 被用作点击诱饵 - 这些文章承诺该公式是“逆向工程 Google 的算法”或“打破 TF-IDF 神话”。

但是,我鼓励您按原样对待事物,并利用 TF-IDF 优化提供的机会。无需将您的整个 SEO 活动都押在上面。

图片来源

特色图片:由作者创建,2019 年 10 月
所有屏幕截图均由作者拍摄,2019 年 10 月