如果你递给某人一张白纸,只写下页面的标题,他们会理解标题的含义吗?他们可能对实际文件有清晰的认识吗?如果是这样,那么恭喜!你刚刚通过了页面标题的空白纸测试,因为你的标题是描述性的。

白纸测试 (BSoPT) 是 Ian Lurie 多年来一直在谈论的一个想法,最近一次是在他的新网站上。这是一项测试,看看您写的内容对从未接触过您的品牌或内容的人是否有意义。用伊恩的话来说:“写在空白页上的这段文字对陌生人来说有意义吗?”空白纸测试是关于没有上下文的清晰度。

但是,如果我们在机器而不是人身上执行 BSoPT 会怎样?我们的思想实验还适用吗?我同意。机器无法读取它,即使是像 Google 和 Bing 这样复杂的机器也无法读取。他们只能猜测我们内容的含义,这使得测试尤为重要。

我有 BSoPT 的替代版本,但对于机器而言:如果机器只能看到文档中出现的单词列表以及出现频率,它能否合理地猜测文档的含义?

Blank Paper Test Term Frequency

如果你递给某人一张白纸,并且唯一写在这张单词和频率表上的东西,他们就能猜出平均值吗?

关于磨刀的文章是一个很好的猜测。我从这个词频表中提取的文章是磨刀的入门读物。

如果表格中出现“step”和“how”怎么办?阅读的人会更有信心这篇文章是关于磨刀还是更少?他们能分辨出这篇文章是关于磨菜刀还是小折刀的?

如果我们不能根据文章使用的词很好地理解文章的意思,那么它就无法通过词频的 BSoPT。

BERT还能用词频吗?

早期搜索引擎采用的自然语言处理 (NLP) 方法使用词频和词共现的统计分析来确定页面的含义。他们忽略了内容中单词的顺序和词性,基本上将我们的页面视为单词袋。

我们用来优化这种 NLP 的工具会将我们内容的词频与竞争对手的词频进行比较,并告诉我们词的使用差距在哪里。假设,如果将这些词添加到内容中,我们的排名会更高,或者至少可以帮助搜索引擎更好地理解我们的内容。

这些工具还是有的:Market Muse、SEMRush、seobility、Ryte等都有一定的词频或者TD-IDF差距分析能力。我一直在使用一个名为 Online Text Comparator 的免费词频工具,效果很好。现在搜索引擎已经用像 BERT 这样的 NLP 方法得到了改进,它们还有用吗?我想是的,但这并不像更多的单词=更好的排名那么简单。

BERT 比一致的方法复杂得多。 BERT 会查看词序、词性以及出现在内容中的所有实体。它功能强大,可以训练做很多事情,包括问答和命名实体识别——比基本词频高级得多。

但是,BERT 仍然需要查看页面上出现的单词才能工作,而词频是该单词的基本摘要。现在,词的位置和词性更重要。我们不能把在差距分析中发现的词随便撒在页面上。

使用词频工具增强内容

为了让我们的内容对机器没有歧义,我们需要让它对用户没有歧义。减少我们写作中的歧义就是选择与我们正在写的主题相关的词。如果我们的写作使用了很多笼统的动词、代词和离题形容词​​,那么我们的内容不仅平淡无奇,而且难以理解。

考虑以下非特定语言的极端示例:

“找到合适的厨师刀的诀窍是在功能、质量和价格之间找到平衡点。它应该是由足够坚固的金属制成,可以保持其边缘相当长的时间。你应该有舒适的手柄,不会让你感到疲倦。你也不需要花很多钱。家庭厨师不需要花钱一把日本刀 350 美元。”

这个副本不是很好。它看起来几乎是机器生成的。我无法想象像这样写的全文会通过 BSoPT 的词频。

去掉一些停用词后,词频表是这样的:

现在,假设我们在几个排名靠前的“如何挑选厨师刀”的页面上使用词频工具,发现这些词性被频繁使用:

实体:blade, steel, fatigue, damascus steel, santoku, shun (brand)
动词:grip, chop
形容词:perfect , Hard, High Carbon

在我们的文案中加入这些词会产生明显更好的文本:

“找到完美厨师刀的诀窍是在功能、质量和价格之间取得适当的平衡。刀片应该由钢的硬度足以在重复使用后保持锋利的边缘。你应该有一个符合人体工程学的手柄,你可以舒适地握住它以防止疲劳增加你的切碎。你也不需要花很多钱。家庭厨师不需要 350 美元高碳大马士革钢砂oku 来自顺德。”

升级后的文本将更易于机器排序,也更便于用户阅读。使用与您的主题相关的术语也很好。

展望NLP的未来

是否可以通过在针对BERT或其他NLP算法优化的白纸上进行测试来改进我们的内容?不,我不这么认为。我认为我们可以添加一些特殊的词来使用 BERT 神奇地排名更高。我认为这是确保用户和机器都能清楚地理解我们的内容的一种方式。

我预测我们正在接近 NLP 优化的想法被认为是荒谬的地步。也许在十年内,由于技术的进步,为用户编写和为机器编写将是一回事。但即便如此,我们仍然必须确保我们的内容有意义。空白纸测试仍然是一个很好的起点。