关于新的 Google 算法更新有很多炒作和错误信息。 BERT到底是什么?它是如何工作的 为什么它会对我们作为 SEO 的工作产生影响?加入我们自己的机器学习和自然语言处理专家 Britney Muller,她将准确解释 BERT 是什么以及它对搜索行业意味着什么。

点击上面的白板图片可以在新标签页中打开高分辨率版本!

视频转录

嘿,Moz 粉丝。欢迎来到周五白板。今天,我们谈论的是关于 BERT 的所有事情,我真的很高兴能为大家详细介绍一下。我不自称是 BERT 专家。我刚刚做了很多研究。我采访了该领域的一些专家,我的目标是让这些信息更容易获得。

目前,您无法优化 BERT,因此行业内发生了很多混乱。虽然你不能这样做是绝对正确的,但你只需要为你的用户写出非常好的内容,我仍然认为我们中的很多人都参与其中,因为我们天生好奇。如果你想更多地了解 BERT 并能够更好地向客户解释它,或者想围绕 BERT 进行更好的对话,那么我希望你喜欢这个视频。如果不是,这也不适合你,那也没关系。

请注意:不要过度宣传 BERT!

我很高兴能加入进来。我要说的第一件事是我能够与自然语言处理研究员 Alison Ettinger 坐下来。她是芝加哥大学的教授。当我与她交谈时,主要收获是不要过度夸大 BERT 非常非常重要。现在发生了很多骚动,但距离人类理解语言和语境的方式还很远。所以我认为重要的是要记住,我们并没有过分强调这个模型能做什么,但它仍然是非常令人兴奋的,也是 NLP 和机器学习中非常重要的时刻。事不宜迟,让我们直接进入。

BERT 从何而来?

我想向您介绍 BERT 的起源和发展方向的更广泛背景。我认为很多时候这些公告是轰炸行业的炸弹,基本上是一系列电影的剧照,我们在电影前后都没有得到全面报道。我们只得到一个静止帧。所以我们得到了 BERT 公告,但让我们回到过去。

自然语言处理

传统上,计算机一直无法理解语言。它们可以存储文本,我们可以输入文本,但理解语言对计算机来说一直是极其困难的。自然语言处理(NLP)紧随其后,该领域的研究人员正在开发特定的模型来解决各种类型的语言理解问题。有两个例子叫实体识别,分类。我们看到情绪,回答问题。所有这些东西传统上都是由一个 NLP 模型出售的,所以它看起来有点像你的厨房。

如果你想想kitchen 中使用的餐具等个别型号,它们都非常适合特定任务。但是当 BERT 出现时,它实际上是所有厨房用具。经过一些微调,它真的是一个厨房用具,可以很好地处理十几个或十一个自然语言处理解决方案。这是该领域令人兴奋的差异。这就是人们对此如此兴奋的原因,因为他们不再拥有所有这些一次性的东西了。他们可以使用 BERT 来解决所有这些问题,这是有道理的,因为谷歌会将其纳入他们的算法。超级,超级刺激。

BERT将走向何方?

标题在哪里?这是要去哪里?艾莉森说,

“我认为我们将在同一条轨道上走一段时间,构建更大、更好的 BERT 变体,这将开始,因为 BERT 以强大的方式变得更强大,并且可能具有相同的基本限制。”

BERT 已经有很多不同的版本,我们将继续看到越来越多的版本。这将很有趣看看这个空间在哪里。

BERT 是如何变得如此聪明的?

对于 BERT 如何变得如此聪明的这种非常简单的观点,我们有何看法?我认为这很有趣。谷歌可以做到这一点真是太神奇了。谷歌花费维基百科文本和大量资金购买具有计算能力的 TPU,并将它们组装在 V3 pod 中,如此庞大的计算机系统可以为这些模型提供动力。他们使用了无监督的神经网络。关于它如何学习以及如何变得更聪明的有趣的事情是它接受任意长度的文本,这很好,因为语言很漂亮我们说话的方式是任意的,并将其转录为向量。

它将一段文本编码成一个向量,这是一个固定的数字字符串,有助于将它翻译成机器。这发生在一个我们甚至无法想象的非常荒诞的三维空间。但它所做的是将我们语言中同一领域的上下文和不同事物结合在一起。与 Word2vec 类似,它使用一种称为掩码的技巧。

所以会用训练不同的句子,一个词将被屏蔽。它使用这个双向模型来查看它前后的词来预测被屏蔽的词是什么。它一遍又一遍地这样做,直到它非常强大。然后可以针对所有这些自然语言处理任务对其进行微调。真的,在这个空间里是令人兴奋和有趣的。

简而言之,BERT是第一个deep bidirectional。这意味着只查看实体和上下文前后的单词,无监督的语言表示,在维基百科上预先训练。那么可以用各种方式来使用的就是这个非常漂亮的预训练模型。

BERT 不能做什么?

Allyson Ettinger 写了一篇非常好的研究论文,名为 What BERT Can't Do。您可以使用 Bitly 链接直接转到该链接。她的研究中最令人惊讶的收获是在否定诊断领域,这意味着 BERT 并不是很擅长理解否定。

例如使用Robin输入是……它预测正确的鸟,这很好。但是当罗宾进来时,它并没有……它也预示着这只鸟。因此,如果 BERT 没有看到反例或上下文,仍然很难理解这一点。还有很多有趣的外卖。我强烈建议您检查一下,它真的很棒。

BERT如何优化? (你不能!)

最后,你如何优化 BERT?再一次,你不能。通过此更新改进您的网站的唯一方法是为您的用户编写精彩的内容并实现他们正在寻找的意图。所以你不能,但我只想提一件事,因为老实说我无法摆脱它是 YouTube 视频中的 Jeff Dean,我们将链接到它是 Jeff Dean 关于 BERT 的主题演讲,他进入自然问题和自然问题的理解。对我来说最大的收获是这个例子,好吧,假设有人问这个问题,你能在飞行模式下拨打和接听电话吗?谷歌的自然语言翻译层试图理解所有这些文本的文本块。有很多话要说。这有点技术性,很难理解。

通过这些层,使用像 BERT 这样的东西,他们无法从所有这些非常复杂、冗长、令人困惑的语言中回答任何问题。它在我们的领域真的很强大。想想特色片段之类的东西;想想一般的 SERP 功能。我的意思是,这可能会对我们的领域产生巨大影响。因此,我认为重要的是了解一切的发展方向和该领域的发展方向。

我真的希望你喜欢这个版本的 Whiteboard Friday。如果您有任何问题或意见,请在下方告诉我,希望下次再见。太感谢了。

通过 Speechpad.com 进行视频转录