本月早些时候,谷歌推出了其最新的人工智能算法 BERT,据称这是自谷歌对大脑进行排序以来最大的一次更新,影响了所有搜索查询的 10%。

Bert 表示来自 transformer 的双向编码器表示。变形器指的是处理与句子中所有其他词相关的词的模型,例如并置关键字和同义词。

Roger Monty 和 Matt Southern 在《搜索引擎杂志》中详细介绍了 BERT。

然而,谷歌的人工智能和机器学习算法并不是全球搜索引擎唯一使用的算法。

机器学习是一个总称,涵盖范围广泛的算法,这些算法从数据集中学习以提供:

  • 建议。
  • 决定了。
  • 预测。

它不仅被搜索引擎广泛用于许多任务,而且:

  • 流媒体平台上的音乐和电影推荐。
  • 跨州预测能源使用。

搜索引擎使用它来处理来自整个 Internet 以及某些离线来源(例如 Yandex)的数据,以便为用户提供更好的搜索结果和体验。

自 Yandex 在 Matrixnet 推出后首次在搜索中引入机器学习以来,已经过去了十年。

此后,该搜索引擎一直在通过包括 Palekh 和 Korolyov 在内的进一步更新来改进其 AI 和 ML 功能。

Matrixnet,2009

Matrixnet 的工作方式是采用数千个变量和“排名因素”,并根据以下条件为它们分配不同的权重:

  • 用户位置。
  • 搜索查询。
  • Established User Intent

这样做是为了向用户返回更相关和更准确的结果。

Matrixnet 的一个显着影响是,对于具有多种常见解释的较短查询,非商业内容开始在搜索结果页面中比其他商业内容(和商业网站)更显着地出现。

这是因为新的核心算法开始考虑域的整个生态系统,而不是单个页面及其直接链接。

在 Yandex 推出 Matrixnet 的同时,搜索引擎也采取措施为用户提供基于位置的更好结果。 (符拉迪沃斯托克的人无法在 113 小时的车程内获得莫斯科的本地结果!)

他们用 Arzamas 算法做到了这一点,该算法被 Snezhinsk 取代,然后在 2010 年通过了奥宾斯克。

后者允许 Yandex 更好地了解网站所在的区域,即使网站管理员没有在 Yandex 网站管理员工具中声明该区域。

这尤其会影响具有位置限制页面和本地引用垃圾邮件的网站。

Palekh, 2016

2016 年(RankBrain 后一年),Yandex 引入了 Palekh 算法。 Palekh 使用深度神经网络来更好地理解搜索查询的含义。

该算法使用神经网络来查看查询和文档之间的联系,即使它们不包含常用词也是如此。

此技术最适用于复杂的查询,例如查找情节描述不正确的电影。

Korolyov,2017 年

Yandex 于 2017 年 8 月发布了基于 Palekh 算法的 Korolyov 更新。

Yandex Search 负责人 Andrey Styskin 说:

“Korolyov 能够将查询的含义与页面的含义相匹配,而不是Palekh 仅用于头衔。凭借同时处理 200,000 页的能力,它还改进了 Palekh 正在分析的 150 页。”

与 RankBrain 的工作方式类似,Korolyov 接收到的每个增量数据点都变得更加高效和准确,然后将所有结果反馈到核心算法 Matrixnet。

在 Korolyov 发布的同时,Yandex 也宣布 Matrixnet 已经启动:

  • 考虑来自他们的众包平台 Toloka(想想亚马逊版本的 Mechanical Turks)的数据。
  • 处理大量匿名用户数据以进一步改进和改变机器学习算法所面临的数据集。

Korolyov 还在搜索中引入了语义(上下文)向量的概念,允许它在用户提交查询时执行“意义分析”。某些页面。

这意味着:

  • 在dexing 阶段,每个页面都被转换成一个语义/上下文向量。
  • 可以更快、更有效地理解新查询,并且可以获得更准确的结果,而不会产生负面的搜索体验。

CatBoost,2017

Yandex 在 2018 年推出了 Matrixnet 机器学习算法 CatBoost 的后继算法。

与 Matrixnet 相比,CatBoost(开源) ) 能够:

  • 更准确的预测。
  • 更大的结果多样性。
  • 非数字支持变量,例如云类型、猫品种和植物种类。

CatBoost 利用称为梯度提升的机器学习技术,通常解决回归和分类问题,这些问题在视觉上表示为决策树。

迄今为止,Cloudflare 和 CERN 等组织已经在 Yandex 的搜索引擎之外使用了 CatBoost。

它用于需要对决策树进行梯度提升以降低过度拟合风险的情况,以执行诸如由机器人驱动的撞库之类的事情。

针对 Yandex 的人工智能算法进行了优化

Yandex 的机器学习算法只是搜索引擎多年来为解决链接垃圾邮件和低质量内容所做的更新的一小部分,不像谷歌一样。

与 Google 的 RankBrain(以及现在的 BERT)管道一样,没有真正的方法可以直接优化机器学习算法,因为它们考虑了整个网络。

与往常一样,重要的是您制作的内容可以为用户增加价值、匹配搜索意图并且使用自然语言而不是人机编写。