TechSEO Booster 上最发人深省的演讲之一是 NTENT 首席技术官 Ricardo Baeza-Yates 博士的主题演讲。标题为“搜索和推荐系统中的偏差”。

剧透警告:偏差严重;根据用户意图提供最相关的内容并从中获利是一件好事。

现在,在 2016 年 6 月加入 NTENT 之前,Baeza-Yates 博士在雅虎实验室担任了 10 年的研究副总裁,最终晋升为首席研究科学家。

他是ACM和IEEE的fellow,发表论文500多篇,被引用数万次,多次获奖,拥有多项专利。

他还与人合着了几本书,包括《现代信息检索》,这是一本使用最广泛的搜索教科书。

因此,他的演讲并非无稽之谈、毫无根据或耸人听闻。以下是对影响搜索和推荐系统的大多数偏见的专家审查。

这包括数据、算法和用户交互中的偏差 - 重点关注与相关性反馈循环(例如排名)相关的偏差。

Baeza-Yates 博士没有指责谷歌、YouTube 和亚马逊存在偏见,也没有敦促公正、公正和无偏见的政客采取强硬行动,而是有条不紊地介绍已知技术,以缓解大多数偏见——包括网站搜索中的偏见和推荐系统。这可能会使电子商务企业花费大量资金。

什么是偏见?

博士。 Baeza-Yates 首先定义了三种不同类型的偏差:

  • 统计:与先前(可能未知)分布的显着系统偏差。

  • 文化:我们一生中获得的解释和判断现象。

  • 认知:偏离规范或理性的系统模式。

目前,大多数对搜索和推荐系统的批评都集中在文化偏见上,包括:性别、种族、性别、年龄、宗教、社会、语言、地理、政治、教育、经济和技术。

但是,许多人将样本的结果外推到整个人口,而没有考虑统计偏差,包括收集过程、抽样过程、有效性、完整性、噪音或垃圾邮件。

此外,测量偏差也存在认知偏差。

例如,一种认知偏差是确认偏差,即倾向于以肯定一个人先前的信念或假设的方式搜索、解释、偏爱和回忆信息。

那么,这对搜索和推荐系统有何影响?

嗯,大多数网络系统都是通过使用隐式用户反馈来优化的。然而,用户数据因这些系统所做的选择而有些偏差。

例如,我们只能点击显示给我们的东西。

由于这些系统通常基于机器学习,它们会学习强化自己的偏见,从而产生自我实现的预言和/或次优解决方案。

例如,用户个性化和过滤气泡可以为推荐系统创建回音室。

此外,这些系统有时会相互竞争。因此,一个系统的改进(例如,用户体验)可能只是使用不同(甚至反相关)优化函数的另一个系统的退化(例如,货币化)。

什么是公平?

博士。 Baeza-Yates 还解决了“什么是公平的?”这个问题。

这是一个非技术问题。

他使用三个孩子观看足球比赛的图像来说明差异:

  • 平等,假设每个人都受益于站在相同高度的盒子里。这就是平等对待的概念。

  • 很公平地认为每个孩子都应该得到他们需要在栅栏上看到的盒子。这就是“平权行动”的概念。

  • 正义,允许所有三个孩子在没有盒子的情况下观看游戏,因为不平等的原因已经解决(木栅栏)。这是消除系统性障碍的概念。

因此,搜索和推荐系统的用户需要意识到消除偏见不仅仅是让工程师调整他们的算法。它还要求用户了解自己的文化和认知偏见。

这也意味着搜索和推荐系统不需要完美,它们只需要比不了解自己偏见的人更好。

偏见无处不在!

然后,Baeza-Yates 博士分享了一些研究,这些研究在我们大多数人甚至没有考虑过的地方发现了偏见。如果他对产生点击诱饵感兴趣,这些发现就会成为头条新闻。

但是,他的大部分演讲都可以在他 2018 年 6 月发表在 ACM Newsletter 上的文章“Online Bias”中找到。

并且,在他的主题演讲中,它们作为额外的个案研究来支持他的分析。

例如,Baeza-Yates、Castillo 和 López 于 2005 年发表在 Web Metrics 上的一项研究发现链接中存在经济偏见。 (特别是,它发现与西班牙有更多经济联系的国家与西班牙网站的链接更多。)

2012 年在 Language Connect 博客上发表的另一项研究发现,网络内容存在语言偏见。 (虽然大约 27% 的互联网用户说英语,但在排名前 100 万的网站中,55.4% 的网页内容是英文的。)

Baeza-Yates 和 Saez Trumper 在 ACM Hypertext,2015 年第三项研究发现用户生成内容中的活动偏差。 (忘记“人群的智慧”吧。在 2008 年的一项小样本调查中,只有 7% 的 Facebook 用户生成了 50% 的帖子,到 2013 年,4% 的亚马逊用户生成了 50% 的电影评论,Twitter 2% 的用户生成了 50% 2009 年的推文数量,而只有 0.04% 的维基百科编辑生成了 50% 的英文推文。

搜索和推荐系统的偏见如何影响你?

现在,这项研究的一部分比污垢更古老。因此,如果您使用网站搜索和推荐系统,偏见对您今天有何影响?

好吧,Baeza-Yates 博士提供了几个真实世界的例子。

首先,他研究了许多站点搜索和推荐系统中的“流行偏差”。

那是什么?

好吧,如果您只在您的网站上展示一些最受欢迎的项目站点,您可能会削弱尚未流行的新商品的销售量 - 相当于在电子商务中吃玉米种子。

或者,如果您有其他长尾销售不受欢迎但总体上的待售物品l 产生大部分收入,在网站搜索和推荐系统中自助服务“人气偏差”预言的实现将使您拥有一家销售更少商品的小公司。

“人气偏差”有部分解决方案”Baeza-Yates 博士说,尤其是在使用个性化的系统中。这包括用其他项目替换您今天要展示的一个或多个热门项目,以增加所显示内容的多样性、新颖性和偶然性。

但是,无论您做什么,都希望避免重复给它一条长长的尾巴。并且您想避免“富者愈富,穷者愈穷”综合症。

接下来,他研究了网络交互,尤其是电子商务中的偏差。数据和算法偏差包括:

  • 显示偏差(即哪些项目被暴露)。
  • 位置偏差(哪些项目显示在页面的右上角)。
  • 社会偏见(包括 4 星或 5 星评论)。
  • 以及其他互动偏见(即哪些项目只能通过滚动才能看到)。
  • < li> li>

但是等等,还有更多!还有自选偏差,包括:

  • 排名偏差(用户认为排名较高的项目是更好的选择)。
  • 点击偏好(点击一个项目被认为是积极的)用户反馈)。
  • 鼠标移动偏差(将鼠标悬停在项目上被认为是积极的用户反馈)。

现在,Baeza-Yates 博士在他的主题演讲中以亚马逊为例,但这种偏见突然出现在其他网站。

但是,亚马逊现在提供多种自助广告解决方案,包括商品推广、品牌推广、展示广告推广(测试版)、品牌旗舰店、展示广告、视频广告、定制广告或亚马逊 DSP 解决方案。

那么,考虑到他们的搜索和推荐系统中的所有偏见,您应该在亚马逊上做广告吗?

好吧,即使 Baeza-Yates 博士没有谈到这个话题,如果您开始在亚马逊上投放广告,您也应该测试和衡量各种关键词和定位选项,以确保您抓住了正确的时间在网上找到合适的信息,在合适的玉米迷宫中找到合适的人。

重要要点

Dr. Baeza-Yates 以两个要点结束了他的主题演讲。

第一个是搜索和推荐系统的设计者。它们包括:

  • 数据

    • 在可能/需要的情况下分析已知和未知的偏差、偏差或缓解措施。
    • 为问题的困难/稀疏区域收集更多数据。
    • 删除与有害偏见直接/间接相关的属性。
  • 互动

    • 确保用户始终意识到偏见。
    • 给用户更多的控制权。
  • Design & Implementation

    • 让专家/同事/用户质疑流程的每一步。
  • 评价

    • 不要骗自己!

在 TechSEO Boost 的听众中,他分享了以下信息:

  • 系统是我们的镜子 – 好是的,又坏又丑。
  • 网络放大了一切,但它总是留下痕迹。
  • 我们需要意识到自己的偏见。
  • 我们必须意识到这些偏见并阻止它们,以阻止偏见的恶性循环。
  • 有很多开放(研究)问题!

然后,Baeza-Yates 博士打趣道:“有偏见吗?”

图片来源

后图 1:作者拍摄于 2019 年 12 月
丢失的图片 #2-3:Ricardo Baeza-Yates 博士