Bing 通过更好地理解用户查询、图像和网页之间的关系,使其图像搜索引擎更加精确。
此外,Bing还通过新的向量匹配、属性匹配和最佳代表查询匹配等技术,将多粒度匹配引入图像搜索。
解释了这些增强功能将如何改进图像搜索:
“…必应图像搜索采用了许多深度学习技术将查询和文档映射到语义空间,从而大大提高了我们的搜索质量。然而,在许多困难的情况下,用户搜索具有特定上下文或属性的对象(例如:{留着胡子的金发男子}、{戴玫瑰的女孩的舞蹈服装}),当前的搜索堆栈无法满足这些要求。这促使我们开发进一步的增强功能。”
这里有更多关于 Bing 的多粒度匹配的信息。
矢量匹配
使用上面的“身着舞蹈服装的玫瑰女孩”示例,Bing 说明了 Bing 用于图像搜索的新矢量匹配的工作原理:
/p>
"最新进展,我们结合BERT/Transformer技术,利用1)预训练知识来更好地解释文本信息... 2) 一种注意机制,将图像和网页相互有意识地嵌入,使嵌入文档很好地总结了以下内容:图像的显着区域和网页上的焦点。”
属性匹配
属性匹配利用了一组查询文档的技术,并从源文档中提取了一组对象属性,并使用这些属性进行匹配。
使用示例问题在“老人游泳的图片”中,Bing 展示了它如何应用属性检测器来提取对一个人的外貌和行为的描述。
p>“虽然网页文本信息不足,但我们现在可以从图像内容和周围的文本中检测出某些相似的属性。现在,由于查询和文档具有相同的属性,因此可以认为它们是“精确匹配".
Best Representative Query (BRQ) Match
Bing 使用 Best Representative Query 信息丰富图像的元数据。给定图像的最佳代表查询是一个查询这张图片会得到很好的结果。
BRQ 类似于用户查询,这意味着它们可以自然而轻松地匹配到传入的查询。它们通常是网页的主要主题和主要图像内容摘要。
Bin 表示,为图像生成一组更丰富的 BRQ 会带来更好的搜索结果。