关于Google Search Console(GSC)的一个普遍抱怨是,与Google Analytics(分析)结果相比,数据“不准确”。

你知道情况。

我们都做到了。

您尝试通过来自Google Search Console的点击来排定来自分析的到达页面的访问量,而这些数字远没有结束!

然后,您对“未提供”一词含糊其词,并向朋友发送即时消息,告知您过去可以在分析中看到关键字的过去。

虽然这是精度问题,但它本身并不是精度问题。

数据差异实际上是设计使然。

让我们深入研究细节,找出原因。

Google Search Console和Google Analytics(分析)无法衡量相同的事物

Google Search Console和Google Analytics(分析)不要衡量相同的事物“ width =” 700“ height =” 332“ size =”(最大宽度:700像素)100vw,700像素“ srcset =” https://cdn.searchenginejournal.com /wp-content/uploads/2020/03/google-search-console-google-analytics-don---t-measure-the-same-things-5e83223257417.jpg 700w,https://cdn.searchenginejournal.com/ wp-content / uploads / 2020/03 / google-search-console-google-analytics-don --- t-measure-the-same-things-5e83223257417-480x228.jpg 480w,https://cdn.searchenginejournal.com /wp-content/uploads/2020/03/google-search-console-google-analytics-don---t-measure-the-same-things-5e83223257417-680x323.jpg 680w“ src =” https:// cdn .searchenginejournal.com / wp-content / uploads / 2020/03 / google-search-console-google-analytics-don --- t-measure-the-same-things-5e83223257417.jpg

简短的解释是,这两个数据源具有不同的测量方法。

GSC是根据查询和单击或选择日志构建的,因此数据将与您自己的访问日志文件(您希望通过DevOps请求访问日志文件分析的文件)所期望的数据有些相似。 。

相反,您的分析包会通过JavaScript从点击流中收集数据。这就固有地引入了许多变量,这些变量用于衡量事物的方式以及事物的本质。

为了更好地了解是什么原因导致了GSC和分析之间的数据差异,您首先需要了解每种工具如何收集和理解用户行为数据。

查询和选择(点击)日志的剖析

Google对搜索质量的不懈追求自然会促使他们为每个搜索和每个搜索者跟踪大量的数据点,以期全面了解SERP中的情况。

查询和选择(点击)剖析记录“ width =” 700“ height =” 407“ size =”(最大宽度:700px)100vw,700px“ srcset =” https://cdn.searchenginejournal.com/wp- content / uploads / 2020/03 / the-anatomy-of-query-and-selection-click-logs-5e831c34b4efd.jpg 700w,https://cdn.searchenginejournal.com/wp-content/uploads/2020/03/the -anatomy-of-query-and-selection-click-logs-5e831c34b4efd-480x279.jpg 480w,https://cdn.searchenginejournal.com/wp-content/uploads/2020/03/the-anatomy-of-query- and-selection-click-logs-5e831c34b4efd-680x395.jpg 680w“ src =” https://cdn.searchenginejournal.com/wp-content/uploads/2020/03/the-anatomy-of-query-and-selection- click-logs-5e831c34b4efd.jpg

尽管他们多次表示不允许点击和点击率影响排名, 尽管有相反的证据,他们还说过他们使用点击数据来评估效果。

为什么使用Google Search Console& Google Analytics(分析)数据从不匹配” width =“ 806” height =“ 324” size =“(最大宽度:806px)100vw,806px” srcset =“ https://cdn.searchenginejournal.com/wp-content/uploads/2020 /03/how-google-uses-clicks-5e831d91b902e.png 806w,https://cdn.searchenginejournal.com/wp-content/uploads/2020/03/how-google-uses-clicks-5e831d91b902e-480x193.png 480w ,https://cdn.searchenginejournal.com/wp-content/uploads/2020/03/how-google-uses-clicks-5e831d91b902e-680x273.png 680w,https://cdn.searchenginejournal.com/wp-content/ uploads / 2020/03 / how-google-uses-clicks-5e831d91b902e-768x309.png 768w“ src =” https://cdn.searchenginejournal.com/wp-content/uploads/2020/03/how-google-uses- clicks-5e831d91b902e.png

这一直是面向公众的Google员工和SEO之间正在进行的争论之一。

就个人而言,我认为Google的一面是语义论点。

有几种信息检索标准的评估措施,例如:

  • 点击次数。
  • SERP放弃。
  • 会话成功率。
  • 等等。

您可能会想到,Google对此有自己的风格,称为 点击次数,注意力和满意度模型 (阅读Bill Slawski的 说明 如果您需要翻译)。

在名为“将点击,注意力和满意度纳入搜索引擎结果页面评估模型”的论文中进行了讨论,并结合了 基于时间的排名 专利建议至少有人花时间考虑点击如何影响排名。

根据埃里克·施密特(Eric Sc​​hmidt)在2011年的证词,谷歌进行了“ 13,111次精确度评估”。那将是平均每天〜35。

因此,可以合理地假设,如果您始终像搜索小组一样在生产环境中进行评估,那么用户点击总是有可能影响排名。

然后是 根据语料库搜索统计信息修改搜索结果排名 讨论搜索日志及其将来如何影响排名的专利:

“存储在会话日志2060中或搜索日志中的信息可以由排名修改器引擎2070使用,以生成一个或多个信号发送给排名引擎2030。通常,可以收集和收集广泛的信息,用于修改或调谐来自用户的信号以制作该信号,并提供将来的搜索结果,从而更适合用户的需求。因此,可以使用一个或多个语料库的用户选择来发布搜索,以及与呈现给信息检索系统用户的搜索结果进行用户交互,以改善未来的排名。”

但是,最有趣的是这些日志除了具有更有价值的信号外,还具有很多噪声的概念。

这表明从完全按面值获得点击是错误的。

查询日志可视表示形式“ wi​​dth =” 480“ height =” 1064“ size =”(最大宽度:480px)100vw,480px“ srcset =” https://cdn.searchenginejournal.com/wp-content/uploads/2020/ 03 / image3-5e831e9267744-480x1064.png 480w,https://cdn.searchenginejournal.com/wp-content/uploads/2020/03/image3-5e831e9267744-680x1507.png 680w,https://cdn.searchenginejournal.com/ wp-content / uploads / 2020/03 / image3-5e831e9267744-768x1702.png 768w,https://cdn.searchenginejournal.com/wp-content/uploads/2020/03/image3-5e831e9267744.png 902w“ src =” https ://cdn.searchenginejournal.com/wp-content/uploads/2020/03/image3-5e831e9267744-480x1064.png

我们在谈论什么类型的噪音?

好吧,例如,排名工具代表多少印象?

您在自动建议中按回车几次,然后意识到它触发了对“粉丝”而不是“神奇4”的搜索?

或者,当您在移动设备上滚动而又不小心弄错了结果时该怎么办?

这些都是Google收集的数据可能存在大量不准确之处的所有示例,因此需要加以考虑。

谢谢你允许我把它放在一边。

好,那么日志文件中有什么?

如果现在不存在了, Google Search Appliance文档 是任何指示(可能不是),查询和单击日志只是文本文件,记录有关用户及其与SERP交互的数据。

该文档讨论了搜索日志,搜索日志可能与Google专利中提及的查询和点击日志相同,也可能不同。

尽管是系统的简化版本,但它使我们对所跟踪的内容有所了解-用户的功能,他们的查询以及他们单击的内容。

深入挖掘Google的 从搜索引擎查询日志生成统计信息的系统和方法 他们获得了更多专利,他们谈论了可以为诸如Google趋势之类的工具提供支持的系统如何运行。

在本次讨论中,我假设基础数据集与为Google Search Console和Google Ads关键字规划师提供支持的功能相似(如果不相同)。

他们谈论查询日志如下:

“网络搜索引擎每天可能会收到来自世界各地用户的数百万条查询。对于每个查询,搜索引擎都会在其查询日志中生成一条查询记录。查询记录可以包括一个或多个查询词,指示搜索引擎何时接收查询的时间戳,标识从其提交查询词的唯一设备(例如,PC或手机)的IP地址,以及与提交查询词的用户相关联的标识符(例如,Web浏览器cookie中的用户标识符)。”

换句话说,搜索引擎查询日志是GSA搜索日志的更健壮的版本。

作者将在稍后的专利中进一步详细解释,并讨论如何跟踪Cookie,设备,用户语言和位置。

它们还提供了下图,以可视方式表示了查询日志中收集的数据:

查询日志可视表示形式“ wi​​dth =” 480“ height =” 1064“ size =”(最大宽度:480px)100vw,480px“ srcset =” https://cdn.searchenginejournal.com/wp-content/uploads/2020/ 03 / image3-5e831e9267744-480x1064.png 480w,https://cdn.searchenginejournal.com/wp-content/uploads/2020/03/image3-5e831e9267744-680x1507.png 680w,https://cdn.searchenginejournal.com/ wp-content / uploads / 2020/03 / image3-5e831e9267744-768x1702.png 768w,https://cdn.searchenginejournal.com/wp-content/uploads/2020/03/image3-5e831e9267744.png 902w“ src =” https ://cdn.searchenginejournal.com/wp-content/uploads/2020/03/image3-5e831e9267744-480x1064.png

该专利为系统赋予了更多色彩,讨论了会话记录的概念,这是一种确定给定用户在给定时间范围内是否执行了相同或相似搜索的机制。

在衡量和报告展示次数和/或搜索量时,这一点尤其重要:

“查询会话记录包括时间间隔紧密的查询和/或与相同用户兴趣相关的查询。在一些实施例中,查询会话提取过程是基于启发式的。例如,即使连续查询共享某些查询字词,或者即使它们之间没有通用查询字词,也要在预定义的时间段(例如十分钟)内提交,则它们属于同一会话。”

上面提到的启发式搜索可能是Search Console和您的分析软件包永远不匹配的原因的核心。

从本质上讲,作者的意思是Google会在其查询日志中做出决定,以确定您会话中的搜索是否足够独特以至于被记录为不同的内容。

因此,您可能会认为这是两次不同的访问,因为它们来自两次不同的搜索,分别访问了两个不同的着陆页,因此有可能视其为一次搜索,从而产生一种印象,具体取决于它在Google查询日志中的记录方式。

Google搜索日志“ width =” 700“ height =” 343“ size =”(最大宽度:700像素)100vw,700像素“ srcset =” https://cdn.searchenginejournal.com/wp-content/uploads/2020/03 /google-search-logs-5e831f3e8ba6d.jpg 700w,https://cdn.searchenginejournal.com/wp-content/uploads/2020/03/google-search-logs-5e831f3e8ba6d-480x235.jpg 480w,https:// cdn .searchenginejournal.com / wp-content / uploads / 2020/03 / google-search-logs-5e831f3e8ba6d-680x333.jpg 680w“ src =” https://cdn.searchenginejournal.com/wp-content/uploads/2020/03 /google-search-logs-5e831f3e8ba6d.jpg

另一方面,单击日志为用户提供了一系列结果后,会提供有关用户行为的更多信息。

的 根据语料库搜索统计信息修改搜索结果排名 专利揭示了可以存储在该数据集中的内容(重点是我的):

“所记录的信息(包括结果选择信息)可以存储在会话日志2060中。在某些实现中,搜索数据和结果选择信息存储在搜索日志中。在一些实现中,记录的信息包括日志条目,该日志条目针对每个用户选择指示查询(Q),文档(D),两次连续选择搜索结果之间的时间(T),由用户采用的语言(L)用户以及用户可能所在的国家(C)(例如,基于用于访问IR系统的服务器)。在一些实施方式中,还记录与具有所呈现的排名的用户交互有关的其他信息,包括否定信息,例如文档结果被呈现给用户但未被点击的事实,点击位置。用户界面,点击结果的IR分数,点击结果之前显示的所有结果的IR分数,点击结果之前显示给用户的标题和摘要,用户的cookie,cookie的年龄,IP(Internet协议)地址,用户代理还可以记录更多信息,例如为查询返回的搜索结果,其中搜索结果是归类为一个或多个语料库的内容项。在一些实施方式中,针对用户的整个会话或多个会话记录类似的信息(例如,IR得分,位置等)。在一些实施方式中,相似信息的记录不与用户会话相关联。在某些实现中,将为当前单击之前和之后发生的每次单击记录此类信息。”

虽然Google Search Console仅显示了这些信息的一小部分,但很清楚Search Analytics工具实际上是基于此数据集构建的有限的用户界面。

这里有趣的是提到了整个SERP中可能发生的活动。

这表明不仅可以跟踪每次点击,还可以跟踪SERP中产生结果位置的原因。

什么决定点击?

决定点击的因素“ width =” 700“ height =” 270“ Size =”(最大宽度:700像素)100vw,700像素“ srcset =” https://cdn.searchenginejournal.com/wp-content/uploads/2020/ 03 / what-determines-a-click-5e831f8de6f31.jpg 700w,https://cdn.searchenginejournal.com/wp-content/uploads/2020/03/what-determines-a-click-5e831f8de6f31-480x185.jpg 480w, https://cdn.searchenginejournal.com/wp-content/uploads/2020/03/what-determines-a-click-5e831f8de6f31-680x262.jpg 680w“ src =” https://cdn.searchenginejournal.com/wp-内容/上载/2020/03/what-determines-a-click-5e831f8de6f31.jpg

Google Search Appliance面向公众的文档没有指出什么是点击或印象。

例如,如果我搜索一个关键字并单击一个结果,然后单击并再次单击相同的结果,那么Google是否考虑两次或一次不同的点击?

的 从搜索引擎查询日志生成统计信息的系统和方法 专利,但是,提供了对该问题的答案的一些见识。

首先要知道的是,他们经常对数据进行采样。在Google趋势环境中,这很有意义。

但是,作者确实注意到在某些用例中可能无法对数据进行采样。

为了从查询日志108中获得可靠的统计信息,不一定总是需要调查查询日志中的所有查询记录(在此也称为日志记录或交易记录)。只要从查询日志中足够数量的样本中得出统计信息,该信息就与从所有日志记录中得出的信息一样可靠。此外,调查次抽样查询日志所花费的时间和计算机资源更少。因此,查询日志采样过程110可以用于对查询日志108进行二次采样并产生二次采样的查询日志112。例如,二次采样的查询日志112可以包含百分之十或百分之二十的日志记录。在原始查询日志108中可以看到。采样过程是可选的。在某些实施例中,整个查询日志108用于生成统计信息。”

Google似乎也深深地认为,两个类似查询的查询可以代表一个搜索。

这种思路是导致工具之间度量差异的核心组成部分。

由于Google最近已采取行动,使单数形式和复数形式的关键字具有相同的搜索量,这在很大程度上引起了搜索社区的困扰,因此,有必要对此问题有内部看法。

我已经在下面完整地介绍了他们对专利的讨论(重点是我的):

“例如,用户可以首先提交查询“加利福尼亚帕洛阿尔托的法国餐馆”,以查找有关加利福尼亚帕洛阿尔托的法国餐馆的信息。随后,同一用户可以提交新的查询“加利福尼亚帕洛阿尔托的意大利餐厅”,以查找有关加利福尼亚帕洛阿尔托的意大利餐厅的信息。这两个查询在逻辑上相关,因为它们都与在加利福尼亚州帕洛阿尔托的餐馆搜索有关。可以通过以下事实来证明这种关系:两个查询在时间上紧密提交,或者两个查询共享某些查询字词(例如“餐厅”和“帕洛阿尔托”)。”

“[0035] 在某些实施例中,这些相关查询被分组为一个查询会话,以更准确地表征用户的搜索活动。查询会话由来自单个用户的一个或多个查询组成,包括在短时间段(例如十分钟)内提交的所有查询,或具有可能在一个或多个范围内延伸的具有重叠或共享查询项的查询序列。更长的时间(例如,单个用户在长达两个小时的时间内提交的查询)。关于不同主题或兴趣的查询将分配给不同的会话,除非查询是非常连续地提交的,否则不会分配给包含其他类似查询的会话。寻找Palo Alto餐馆的同一用户可以稍后提交查询“ iPod Video”,以获取有关Apple Computer生产的新产品的信息。此新查询与Palo Alto餐馆有不同的兴趣或主题,因此未与餐馆相关的查询归为同一会话。因此,来自单个用户的查询可能与多个会话相关联。与同一用户相关联的两个会话将共享相同的cookie,但是将具有不同的会话标识符。”

可以说,Google搜索引擎背后的日志记录使用一系列特定的方法来确定什么是独特的搜索和独特的点击。

这可能与您的看法或您的分析平台配置为相信会话的看法一致或不一致。

Google Analytics(分析)如何确定会话

Analytics(分析)如何确定工作阶段“ width =” 700“ height =” 247“ Size =”(最大宽度:700像素)100vw,700像素“ srcset =” https://cdn.searchenginejournal.com/wp-content/uploads/2020 /03/how-analytics-determines-a-session-5e83203093356.jpg 700w,https://cdn.searchenginejournal.com/wp-content/uploads/2020/03/how-analytics-determines-a-session-5e83203093356- 480x169.jpg 480w,https://cdn.searchenginejournal.com/wp-content/uploads/2020/03/how-analytics-determines-a-session-5e83203093356-680x240.jpg 680w“ src =” https:// cdn .searchenginejournal.com / wp-content / uploads / 2020/03 / how-analytics-determines-a-session-5e83203093356.jpg

另一方面,Analytics套件也遵循一系列方法来衡量用户及其活动。

根据分析软件包的不同,可以定义“会话”或访问。

根据Google Analytics(分析)文档,“默认情况下,会话会持续到不活动30分钟为止,但是您可以调整此限制,以使会话持续时间从几秒钟到几小时不等。”

因此,虽然我们不知道Google搜索会议的确切时间,但是上面摘录中考虑的数字肯定少于30分钟。

在与Google Analytics(分析)相关的专利中, 汇总分析数据的系统和方法,作者讨论了如何通过会话ID跟踪用户以及该机制如何失效:

“会话ID通常是在访问者首次访问网站时授予的。它与用户ID的不同之处在于,会话通常是短暂的(会话在预设的闲置时间(可能是几分钟或几小时)后过期),并且在达到某个目标(例如,一旦买方完成订单后,他不能使用相同的会话ID添加更多商品。”

结果,对于相同的访问,可以潜在地多次测量用户。

分析套件是复杂的环境,允许在其配置中使用不同级别的特异性。

有很多原因导致您看不到两个分析程序包之间的一致性,更不用说两个用来衡量不同事物的工具了。

为什么两个不匹配

简而言之,Google Search Console点击不是Google Analytics(分析)会话,Google Analytics Session不是Google Search Console的点击。

在上述情况下,用户单击了两次,则可以认为是两次单击和一个会话。

为什么两个不匹配“ width =” 700“ height =” 234“ Size =”(最大宽度:700像素)100vw,700像素“ srcset =” https://cdn.searchenginejournal.com/wp-content/上传/2020/03/why-the-two-dont-match-up-5e832095713f5.jpg 700w,https://cdn.searchenginejournal.com/wp-content/uploads/2020/03/why-the-two-dont -match-up-5e832095713f5-480x160.jpg 480w,https://cdn.searchenginejournal.com/wp-content/uploads/2020/03/why-the-two-dont-match-up-5e832095713f5-680x227.jpg 680w ” src =“ https://cdn.searchenginejournal.com/wp-content/uploads/2020/03/why-the-two-dont-match-up-5e832095713f5.jpg

或者,如果用户要执行两次不同的搜索并进行两次不同的点击,则他们的活动可能被视为一次印象和一次点击,但他们也可能在某些时候使会话ID无效或超时,并被视为两次不同的访问。分析。

或者,考虑一下:

用户点击了您的结果,但是由于多种原因您的分析没有触发。这说明了分析并非总是最可靠的事实来源的众多原因。

最后,GSC使用规范的URL,而分析可以使用任何URL来报告会话。 Google谈到了一些 在他们的文档中。

但是,他们的讨论更多地是在解释GSC与GA整合的背景下的差异,而不是解释测量方法上的差异

GSC和Google Analytics(分析)之间的数据差异“ width =” 683“ height =” 808“ size =”(最大宽度:683px)100vw,683px“ srcset =” https://cdn.searchenginejournal.com/wp-content/uploads/ 2020/03 / data-discrepancies-between-gsc-analytics-5e832110ba27f.png 683w,https://cdn.searchenginejournal.com/wp-content/uploads/2020/03/data-discrepancies-between-gsc-analytics-5e832110ba27f -480x568.png 480w,https://cdn.searchenginejournal.com/wp-content/uploads/2020/03/data-discrepancies-between-gsc-analytics-5e832110ba27f-680x804.png 680w“ src =” https:// cdn.searchenginejournal.com/wp-content/uploads/2020/03/data-discrepancies-between-gsc-analytics-5e832110ba27f.png为什么这是个问题?

核心问题是,许多营销人员不相信GSC的数据,因为他们认为分析是其真实性的主要来源。

忽略所有分析方法固有的缺陷,我认为来源之间的均等性是不现实的,并且我们正在研究同一事实的两个方面,只是衡量方法不同。

Google Search Console的效果数据可以衡量Google本身发生的情况,而不必衡量您网站上发生的情况。

哦,就在我们这么做的时候,请不要忘记GSC的排名数据衡量的数据与您的排名数据有所不同。

如何获取更多精确数据

实际上,随着您对网站的查看方式更加专一,在Google Search Console中报告的数据的准确性实际上会提高。

换句话说,如果您创建的配置文件反映了目录结构的更深层次,则该工具将产生更多数据。

向您的Google Search Console添加10或数百个子目录可能很繁琐,但事实证明,数据精度的提高对于A / B测试和理解突破性关键字机会等用例非常有帮助。

如何获取更精确的数据” width =“ 480” height =“ 450” size =“(最大宽度:480px)100vw,480px” srcset =“ https://cdn.searchenginejournal.com/wp-content/uploads/ 2020/03 / how-to-get-more-precise-data-5e8321702e117-480x450.png 480w,https://cdn.searchenginejournal.com/wp-content/uploads/2020/03/how-to-get-more -precise-data-5e8321702e117-680x638.png 680w,https://cdn.searchenginejournal.com/wp-content/uploads/2020/03/how-to-get-more-precise-data-5e8321702e117-768x720.png 768w ,https://cdn.searchenginejournal.com/wp-content/uploads/2020/03/how-to-get-more-precise-data-5e8321702e117.png 1024w“ src =” https://cdn.searchenginejournal.com /wp-content/uploads/2020/03/how-to-to-get-more-precise-data-5e8321702e117-480x450.png

添加大量配置文件时,要记住的主要限制是GSC用户界面将每个搜索过滤器限制为1,000个查询。

所以,你应该 考虑使用API​​提取数据 因为它会为每个搜索过滤器返回5,000。

另外,要提取尽可能多的数据,您应考虑循环搜索搜索过滤器(S / O至William Sears)。

这样可以确保您使用尽可能多的单词子集作为过滤器,以提取尽可能多的结果。

按子目录执行此操作并遵循网站的分类法,将使您能够获得最精确的数据。

没有完全相同的事物

没什么都一样“ width =” 700“ height =” 343“ size =”(最大宽度:700px)100vw,700px“ srcset =” https://cdn.searchenginejournal.com/wp-content/uploads/2020/ 03 / nothing-was-the-same-5e8321dd6e87f.jpg 700w,https://cdn.searchenginejournal.com/wp-content/uploads/2020/03/nothing-was-the-same-5e8321dd6e87f-480x235.jpg 480w, https://cdn.searchenginejournal.com/wp-content/uploads/2020/03/nothing-was-the-same-5e8321dd6e87f-680x333.jpg 680w“ src =” https://cdn.searchenginejournal.com/wp-内容/上载/2020/03/nothing-was-the-same-5e8321dd6e87f.jpg

自首次亮相以来 “(不提供)” 在2011年底,我们知道我们的自然搜索数据将会受到侵蚀。

实际上,我们永远不会生活在一个可以将访问直接与会议联系在一起的世界中。

Google Search Console提供的数据是我们今后将要获得的最好的数据。

尽管数据与您的真实来源不符,但这并不意味着数据不准确。

您不应期望Facebook Ads数据与Google Analytics(分析)匹配,也不希望Kibana中的日志文件与Adobe Analytics报告相同,您也不应期望Google Search Console与您的分析数据匹配。

现在,出去,变得很棒。

图片积分

后期图片:作者创作,2020年3月
由作者拍摄的所有屏幕截图,2020年3月