4个数据分析陷阱&如何避免它们
被曲解的数据甚至会误导我们最好的人。看看数字营销常见的四种数据分析陷阱,以及如何批判性思考并避免它们的一些敏锐的技巧。
数字营销是一个自豪的数据驱动的领域。然而,作为SEO,我们经常有这样的不完整或有问题的数据的工作,我们最终做出错误的结论,我们试图证明我们的论点或量化我们的问题和机会。
在这篇文章中,我将概述4个在我们行业中普遍存在的数据分析陷阱,以及如何避免它们。
1。妄下结论
今年早些时候,我做了一个关于品牌知名度的排名因素研究,我发布了这个警告:
“……域名权威(或品牌搜索量,或其他任何东西)与排名正相关的事实可能表明以下任何一个或全部:
链接导致网站排名好
排名好导致网站获得链接
大约第三个因素(例如站点的声誉或年龄)会导致站点同时获得链接和排名。
我~
但是,我想更深入地研究这个问题,并给你一个分析这些框架的框架,因为它仍然有很多。带,例如,最近的这项研究由石庙,你可能在这张前10或兰德的微博看到这篇优秀的文章,或讨论SEMRush最近的直接交通研究。说得很清楚,我不是在批评这两项研究,但我想提请大家注意我们如何解释它们。
首先,我们会遭受一点确认偏差-我们都太急于喊过“相关性与因果关系的区别é”当我们看到成功的网站,关键字,但也同意当我们看到研究的东西我们认为是有效的或是做同样的事,如链接。
第二,我们不能批判性地分析潜在的机制。选择不只是因果关系或巧合。
在你根据相关性得出结论之前,你必须考虑各种可能性:
完全符合
反向因果关系
共同原因
线性度
广泛的适用性
如果这些都没有任何意义,那就够公平了-它们是行话。让我们举一个例子:
我警告你不要吃奶酪,因为你可能会死在你的床单,我不得不检查它是不是有下列:
完全巧合-有可能这么多数据集进行了比较,有些是必然的相似?为什么,这正是Tyler Vigen所做的事情!是的,这是可能的。
相反的因果关系——我们有可能走错方向吗?例如,也许你的亲人,在哀悼你的床单相关死亡,吃大量的奶酪来安慰自己?这似乎不大可能,所以让我们给它一个通行证。不,这是不大可能的。
联合因果关系-是否有可能在这两个因素背后有第三个因素?也许增加财富会让你更健康(所以你不会死于营养不良),也会导致你吃更多的奶酪。这似乎很合理。是的,这是可能的。
线性-我们比较两个线性趋势?线性趋势是一个稳定的增长率或下降率。任何两个随时间大致线性的统计数据都会有很好的相关性。在上面的图表中,我们的统计数据都呈直线上升趋势。如果用不同的尺度绘制图,它们可能看起来完全不相关,像这样,但是因为它们都有稳定的速率,它们仍然是很好的相关性。是的,看起来很有可能。
广泛的适用性-是否有可能这种关系只存在于某些利基情景中,或者至少在我的利基情景中不存在?也许,例如,奶酪,这对一些人来说,这是足以创造这种相关性,因为很少有床单纠缠死亡呢?是的,这似乎是可能的。
所以我们有4个“是”答案和5个检查中的一个“不”答案。
如果你的例子没有从5个检查中得到5个“不”的答案,那就是失败,你不能说这项研究已经确立了奶酪消费的排名因素或致命的副作用。
一个相似的过程应该适用于案例研究,这是另一种关联的形式——你做出改变的关系,以及一些好的(或坏的)。发生。例如,问:
我排除了其他因素(例如外部需求、季节性因素、竞争对手犯错误)吗?
我是不是通过做我想做的事情来增加流量,或者是我同时意外地改善了其他因素?
这样做是因为特定客户/项目的特殊情况吗?
2。失踪的情况下
如果我告诉你我今天的交通流量是每周20%周,你会说什么?祝贺?
如果去年这个时候上升20%呢?
如果我告诉你,它已经上升了20%年,直到最近呢?
有趣的是,一个小小的环境能完全改变这一点。这是另一个案例研究的问题和他们邪恶的倒双胞胎,交通下降分析。
如果我们真的想了解是否感到吃惊的事,积极的或消极的,我们需要把它比作我们的期望值,然后计算出我们的预期偏差是什么是“正常的”。如果这开始听起来像统计,这是因为它是统计-事实上,我写的关于测量变化早在2015的统计方法。
但是,如果你想偷懒,一个好的经验法则就是缩小并增加前几年。如果有人向你展示可疑放大的数据,你可能会想用少量的盐。
3.相信我们的工具
你会根据你的竞争者随意操纵的数字做出数百万美元的商业决定吗?嗯,你有机会,这个号码可以在谷歌分析中找到。我已经在其他地方广泛地讨论了这个问题,但是大多数分析平台都存在一些主要问题:
他们很容易操纵外部
他们如何任意分组进入会话
他们对AD阻滞剂有多么脆弱
他们是如何在抽样下表现的,他们是多么明显
例如,你知道谷歌分析API V3可以大量样本数据,同时告诉你数据取样,超过一定的交通量(~ 500000在日期范围)?我也没有,直到我们遇到它,同时构建蒸馏ODN。
类似的问题存在于许多“搜索分析”工具中。我的同事Sam Nemzer写了一堆关于这个-你知道最秩跟踪平台的报告完全不同的排名?或者是事实上的关键词被谷歌(因此工具像SEMRush和统计,太)是不等价的,不一定有大量引用?
理解我们使用的工具的优点和缺点是很重要的,这样我们至少可以知道它们何时定向准确(如他们的见解引导你朝正确的方向),即使不是完全准确的。我真的可以在这里推荐的是,他在SEO(或任何其他数字频道)一定意味着理解在你测量平台的力学这是为什么所有的新开始在蒸馏结束学习如何分析审计。
对根问题最常见的解决方案之一是合并多个数据源,但是…
4。结合数据源
有许多平台将“击败(未提供)”汇集两个或更多的数据:
分析
搜索控制台
关键词广告
排名跟踪
这里的问题是,首先,这些平台没有相同的定义,第二,具有讽刺意味的是,(没有提供)往往打破他们。
让我们先处理定义,举个例子——让我们看一个带通道的登陆页面:
在搜索控制台中,这些数据被报告为单击,并且当多个维度(例如关键字和页面)或过滤器被合并时,可能会受到严重的、不可见的采样的攻击。
在谷歌分析,这些报告使用最后非直接点击,这意味着你的有机交通包括一系列直接会话,超时,恢复中间会话,等等,这是没有进入黑暗的交通,广告阻断剂,等等。
在AdWords,大多数报告使用上的AdWords点击和转换,可以定义不同的。此外,如以上所述,关键字卷被捆绑。
排名跟踪是特定位置的,并且不一致,如上文所述。
很好,虽然它可能不是精确的,但你至少可以得到一些定向有用的数据,考虑到这些限制。然而,关于“(未提供)”…
大多数的登陆页面都会得到不止一个关键词的流量。这些关键字中的一些很可能比其他关键字转换得更好,尤其是当它们被打上烙印的时候,这意味着即使是最彻底的点击率模型也不会对你有所帮助。那么你怎么知道哪些关键词是有价值的呢?
最好的答案是,从这些关键词AdWords数据概括,但它是非常不可能的,你有所有这些组合的关键词和网页数据分析。从本质上讲,报告的工具会给出一个非常大胆的假设,即给定页面对所有关键字的转换是相同的。有些人比其他人更透明。
再说一遍,这并不是说那些工具没有价值,而是需要仔细地理解。唯一的方法,你可以可靠地填补这些空白所创造的“不提供”将花费大量的付费搜索,以获得体面的体积,转换率,并跳出率估计为所有关键字,即使如此,你还没有固定的不一致定义问题。
奖金的事:平均等级
我看得太频繁了。三个问题:
比起一个高容量查询(百万加),你更关心十个非常低容量的查询(10个月或更少的搜索)失去排名吗?如果答案不是“是的,我绝对更关心十个低容量查询”,那么这个度量不适合你,你应该考虑一个基于点击率估计的可见性度量。
当你开始排名100的关键字你没有排名之前,这是否使你不高兴?如果答案不是“是的,我讨厌新关键字的排名”,那么这个指标不适合你——因为这会降低你的平均排名。当然,你可以把所有非排名关键字当做位置100,就像一些工具允许的那样,但是,2个平均排名位置的下降真的是表示你的1/50个登陆页面已经被索引的最好方法吗?同样,请使用可见性度量。
你喜欢比较你的表现和你的竞争对手吗?如果答案不是“不,当然不是”,那么这个指标就不适合你——你的竞争对手可能拥有更多或更少的品牌关键词或长尾排名,而这将导致比较的偏差。同样,使用可见性度量。
结论
希望你发现这个有用。总结的主要结论:
批判性地分析相关和案例研究,看看你是否可以把它们解释为巧合,如反向因果关系,作为联合因果关系,通过引用第三个相互关联的因素,或者通过生态位适用性来解释。
不要看交通的变化而不看上下文-你会预测这个时期,以及有多少误差?
请记住,我们使用的工具有局限性,并研究如何影响它们显示的数字。“这个数字是怎么产生的?“这是一个重要的组成部分,这个数字意味着什么?”“
如果你最终结合了多个工具的数据,记住要弄清楚它们之间的关系——将这些信息视为定向而不是精确。