大数据分析陷阱与Simpson’s Paradox(辛普森悖论)
2019-03-01 来源:raincent
在大数据分析时,你有没有遇到这样一种奇怪现象:当分开看数据的时候会得到一种结论,但是合起来之后发现情况却完全改变?这就是著名的辛普森悖论。它总是隐藏在大数据之中,成为大数据分析的陷阱之一。
1、含义
辛普森悖论(Simpson’s Paradox)是概率和统计学中的一种现象,即几组不同的数据中均存在一种趋势,但当这些数据组组合在一起后,这种趋势消失或反转。
2、案例
案例1:肾结石治疗
这是一个真实案例,比较了两种肾结石治疗的成功率。其中方案A包括所有开放式外科手术,方案B仅涉及小的穿刺,
小肾结石和大肾结石的治疗的成功率和治疗案例数如下表所示:
(括号中的数字表示:成功案例数/治疗总案例数)
从表格中可以发现治疗方案A的成功率更高,那是否我们就应该选择方案A呢?
我们把两种治疗方案进行总计,却发现方案B的成功率更高。
案例2:运动与患病的关系
假设我们有关于每周运动小时数与两组患者(50岁以下和50岁以上患者)患病风险的数据。下图显示根据年龄分层的疾病概率与每周运动小时数的关系图。我们清楚地看到其呈现负相关关系,表明每周运动水平的增加可以使患病的风险降低。
当我们将数据组合在一起:相关性完全逆转了! 如果只显示这个数字,我们会得出结论,运动增加了疾病的风险!这与常理相悖。
3、原理
数据中存在多个单独分布的隐藏变量,不当拆分时就会造成辛普森悖论。这种隐藏变量被称为潜伏变量,并且它们通常难以识别。而这种潜伏变量可能是由于采样错误或者数据领域本身属性造成的。
1)如案例1所示,可能是由于我们的采样方法存在误差导致加权结果出现问题,不同大小的结石中对于不同方法的应用数量有较大的差异,没有做到正确的控制变量。
2)如案例2所示,年龄就是一个与患病非常相关的潜伏变量,如果绘制患病概率与年龄的关系,我们可以看到患者的年龄与疾病概率强烈正相关。
随着患者年龄的增加,患病的风险增加。所以即使运动量相同,老年患者也比年轻患者更容易患病。
4、启示
在大数据分析时代,我们尝试在很短的时间内检测模式并做出决策。 时间越短,出现短期误导的可能性越大,越不可能找到被隐藏的真正趋势,导致错误的决策和行动。
如果我们依赖于经过严格模板化和打包的软件并且没有意识到数据的驱动因素和限制,那么这些偏见的出现概率会很大。
辛普森悖论警示我们在大数据分析和数据科学过程中要更加注意以下几个方面:
1)不能单纯看数据本身。直接计算会得出错误的结论,我们必须考虑数据生成过程——因果模型——决定数据,减少潜伏变量的影响。
2)对数据保持怀疑态度。数据分析中我们总是试图从单一的数据观点来看待整个事件,而不是用理性认真思考并深入挖掘。特别是当有人要销售产品或实施议程时,我们必须对这些数字保持批判性思维。
3)关注数据采样的正确性。了解我们是否正在查看采样不良的数据或悖论的真实案例,这一点非常重要,更可能早的避免决策错误的发生。
4)找到数据中的潜伏变量。尽可能多地检查、重组合和重采样数据。如果从不同分类中可以得出多个不同的结论,我们需要知道我们寻找的重点,并用最佳的数据观点来公正地表达真相。
5)很强的洞察力和领域知识。如果没有足够的洞察力和领域知识,我们无法找到隐藏在数据背后的潜伏变量,使得简单的统计分析也可以彻底误导和激发错误的决策。
参考文献
[1] https://towardsdatascience.com/simpsons-paradox-and-interpreting-data-6a0443516765
[2] https://en.wikipedia.org/wiki/Simpson%27s_paradox
[3] https://towardsdatascience.com/simpsons-paradox-how-to-prove-two-opposite-arguments-using-one-dataset-1c9c917f5ff9
[4] https://towardsdatascience.com/solving-simpsons-paradox-e85433c68d03
[5] https://www.analyticsindiamag.com/understanding-simpsons-paradox-and-its-impact-on-data-analytics/
版权申明:本站文章部分自网络,如有侵权,请联系:west999com@outlook.com
特别注意:本站所有转载文章言论不代表本站观点!
本站所提供的图片等素材,版权归原作者所有,如需使用,请与原作者联系。