统计数字会撒谎( 三 )


詹姆斯
11
20
55.00%
33.33%
12
23
52.17%
库里
57.14%
17
47.06%
12
24
50.00%
詹姆斯的两分球命中率也低于库里,三分球命中率也低于库里,但是汇总起来看,詹姆斯的投篮命中率是要高于库里的!
百科上对辛普森悖论的解释:
计算分项的比例(比如各种各样的率)数据时,A的每一分项的数据都比B要高,但是把各分项一汇总起来算总体数据时,A却比B低 。这种不符合常规认知的“悖论”现象,在数据分析领域并不少见;这种在进行分组研究的时候,有时在每个组比较时都占优势的一方,在总评中有时反而是失势的一方的“悖论”现象就叫辛普森悖论 。
在数学上的解释:
詹姆斯的投篮主要来自于两分球,三分球投的少(总投篮命中率主要由其两分球命中率主导)
库里的投篮主要来自于三分球,两分球投的少(总投篮命中率主要由其三分球命中率主导)
而三分球的命中率天然就会比两份球低得多,尽管库里三分球命中率远高于詹姆斯的三分球命中率,但再高也没有詹姆斯的两分球命中率高 。
3.2 扩展
在真实的数据分析工作中,真实的数据形态往往更复杂,更多样,而标准的辛普森悖论也有很多的扩展甚至是变种的形态 。根据数据分析经验总结起来,辛普森悖论更多的时候是从总体拆分到细项维度的时候发现的,而触发辛普森悖论,就是因为你选择了这个维度做拆分 。所以,在数据分析中,对决策危害最大的错误就是:在分析的时候遗漏了关键的维度;而触发辛普森悖论的维度,恰恰是最不应该遗漏的!
所以,辛普森悖论的扩展定义可以归纳为:在增加了维度后使得数据结论反转的现象,均可称为是辛普森悖论现象
3.3 应用
尽管每个系女生的录取率都更高,但整体算下来男生的录取率却更高
地理系 8名男性报名(8/13=61.5%),录取了6人(6/8=75%)
【统计数字会撒谎】历史系 8名女性报名(8/13=61.5%),录取了2人(2/8=25%