终于有人说清楚 “幸存者偏差” 了

互联网及IT行业的变化非常快,正如《爱丽丝梦游仙境》中红桃皇后说过的一句话:“在我们这个地方,你必须不停地奔跑,才能留在原地 。如果你要抵达另一个地方,你必须以双倍于现在的速度奔跑 。”这不是童话,而是如今的现实生活——每个人都在逼自己变得优秀 。
如何应对快速变化的世界呢?这就是本章要来学习的主题:快速学习能力、创新能力 。快速学习有许多方法,在探讨这些具体方法之前,首先来了解“幸存者偏差”现象,它是阻碍对这个世界正确认知的一道屏障 。
幸存者偏差,最早来源于二战时期一个飞机防护的案例 。1941年二战期间,应军方要求,美国哥伦比亚大学统计学的沃德教授,通过其精深的专业知识,写了一篇《飞机应该怎样加强防护,才能降低被炮火击落几率》文章,提出了种种建议,其中最重要的一条是,沃德教授根据飞机遭受攻击后的数据分析发现:飞机的机翼是最容易被击中的位置,机尾相对来说则最少被击中,如图所示 。
二战飞机中弹图@图自网络,侵删
据此,沃德教授建议“应该重点强化机尾的防护”,军方对此大为不解,认为既然机翼最容易被击中,那么就应该加强机翼的防护 。
沃德教授则坚持自己的看法,其根据有三:
第一,他所统计的样本只是那些平安返回的飞机;
第二,被炮火多次击中机翼的飞机,似乎还能够安全返回;
第三,飞机机尾很少被击中并不是真相,而是万一中弹,其安全返航的几率就非常低 。
后来,军方被沃德教授说服,采用了他的建议,而后来的事实也表明该决策是无比正确的,那些看不见的“伤痕”才是最致命的 。
这个案例有两个思维启示:一是那些战死或被俘的飞行员无法发表意见,因此数据的来源本身就存在严重偏差;二是那些作战经验丰富甚至经历过血战的飞行员的专业意见也不一定能提奥决策的准确率,因为他们中大多是机翼中弹、机尾未中弹的幸存者 。

终于有人说清楚 “幸存者偏差” 了

文章插图
说到这里,要理解“幸存者偏差”就很容易了,不过还是要给出专业的定义:
幸存者偏差( bias),是一种常见的逻辑谬误,指的是只能看到经过某种筛选而产生的结果,而没有意识到筛选的过程,因此忽略了被筛选掉的关键信息 。日常表达为“沉默的数据”“死人不会说话”等 。
幸存者偏差现象在生活中比比皆是,例如:“比尔·盖茨辍学,所以成为世界首富”、“考大学没有用,因为北大毕业的人,还不是去卖猪肉”等 。
在软件开发和运维工作中,这样的案例也不少,“直播带货能成功,是因为主播有人气”,殊不知,网红带货主播背后的工厂、仓储、直销体系之完备,价格及服务承诺也是全网最优,用专业的词汇来形容就是:网红直播卖货模式,是一次供应链全生命周期的升级 。
所以,当业务方提出了要做直播带货系统的需求,必须具备以上业务认知去引导业务方,思考整体供应链是否具备升级的可能,否则就是伪需求 。
再比如,运维同学一次白天线上维护的误操作导致数据库被删除,在做事故分析的时候,很容易把结论归结为禁止白天做线上操作 。
而有经验的运维经理会引导大家做更全面的事故分析,把事故过程列出来,什么时间发生了什么,谁做了什么,根据整个过程发现的问题,制定一系列改进措施,这样全面收集数据、全局性思考,就不容易进入幸存者偏差 。
下面来聊一聊避免幸存者偏差的3个方法:
贝叶斯公式 。前文提到了瓦尔德对飞机防护的案例,可以用贝叶斯公式来分析一下瓦尔德和众人的分歧出在什么地方,而谁的假设更为合理 。设X=飞机被击中的部位,Y=1,0表示飞机是否返航 。设空战中飞机被击中的部位X的分布为 P(X),而返航飞机的X分布为条件分布P(X|Y=1) 。于是有: