文章插图
文章插图
在科学或医学领域,几乎每一个重大的新发现的背后,都藏着这样一个问题:是什么让我们确信结果足够可靠?从技术上来说,答案与统计显著性有关,但事实上,它也与判断标准在某种特定情况下是否合理有关 。
在谈论统计显著性时,通常使用的是标准差,以小写希腊字母σ表示 。这个术语讨论的是一个给定数据集中变化性的大小,换句话说,它反映了数据点是都聚集在一起的,还是非常分散的 。
在许多情况下,实验的结果会遵循正态分布 。例如,如果你把一枚硬币掷100次,然后数一数正面出现多少次,会发现平均来说答案应该是50次 。但是,假设你真的进行了1000组这样的“百次掷硬币”测试,在大多数情况下,每组测试中可能会出现50次左右的正面,但不一定是正好50次 。可能有差不多的组掷出了49次正面和51次正面的情况,或许还有不少组掷出了45次或55次正面的情况,但可能很少出现只有10次正面或者多达90次正面的情况 。
这1000组测试结果可以构成一个你可能非常熟悉的形状——它中间最高,越往两边越来越矮,这条曲线也被称为钟形曲线 。这就是正态分布 。
文章插图
差(deviation)是给定数据点与均值(μ)的距离 。在上面的掷硬币例子中,掷出47次正面与均值50次之间的差就是3 。在计算上,标准差σ就是所有差的平方的平均数的平方根 。在距离正态分布曲线的均值一个标准差(±1σ)的位置画出一片区域,就能定义一个包含约68%的数据点的范围;如果扩大至两个标准差(±2σ),则将包含约95%的数据点;如果是三个标准差(±3σ),则将范围扩大到了约99.7% 。
文章插图
什么时候某个特定的数据点(也就是研究结果)能被认为是显著的呢?标准差可以提供一种标准:如果一个数据点与被测试的模型有数个标准差之远,这就是一种有力的证据,证明这一数据点与该模型不一致 。然而,要如何运用这种标准则要视情况而定 。
麻省理工学院John Tsitsiklis教授说:“统计学是一门艺术,有很大的创造空间,也有很大的错误空间 。”这门艺术的关键之一,就是决定对于给定的条件,什么样的测量方法是有意义的 。
例如,如果你要对人们将计划如何在选举中投票一事进行民意调查,公认的惯例是,高于或低于均值的两个标准差(95%置信水平)是合理的 。这意味着,如果你向所有人调查了一个问题并得到了一个确定的答案,然后向随机抽样的1000人询问同样的问题,那么有95%的可能,第二组的结果会落在距第一次结果2σ的范围内 。
但反过来说,这也意味着有5%的情况,结果会超出2σ的范围 。这样的不确定性对民调来说是可以接受的,但对于一项关键的实验结果来说,尤其是那种挑战了科学家对一个重要现象的理解的结果,情况可能又不一样 。
2011年秋天,欧洲核子研究中心(CERN)的一项实验宣布,可能探测到了中微子的运动速度超过光速的现象 。从技术上讲,这个实验的结果有着极高的置信水平——6σ 。在大多数情况下,5σ已经被认为是显著性的黄金标准,那相当于这一发现是随机变化的结果的概率,只有百万分之一;而6σ则基本上在说,只有五亿分之一的概率,这一发现是随机的侥幸结果 。
但是,这项实验结果意味着,一个世纪以来被广泛接受的物理学,且已经在之前的数千种不同实验中得到证实的物理学,将有可能被推翻 。对这样一项具有如此颠覆性的实验来说,6σ的结果还远远不够好 。并且,要接受这一结果的一个大前提是假设研究人员已经正确地进行了分析,且没有忽略系统性的错误来源 。事实证明,正如大多数物理学家所认为的,正是一些被忽视的错误来源,才导致出现了如此出乎意料的“革命性”结果 。
同样在2011年,CERN还宣布了另一项可能的探测结果,被称为希格斯玻色子 。这是一种理论预测的亚原子粒子,它能帮助解释粒子为什么有质量 。虽然当时的探测结果只有2.3σ的置信水平看,但是这一结果符合基于当前物理学的预期,尽管在统计上的置信水平要低得多,但大多数物理学家从一开始就对它很有信心 。
- 白居易是诗什么苏轼是诗什么 白居易是诗什么的称号
- 为什么说鱼的记忆力好 为什么说鱼的记忆只有7秒
- 巨蟹座和什么座是好朋友 巨蟹座和什么座最配 巨蟹座的最佳伴侣
- 汽车脚垫包门槛的利弊 汽车脚垫包门槛的好还是不包的好
- 体脂率在线计算器 体脂率怎么计算 女性体脂率标准算法
- lol怎么跟对面打字 LOL怎么和对面的人说话
- 谭佑铭个人资料谭佑铭背景及演过的影视剧图片
- 酒店里的什么不能用 酒店用的什么被子又轻又暖和
- 李亦航个人资料李亦航背景及演过的影视剧图片
- cod19遇见挂机的怎么办