建立脑影像机器学习模型的step-by-step教程( 三 )


接下来检查数据集的大小 。

建立脑影像机器学习模型的step-by-step教程

文章插图
为了处理构建机器学习管道时一些最常见的问题,我们的数据准备阶段将检查以下数据集:
19.5.5.2缺失数据
大多数机器学习模型不支持缺失值的数据 。因此,检查中是否有任何缺失值是很重要的 。下面我们使用来自的函数()来确定每个特性总共有多少缺失数据,以及缺失数据的参与者的id 。
我们可以看到有43个缺失的年龄值 。没有这方面的资料,就无法对不平衡的人口数据进行彻底的评估,这在解释结果时可能会有问题 。这里有许多不同复杂程度的选项(关于这些选项的更多信息请参见第14章) 。因为删除这些参与者只会损失总数据的6%,所以我们将简单地删除他们 。我们可以通过使用来自的()函数来做到这一点 。
正如预期的那样,新的比以前少了43个参与者 。
19.5.5.3类别不平衡
接下来,让我们检查每个类别的总人数:
在我们的数据集中,共有367名对照组和330名患者 。类别之间似乎没有很大的不平衡 。然而,这两个类别并不完全匹配 。正如我们在第2章中提到的,这可能会在估计模型性能时产生问题 。一种选择是将HC降采样以匹配SZ组 。然而,这意味着除了我们已经丢弃的6%之外,还会丢失更多的数据,这是不希望看到的 。由于不平衡不是太大,我们将保留相同的数据,并使用平衡的准确性作为我们选择的性能指标,以及分层CV方案,以确保CV迭代中SZ/HC的比例相同 。
19.5.5.4混淆变量
人们可能想要检查许多潜在的混淆变量 。在这里,我们将调查两个明显的问题:性别和年龄 。
将性别作为可能的混淆因素进行调查的一种简单方法是验证患者和对照组中男性和女性的比例 。让我们先用来可视化一下每一组的性别比例 。使用这个库绘制数据非常简单() 。请注意,操作基于另一个名为的库,这是中使用最广泛的绘图库 。为了编辑图形中的一些元素(例如,将图形框中的M和F改为Male和),我们也将使用 。
我们可以看到这两组的男性数量相当相似 。然而,对照组比患者组有更多的女性 。除了使数据可视化之外,最好总是执行适当的统计检验,即使在目视检查中没有明显的偏差 。由于性别是一个分类变量,我们将采用齐性的检验来检查这种差异是否具有统计学意义 。在本例中,我们想检验零假设,即HC组中的女性比例与患者组中的女性比例没有差异(相当于检验HC组的男性比例与患者组的男性比例没有差异) 。
以上结果表明,这两个类别在性别方面确实存在统计学上的显著差异(p