ccc-sklearn-1-决策树( 四 )


缺点:
可能创建过于复杂的树,称为过度拟合 。修剪,设置叶节点所需的最小样本数或设置树的最大深度等机制是避免此问题所必需的,而这些参数的整合和调整对初学者来说会比较晦涩决策树可能不稳定,数据中微小的变化可能导致生成完全不同的树,这个问题需要通过集成算法来解决 。决策树的学习是基于贪婪算法,它靠优化局部最优来试图达到整体的最优,但这种做法不能保证返回全局最优决策树 。这个问题也可以由集成算法来解决,在随机森林中,特征和样本会在分枝过程中被随机采样 。有些概念很难学习,因为决策树不容易表达它们,例如XOR,奇偶校验或多路复用器问题 。如果标签中的某些类占主导地位,决策树学习者会创建偏向主导类的树 。因此,建议在拟合决策树之前平衡数据集 。