二、正负样本不平衡处理方法总结

目录
一、常用排序算法
二、正负样本不平衡处理方法总结
三、过拟合和欠拟合
1、过拟合
2、欠拟合
四、向量的相似度计算常用方法
五、模型参数和超参数
六、模型评价
【二、正负样本不平衡处理方法总结】1、准确率、查准率(精确率)、查全率(召回率)、F1:
2、ROC与AUC
3、KS(洛伦兹曲线)评分
一、常用排序算法

二、正负样本不平衡处理方法总结

文章插图
二、正负样本不平衡处理方法总结
原始数据中经常存在正负样本不均衡,比如正负样本的数据比例为100:1.
常用的解决办法有:
1、数据上处理
2、权重设置
3、集成的思想
4、转化成异常检测问题
5、利用深度学习:自编码器.
6、确定适合样本不平衡问题的评价指标
1、数据上处理
1.1、数据源:
搜集更多的数据来使数据达到平衡,但是一般出现样本不平衡问题,就是不太可能以一种简单的方法获取到更多的样本(在金融领域,可以思考坏用户的定义是否过于严格)
1.2、数据增广:
目前数据增广主要应用于图像领域,主要包括:水平/垂直翻转,旋转,缩放,裁剪,剪切,平移,对比度,色彩抖动,噪声等
1.3、欠采样(下采样):
随机欠采样:随机去除多数类一些的样本
缺点:会造成信息缺少 or 最后模型的欠拟合 。解决方法:第一种方法叫做,利用模型融合的方法():多次下采样(放回采样,这样产生的训练集才相互独立)产生多个不同的训练集,进而训练多个不同的分类器,通过组合多个分类器的结果得到最终的结果 。第二种方法叫做,利用增量训练的思想():先通过一次下采样产生训练集,训练一个分类器,对于那些分类正确的大众样本不放回,然后对这个更小的大众样本下采样产生训练集,训练第二个分类器,以此类推,最终组合所有分类器的结果得到最终结果 。第三种方法是利用KNN试图挑选那些最具代表性的大众样本,叫做,这类方法计算量很大 。
1.4、过采样(上采样):
1.4.1、随机过采样:随机增加少数类的一些样本
缺点:因为随机过采样是简单的对初始样本进行复制采样,这就使得学习器学得的规则过于具体化,不利于学习器的泛化性能,造成过拟合 。解决方法:每次生成新数据点时加入轻微的随机扰动,经验表明这种做法非常有效
1.4.2、样本合成( SMOTE):在随机过采样上进行了改进
通过组合以有的样本的各个从而产生新的样本 。一种简单的方法是从各个中随机算出一个已有值,然后拼接成一个新样本,这种方法增加了样本数目较少的那一类样本的数目,作用与上采样方法类似,不同点在于上采样是纯粹的复制样本,而合成样本是随机选取拼接得到新的样本 。具有代表性的方法 是SMOTE,利用了K近邻的思想 。
SMOTE算法的思想是合成新的少数类样本,合成的策略是对每个少数类样本a,从它的k个最近邻中随机选一个样本b,然后在a、b之间的连线上随机选一点作为新合成的少数类样本 。
算法流程:
(1)对于少数类中每一个样本a,以欧式距离为标准计算它到少数类样本集中所有样本的距离,得到k个近邻样本;
(2)根据样本不平衡比例设置一个采样比例,以确定采样倍率N,对于每一个少数类样本a,从其k近邻中随机选择若干个样本,假设选择的近邻样本为b;
(3)对于每一个随机选出的近邻b,分别与原样本a按照公式构建新的样本:c=a+rand(0,1)*|a-b|