二、正负样本不平衡处理方法总结 _roc

目录
一、常用排序算法
二、正负样本不平衡处理方法总结
三、过拟合和欠拟合
1、过拟合
2、欠拟合
四、向量的相似度计算常用方法
五、模型参数和超参数
六、模型评价
【二、正负样本不平衡处理方法总结】1、准确率、查准率(精确率)、查全率(召回率)、F1:
2、ROC与AUC
3、KS（洛伦兹曲线）评分
一、常用排序算法

文章插图
二、正负样本不平衡处理方法总结
原始数据中经常存在正负样本不均衡，比如正负样本的数据比例为100：1.
常用的解决办法有：
1、数据上处理
2、权重设置
3、集成的思想
4、转化成异常检测问题
5、利用深度学习：自编码器.
6、确定适合样本不平衡问题的评价指标
1、数据上处理
1.1、数据源：
搜集更多的数据来使数据达到平衡，但是一般出现样本不平衡问题，就是不太可能以一种简单的方法获取到更多的样本（在金融领域，可以思考坏用户的定义是否过于严格）
1.2、数据增广：
目前数据增广主要应用于图像领域，主要包括：水平/垂直翻转，旋转，缩放，裁剪，剪切，平移，对比度，色彩抖动，噪声等
1.3、欠采样（下采样）：
随机欠采样：随机去除多数类一些的样本
缺点：会造成信息缺少 or 最后模型的欠拟合。解决方法：第一种方法叫做，利用模型融合的方法（）：多次下采样（放回采样，这样产生的训练集才相互独立）产生多个不同的训练集，进而训练多个不同的分类器，通过组合多个分类器的结果得到最终的结果。第二种方法叫做，利用增量训练的思想（）：先通过一次下采样产生训练集，训练一个分类器，对于那些分类正确的大众样本不放回，然后对这个更小的大众样本下采样产生训练集，训练第二个分类器，以此类推，最终组合所有分类器的结果得到最终结果。第三种方法是利用KNN试图挑选那些最具代表性的大众样本，叫做，这类方法计算量很大。
1.4、过采样（上采样）：
1.4.1、随机过采样：随机增加少数类的一些样本
缺点：因为随机过采样是简单的对初始样本进行复制采样，这就使得学习器学得的规则过于具体化，不利于学习器的泛化性能，造成过拟合。解决方法：每次生成新数据点时加入轻微的随机扰动，经验表明这种做法非常有效
1.4.2、样本合成（ SMOTE）：在随机过采样上进行了改进
通过组合以有的样本的各个从而产生新的样本。一种简单的方法是从各个中随机算出一个已有值，然后拼接成一个新样本，这种方法增加了样本数目较少的那一类样本的数目，作用与上采样方法类似，不同点在于上采样是纯粹的复制样本，而合成样本是随机选取拼接得到新的样本。具有代表性的方法是SMOTE，利用了K近邻的思想。
SMOTE算法的思想是合成新的少数类样本，合成的策略是对每个少数类样本a，从它的k个最近邻中随机选一个样本b，然后在a、b之间的连线上随机选一点作为新合成的少数类样本。
算法流程：
（1）对于少数类中每一个样本a，以欧式距离为标准计算它到少数类样本集中所有样本的距离，得到k个近邻样本；
（2）根据样本不平衡比例设置一个采样比例，以确定采样倍率N，对于每一个少数类样本a，从其k近邻中随机选择若干个样本，假设选择的近邻样本为b；
（3）对于每一个随机选出的近邻b，分别与原样本a按照公式构建新的样本：c=a+rand(0,1)*|a-b|