这里主要介绍三种做法:
5.1 欠采样
欠采样()针对的是负类 , 也即移取训练集的部分反例 , 使得正类和负类的样例数目相当 。由于丢掉了大量反例 , 所以时间开销也大大减少 。但是带来一个问题就是 , 随机丢弃反例可能会丢失一些重要信息 。书中提到一种解决方法是利用集成学习机制 , 将反例划分为多个集合 , 用于训练不同的模型 , 从而使得对每个模型来说都进行了欠采样 , 但全局上并无丢失重要信息 。
5.2 过采样
过采样()针对的是正类 , 也即增加训练集的正例 , 使得正类和负类的样例数目相当 。过采样的时间开销会增大很多 , 因为需要引入很多正例 。注意!过采样 不能简单地通过重复正例来增加正例的比例 , 这样会引起严重的过拟合问题 。一种较为常见的做法是对已有正例进行插值来产生新的正例 。
5.3阙值移动
阈值移动(-)利用的是再缩放思想 。回想前面对数几率回归中 , 几率 y / (1 - y) 表示正例的相对可能性 , 我们默认以1作为阈值 , 其实是假设了样本的真实分布为正例反例各一半 。但这可能不是真相 , 假设我们有一个存在类别不平衡问题的训练集 , 正例数目为 m+, 反例数目为 m- , 可以重定义:
这就是再缩放() 。当几率大于 m+ / m- 时就预测为正例 。但必须注意 , 这种思想是 基于观测几率近似真实几率这一假设 的 , 现实任务中这一点未必成立 。
如果对软件测试有兴趣 , 想了解更多的测试知识 , 解决测试问题,以及入门指导 ,
帮你解决测试中遇到的困惑 , 我们这里有技术高手 。如果你正在找工作或者刚刚学校出来 ,
又或者已经工作但是经常觉得难点很多 , 觉得自己测试方面学的不够精想要继续学习的 ,
想转行怕学不会的 , 都可以加入我们 。
【二连续苦情剧:机器学习入门笔记:线性模型】群内可领取最新软件测试大厂面试资料和自动化、接口、框架搭建学习资料!
- 以“林肯之道”塑造独特优势林肯官方认证二手车开辟新局面 林肯官方认证二手车官网
- 练手必备,只卖1.5万的二手车! 11年夏利5多少钱
- 日本侵台战斗:损失兵力竟比甲午战争多出二倍
- 阮小五的绰号:阮小五为什么叫短命二郎
- 二手奥迪TT:修整到位,纵享敞篷风味 二手奥迪值得入手吗
- 高功率+quao,坐拥零百5.9秒实力——二手奥迪A4L 二手奥迪s4多少钱
- 解密:为何明朝违反惯例皇帝多用二字之名?
- 揭秘女皇武则天做才人十二年的心路历程
- 美国著名网站评测二十款新车宝马iX入围最佳电动汽车特斯拉未入围 电动汽车网站
- 个人二手车转让,天津市 个人出售二手车在哪里