二连续苦情剧：机器学习入门笔记：线性模型( 四 ) _线性模型

这里主要介绍三种做法：
5.1 欠采样
欠采样（）针对的是负类，也即移取训练集的部分反例，使得正类和负类的样例数目相当。由于丢掉了大量反例，所以时间开销也大大减少。但是带来一个问题就是，随机丢弃反例可能会丢失一些重要信息。书中提到一种解决方法是利用集成学习机制，将反例划分为多个集合，用于训练不同的模型，从而使得对每个模型来说都进行了欠采样，但全局上并无丢失重要信息。
5.2 过采样
过采样（）针对的是正类，也即增加训练集的正例，使得正类和负类的样例数目相当。过采样的时间开销会增大很多，因为需要引入很多正例。注意！过采样不能简单地通过重复正例来增加正例的比例，这样会引起严重的过拟合问题。一种较为常见的做法是对已有正例进行插值来产生新的正例。
5.3阙值移动
阈值移动（-）利用的是再缩放思想。回想前面对数几率回归中，几率 y / (1 - y) 表示正例的相对可能性，我们默认以1作为阈值，其实是假设了样本的真实分布为正例反例各一半。但这可能不是真相，假设我们有一个存在类别不平衡问题的训练集，正例数目为 m+, 反例数目为 m- ，可以重定义：
这就是再缩放（）。当几率大于 m+ / m- 时就预测为正例。但必须注意，这种思想是基于观测几率近似真实几率这一假设的，现实任务中这一点未必成立。
如果对软件测试有兴趣，想了解更多的测试知识，解决测试问题,以及入门指导，
帮你解决测试中遇到的困惑，我们这里有技术高手。如果你正在找工作或者刚刚学校出来，
又或者已经工作但是经常觉得难点很多，觉得自己测试方面学的不够精想要继续学习的，
想转行怕学不会的，都可以加入我们。
【二连续苦情剧：机器学习入门笔记：线性模型】群内可领取最新软件测试大厂面试资料和自动化、接口、框架搭建学习资料！

二 连续苦情剧：机器学习入门笔记：线性模型( 四 )

二连续苦情剧：机器学习入门笔记：线性模型( 四 )