二分类器解决多分类问题

两种思路:
以SVM为例
1.one--rest 思想:
【二分类器解决多分类问题】假设一共有1,2,3,4,5个类别的数据
对于第1类,训练一个分类器:第1类是正样本,其余类的样本都是负样本
对于第2类,训练一个分类器:第2类是正样本,其余类的样本都是负样本
以此类推,一共训练出五个分类器
在预测阶段,对于输入的待分类样本,分别从第一个分类器开始询问是否属于该类别,该分类器“承认”,就将该样本判别为该类
存在的问题:
分类重叠现象:某个待分类样本被多个分类器“认领”(可以计算该样本与这些分类器对应超平面的距离,选择距离最远的)

二分类器解决多分类问题

文章插图
不可分类现象:所有分类器都不“认领“”某个待分类样本(设置一个“其他类,专门用来存放异常类”,容易造成数据集偏斜问题???)
ps:这种方式会有数据集偏斜问题(因为是一对多),影响分类面划分的准确性,如下图:
数据集偏斜问题:在分类问题中某一类的样本数量与其他样本数据量相差较大&