二、正负样本不平衡处理方法总结( 四 )


5、杰卡德相似度
系数主要用于计算符号度量或布尔值度量的个体间的相似度,因为个体的特征属性都是由符号度量或者布尔值标识,因此无法衡量差异具体值的大小,只能获得“是否相同”这个结果,所以系数只关心个体间共同具有的特征是否一致这个问题 。
import numpy as npdef jaccard(x,y):intersection_cardinality = len(set.intersection(*[set(x),set(y)]))union_cardinality = len(set.union(*[set(x),set(y)]))return intersection_cardinality / union_cardinalityprint(jaccard([1,2,3,1,2,3],[3,4,5,3,4,5]))#output:0.2
6、皮尔森相关系数()
又称相关相似性,通过相关系数来度量两个用户的相似性 。计算时,首先找到两个用户共同评分过的项目集,然后计算这两个向量的相关系数 。一般用于计算两个定距变量间联系的紧密程度 。用来反应两个变量线性相关程度的统计量,取值在[-1,1]之间,绝对值越大,表明相关性越强,负相关对于推荐的意义小 。
五、模型参数和超参数
1、模型参数
模型参数是模型内部的配置变量,可以用数据估计模型参数的值 。
模型参数具有以下特征:进行模型预测时需要模型参数;模型参数值可以定义模型功能;模型参数用数据估计或数据学习得到;模型参数一般不由实践者手动设置 。
通常使用优化算法估计模型参数,优化算法是对参数的可能值进行的一种有效搜索 。
模型参数的一些例子包括:人造神经网络的权重;支持向量机中的支持向量;线性回归或逻辑回归中的系数 。
2、模型超参数
模型超参数是模型外部的配置,其值不能从数据估计中得到,必须手动设置参数的值 。
具体特征有:模型超参数常应用于估计模型参数的过程中;模型超参数通常由实践者直接指定;模型超参数通常可以使用启发式方法来设置;模型超参数通常根据给定的预测模型问题而调整 。
怎么得到最优值:对于给定的问题,我们无法知道模型超参数的最优值,但我们可以使用经验法则来探寻其最优值,或复制用于其他问题的值,也可以通过反复试验的方法 。
模型超参数的一些列子包括:训练神经网络的学习率;支持向量机的C和sigma超参数;k邻域中的k 。
六、模型评价
分类模型评估:
指标描述-learn函数
精准度
from .
召回率
from .
F1
F1值
from .
混淆矩阵
from .
ROC
ROC曲线
from .roc
AUC
ROC曲线下的面积
from .auc
回归模型评估:
指标描述-learn函数
MeanError (MSE, RMSE)
平均方差
from .
Error (MAE, RAE)
绝对误差
from ., r
R-
R平方值
from .
1、准确率、查准率(精确率)、查全率(召回率)、F1:

二、正负样本不平衡处理方法总结

文章插图
查准率是针对我们预测结果而言的,它表示的是预测为正的样本中有多少是对的 。那么预测为正就有两种可能了,一种就是把正类预测为正类(TP),另一种就是把负类预测为正类(FP) 。
P = TP / (TP + FP)
而召回率是针对我们原来的样本而言的,它表示的是样本中的正例有多少被预测正确了 。那也有两种可能,一种是把原来的正类预测成正类(TP),另一种就是把原来的正类预测为负类(FN).
R = TP / (TP + FN)
查准率和查全率是互相影响的,理想情况下是做到两者都高 。但是一般情况下查准率高、查全率就低 。
如果是做搜索,那就是保证查全率的情况下提升查准率;如果是做疾病监测、反垃圾,则是保证查准率的条件下,提高查全率 。两者都要求高的情况下,可以用F1来衡量 。