fit_transform,fit,transform区别和作用详解!!!!!!

【fit_transform,fit,transform区别和作用详解!!!!!!】写在前面fit,,常用情况分为两大类 1. 数据预处理中方法
根据对之前部分进行fit的整体指标,对剩余的数据()使用同样的均值、方差、最大最小值等指标进行转换(),从而保证train、test处理方式相同 。所以,一般都是这么用:
from sklearn.preprocessing import StandardScalersc = StandardScaler()sc.fit_tranform(X_train)sc.tranform(X_test)
2. 各种算法的fit,方法1. 举例,的库是根据输入数据获取词频矩阵(稀疏矩阵)2. 举例,TF-IDF(Term*Doc )词权重
在较低的文本语料库中,一些词非常常见(例如,英文中的“the”,“a”,“is”),因此很少带有文档实际内容的有用信息 。如果我们将单纯的计数数据直接喂给分类器,那些频繁出现的词会掩盖那些很少出现但是更有意义的词的频率 。

fit_transform,fit,transform区别和作用详解!!!!!!

文章插图
为了重新计算特征的计数权重,以便转化为适合分类器使用的浮点值,通常都会进行tf-idf转换 。词重要性度量一般使用文本挖掘的启发式方法:TF-IDF 。IDF,逆向文件频率()是一个词语普遍重要性的度量(不同词重要性的度量) 。
总结:
上述第一类和第二类等价 。算法中的fit方法的应用等价于第一类的fit,只不过产生的结果意义不同(不是均值等统计意义,而是根据算法本身拟合获取不同信息以备后用),根据fit的结果转换成目标形式,具体需深究代码实现 。
Note:附: 另一个角度理解fit和
是fit和的结合,所以只需要了解fit和 。
方法主要用来对特征进行转换 。
从可利用信息的角度来说,转换分为无信息转换和有信息转换 。
通过总结常用的转换类,我们得到下表:
所以,只有有信息的转换类的fit方法才实际有用,显然fit方法的主要工作是获取特征和目标值有价值的信息,在这点上,fit方法和模型训练时的fit方法就能够联系在一起了:**都是通过分析特征和目标值,提取有价值的信息 。对于转换类来说是某些统计量;对于模型来说可能是特征的权值系数等 。