为什么会说干货分享 干货是什么意思( 二 )


因为我们要依靠已有的数据 , 去预测未来可能会发生的事 , 这就是机器学习的核心之二:定模型关系预测 。
比方说 , 这时候有一个人说我每天吃 20 克的糖 , 这样我们可以利用上面找到的关系 , 算出这个人的体重大概在78.863 千克 。
至于准不准 , 我们会在之后的文章里谈论 。02 什么是交叉验证?
Cross (交叉验证) , 又一个高大上的名字 。不要被唬住 , 其实道理说白了很简单 。
比方说我们手上有1000个人的糖摄入量和体重的数据 , 我们并不能用全部的数据去建立模型 。

为什么会说干货分享  干货是什么意思

文章插图
一般来说 , 
如果你用了所有的数据去建立模型 , 那你根本就没有任何数据去验证模型了 。
有的同学说 , 我可以用建立模型的数据去验证啊!
打个比方 , 你的数据 - 100个男人里 , 有98个怕老婆 , 2个不怕(因为没老婆) , 那你建立的模型结论是 98%的男人怕老婆!
如果你用建模型的数据去检测 , 你当然会发现这个模型太准了 。但事实是这样吗?
因此 , 一般来说 , 会将已有数据分成两份:
为什么会说干货分享  干货是什么意思

文章插图
交叉验证
如上图 , 我们一共有20个数据 。我们将其中5个数据拉出来用于检验模型 , 另外15个建立模型 。也就是说 , 数据被分成了4份 , 每一份5个数据 。
为什么会说干货分享  干货是什么意思

文章插图
第一需要弄明白为什么需要交叉验证?
的方法太多了 , 什么SVM ,   , K- 等等 , 你怎么去比较哪一种方法更好呢?
建模 + 验证
是这样没错 , 但是你怎么能保证你挑选出来用于建立和验证模型的数据就是最合理的呢?
仔细观察上图 , 20个数据点 , 10个红球 , 10个绿球 。
上图第一行:
前5个数据用于验证 , 后15个数据用于建模(8个红的 , 7个绿的) , 这样去建立的模型 , 红球出现的概率更高 。这就和真实情况有出入 , 因为红球和绿球明明一样多 。
这就引出了 交叉验证 了 。
把数据分成4份 , 标注为A , B , C , D 。
这样做我们就可以保证:
对挑选的几种 机器学习的方法都这样处理一遍 , 然后给模型总体表现排序 , 最好的自然就是我们所要用的方法了 。
分成四份 , 如上例 , 叫做 4倍交叉验证(Four-Fold Cross ) 。
为什么会说干货分享  干货是什么意思

文章插图
K-Fold Cross
一般实际应用的时候 , 数据被分成10份 , 就是10倍交叉验证 。
为什么会说干货分享  干货是什么意思

文章插图
03 总结
逃学博士一直觉得 , 很多看似高深的知识背后 , 都是基础知识的延伸 , 只不过被套上了很多高大上的专有名词 。
介绍机器学习 , 先给你整一堆 专有名词 , 听众觉得完全听不懂 , 但是感觉好厉害的样子 。
专业的划分不是知识的划分 , 是看怎么把知识点包装成只有专业内的人才能听得懂的形式 。