实战天池精准医疗大赛之二_再接再厉( 二 )


第一种情况:从5000个实例中找到包含5个实例的类别 。(血糖超20)
第二种情况:从5000个实例中找到包含100个实例的类别 。(血糖超11.1,尿糖病)
第三种情况:从5000个实例中找到包含1000个实例的类别 。(血糖超6.1,不正常)
【实战天池精准医疗大赛之二_再接再厉】第一种情况下,类中只有5个实例,实例太少,无法取均值,因为只要其中一值太大或太小,都会严重影响均值 。此时,每个实例都很重要,可以考虑使用距离类的算法,比如K近邻 。另外,可以查看这些实例中各个特征与均值的差异,从而构建规则 。

实战天池精准医疗大赛之二_再接再厉

文章插图
第二种情况下,类中有100个实例,占整体的2%,这些实例之间可能有一些重合的特点,可以统计的一些共同特征,一般不止一种模式,可尝试聚类,找到一些规律 。也可以用类的统计特征和整体的统计特征相比较,或者考虑贝叶斯类的算法 。?第三种情况下,类中有1000个实例,占整体20%,这也是最常见的一种情况,它不再是从正常中找异常,而是从正常中找正常,基本属于大地问题了,有1000个实例,量也足够大,必然涵盖了很多种情况,可以考虑分类树比如GBDT类型的算法 。
以上三种情况都是从整体中选出少数实例,里面有一个隐含的特征非常重要:整体的均值,它的作用就像是人的常识一样 。
5. 算法
选择算法上有个误区:非此即彼 。我们希望把每个实例都正确分类,但这往往是不可能的 。比如在本题的情况下,可以先用GBDT的算法做一个 。在改进的过程中,选择一些规则类的算法 。
这里指的规则,比如说,我们只关心血糖高于11.1的(正例),就可以从树分类器上切出一些只含有正例的分枝,而并不关注树的其它部分,从而生成一套规则集 。预测时,符合规则的按糖尿病处理,不合规则的再用预测 。
6. 调参
本题中我试用过SVM, RF, ,,评分最高的还是和,除了速度有些差异以外,结果几乎是一样的,使用的是的cv调参 。
需要注意的是,有的参数还是需要具体问题具体分析,不能只依赖自动调参,比如说,像最小叶节点这种参数,一般为避免过拟合,自动调参会建议5-6,但本问题中血糖超过20的只有4个实例,而且明显不能归为同一类,如果限定了最小叶节点为5,那这种大值就永远预测不到了 。
7. 竞赛方法
一开始觉得技术圈里的交流实在是太少了,和没法比(虽然中的文章和示例也主要在新手学习区) 。后来进了钉钉群,发现还挺热闹的,可能因为群里反馈更快,很多东西就在群里交流了,结果也没能记录下来 。尽管大家不会在钉钉群里详细讲算法,但有时只言片语也有很大的启发作用,尤其是在没有思路的情况下 。另外,有的人会试一些算法,然后公开结论,这样也能少走很多冤枉路 。
另外需要注意的是调整心态,反复被踢出排行榜的心态必然不好,于是很想打回来,不断寻找下一次提交的目标,每天提交两次,每个计划都是8小时以内的,不断寻找部局最优解,微调再微调 。但如果不在整个结构上调整,提分会特别有限 。