刚面完阿里蚂蚁金服的大数据工程师，有话说( 二 ) _数据

这个阶段可以参考的数目有：
《概率论与数理统计》
《数据挖掘：使用机器学习工具与技术》
前提是计算机基础必须牢靠：
《数据结构与算法分析》
《算法》
也是跑不掉的。
数据挖掘在大数据之前就已经存在了，常规的算法有决策树，分类，关联，线性回归，贝叶斯，聚类等。但都是基于抽样的不完整数据。而现在大数据来了之后，数据喂得更多，模型就更加有效了。依靠人规定的算法已经不能满足机器的胃口，机器可以自己吃进数据，调节参数，产生更多模型，得到更精确的预测。所以大数据应用直接将传统的数据挖掘带入了机器学习时代。
《机器学习》（周志华的西瓜书，必读）
《机器学习实战》

文章插图
《推荐系统实战》
《计算广告》（洞悉互联网最原始的变现方式）
《集体智慧编程》
《深度学习》
这个领域就要看你研究什么方向了，自然语言处理，视觉识别，无人驾驶等等，都有各自的专业书和技巧需要阅读和掌握。
值得一说的是，数据仓库类的应用涉及到最多的还是离线应用，通过一段时间的数据同步，将计算生成的聚合数据、挖掘模型同步到存储中，方便 UI 调用。但有些实时性很高的应用，比如金融风控，无人驾驶，量化交易等，对数据模型有很高的高频要求，此时再用, Spark 就会不达标了。因此更多的实时分布式计算引擎就被发明出来了，比如 Spark , Flink, Storm 等。
关于这些流式计算引擎，参考书目有：
《 Spark: -fast Data 》(《Spark 快速大数据分析》
《With Spark 》(《Spark 高级数据分析》）
《Real-Time Big Data 》(《实时大数据分析，基于 Storm、Spark 技术的实时应用》
《Storm 分布式实时计算模式》
《Flink 》
《 toFlink》
以上都是主流生态组件的参考数目，有些框架粘合剂的组件，比如 Kafka, ,等NoSQL 书籍，也需要适当看看：
《 :TheGuide》(《权威指南》
《Kafka: TheGuide》(《Kafka 权威指南》
《从 Paxos 到分布式一致性原理与实践》
//总结//
如果你开始进入细节化的学习了，强烈建议不要只看书，一定要多动手！Code 不写出来，那就等于书白看。类似于粘合剂的技术，其实完全可以参考官方资料，在动手实现中，通过搜索引擎帮你解决。
最后，一定别忘了看看的《 Data- 》, 此书将所有前面提到的应用都总结成方法论，让你有种一览众山小的感觉。
以上都是工程类的基建入门书。
祝你眼光远大，心狠手辣。
【刚面完阿里蚂蚁金服的大数据工程师，有话说】————e n d————