刚面完阿里蚂蚁金服的大数据工程师,有话说( 二 )


这个阶段可以参考的数目有:
《概率论与数理统计》
《数据挖掘:使用机器学习工具与技术》
前提是计算机基础必须牢靠:
《数据结构与算法分析》
《算法》
也是跑不掉的 。
数据挖掘在大数据之前就已经存在了,常规的算法有决策树,分类,关联,线性回归,贝叶斯,聚类等 。但都是基于抽样的不完整数据 。而现在大数据来了之后,数据喂得更多,模型就更加有效了 。依靠人规定的算法已经不能满足机器的胃口,机器可以自己吃进数据,调节参数,产生更多模型,得到更精确的预测 。所以大数据应用直接将传统的数据挖掘带入了机器学习时代 。
《机器学习》(周志华的西瓜书,必读)
《机器学习实战》

刚面完阿里蚂蚁金服的大数据工程师,有话说

文章插图
《推荐系统实战》
《计算广告》(洞悉互联网最原始的变现方式)
《集体智慧编程》
《深度学习》
这个领域就要看你研究什么方向了,自然语言处理,视觉识别,无人驾驶等等,都有各自的专业书和技巧需要阅读和掌握 。
值得一说的是,数据仓库类的应用涉及到最多的还是离线应用,通过一段时间的数据同步,将计算生成的聚合数据、挖掘模型同步到存储中,方便 UI 调用 。但有些实时性很高的应用,比如金融风控,无人驾驶,量化交易等,对数据模型有很高的高频要求,此时再用, Spark 就会不达标了 。因此更多的实时分布式计算引擎就被发明出来了,比如 Spark , Flink, Storm 等 。
关于这些流式计算引擎,参考书目有:
《 Spark: -fast Data 》(《Spark 快速大数据分析》
《With Spark 》(《Spark 高级数据分析》)
《Real-Time Big Data 》(《实时大数据分析,基于 Storm、Spark 技术的实时应用》
《Storm 分布式实时计算模式》
《Flink 》
《 toFlink》
以上都是主流生态组件的参考数目,有些框架粘合剂的组件,比如 Kafka, ,等NoSQL 书籍,也需要适当看看:
《 :TheGuide》(《 权威指南》
《Kafka: TheGuide》(《Kafka 权威指南》
《从 Paxos 到分布式一致性原理与实践》
//总结//
如果你开始进入细节化的学习了,强烈建议不要只看书,一定要多动手!Code 不写出来,那就等于书白看 。类似于粘合剂的技术,其实完全可以参考官方资料,在动手实现中,通过搜索引擎帮你解决 。
最后,一定别忘了看看的《 Data- 》, 此书将所有前面提到的应用都总结成方法论,让你有种一览众山小的感觉 。
以上都是工程类的基建入门书 。
祝你眼光远大,心狠手辣 。
【刚面完阿里蚂蚁金服的大数据工程师,有话说】————e n d————