大数据分析要学什么( 二 ) _数据

文章插图

文章插图
我们需要理解的是，不同的存储方式应对于实际的应用场景是不同的，HDFS作为最基础的分布式文件系统，我们就不多说。如Hive其更作用更多用于类传统式的SQL查询操作，其对于效应效率要求并不高，但对于数据规模的支撑性良好;而HBase则更偏向于即席查询，要求有更高的响应效率，但对于查询的复杂性支持上则相对较弱。
而我们说诸如ES、Solr都也勉强算是一种数据存储的组织方式，其实也是有一定道理的，因为他们本身也支持这种分布式的数据存储，只不过他们是为了应对于自己框架的检索需求而设计的数据存储组织。如Redis，也算是目前大数据生态中不可缺少的数据存储方式之一，基于内容，应对于高效的数据存储与读取，在很多的实际应用场景中都用的到。
第四环：数据的再加工
其实这一层主要要说就是基于的MR框架以及Spark，当然，也有其他的一些分布式数据处理框架。
大规模的数据清洗转换、再加工，都离不开分布式处理框架的支持。我们需要对杂乱的数据进行标准化、对残缺的数据进行补全、对原始的数据进行深度加工提取高级属性等等。简单的，我们可以通过一些处理脚本来做，但针对于大规模的数据量级，我们依然需要依赖MR或者spark这种框架来处理。而针对于一些实时的场景，我们也不可避免的需要掌握诸如storm以及spark 之类的实时框架。所以，在这一环，我们不止需要了解不同的大数据处理框架，我们还需要在基于框架的基础上，做数据应用开发，进行数据处理。
最后一环：数据应用价值输出
前面我们做了很多事，包括数据的收集、传输、处理、存储等等，但这些都是手段，都不是我们的目的。我们的目的是让数据产生价值，这也是企业做大数据的核心目的。
我们可以用数据来做什么：
1)基于统计分析、数据预测，做数据化运营、决策，提升效率、效果，这是最常见的应用场景。
2)做推荐，在主体之外产生衍生价值，提升单位价值转换。
3)画像体系，至于说画像能做什么，只要能做的准，能做的事可多了。
4)基于数据化、智能化的搜索。
5)实现业务的数据化、自动化、智能化。