【hadoop】 1001-hadoop介绍

数据魔方
双11解决方案
版本
官方版本(2.4.1)
CDH5-商业支持,由商业支持,目前京东在用 。
核心
HDFS:File分布式文件系统
YARN:Yet资源管理调度系统
问题: 如何解决海量数据存储?
NFS
飞秋模式

【hadoop】 1001-hadoop介绍

文章插图
HDFS的架构
主从结构
主节点:
从节点:
【hadoop】 1001-hadoop介绍

文章插图
.x 中就一个节点,.x中可以由多个节点,组成一个集群
负责
1. 接收用户操作请求2. 维护文件系统目录结构3. 管理文件与block之间关系
负责
1. 存储文件2. 文件被分成block存储在磁盘上3. 为保证数据安全,文件会有多个副本
和关系
1. 如图开发经理和开发人员的关系
2. 如仓库和管理员的管理
问题: 怎样解决海量数据计算
多进程+多线程方法,采用
【hadoop】 1001-hadoop介绍

文章插图
的特点
1.扩容能力():能可靠地()存储和处理千兆字节(PB)数据 。
2.成本低():可以通过普通机器组成的服务器群来分发以及处理数据 。这些服务器群总计可达数千个节点 。
3.高效率():通过分发数据,可以在数据所在的节点上并行地()处理它们,这使得处理非常的快速 。
4.可靠性():能自动地维护数据的多份副本,并且在任务失败后能自动地重新部署()计算任务 。
【hadoop】 1001-hadoop介绍

文章插图
的1.0 和 .0 比较
【【hadoop】 1001-hadoop介绍】
【hadoop】 1001-hadoop介绍

文章插图
自成为大数据工具以来,就是一个非常棒的数据存储系统,但是需要开发 Java 应用来访问数据的学习起来却比较困难 。
当然,还有别的办法可以从中获取信息 。Hbase数据是的一部分,它可以让用户按照数据库范式来处理数据 。Hive数据仓库则可以让你用类 SQL 的查询语言来创建查询并转化为任务 。不过仍受限于单线程性 。任务、Hive 查询、Hbase 操作,等等,这些都要轮流进行 。
【hadoop】 1001-hadoop介绍

文章插图
主要的问题集中如下:
YARN解决方案
在2.0 发布经理 Arun看来,其最重要的变化是框架升级为 YARN 。扩展中可以应用的软件种类和应用程度 。Arun本人就是 YARN 项目主管,他指出,1.0 和 2.0 的区别在于,前者所有的事情都是面向批处理的,而后者则允许多个应用同时在内部访问数据 。
相对于当前系统能处理的事情,把这些功能分开使得集群资源的管理更加强大 。
【hadoop】 1001-hadoop介绍

文章插图
重构根本的思想是将两个主要的功能分离成单独的组件,这两个功能是资源管理和任务调度 / 监控 。新的资源管理器全局管理所有应用程序计算资源的分配,每一个应用的负责相应的调度和协调 。一个应用程序无非是一个单独的传统的任务或者是一个 DAG( 有向无环图 ) 任务 。和每一台机器的节点管理服务器能够管理用户在那台机器上的进程并能对计算进行组织 。
事实上,每一个应用的是一个详细的框架库,它结合从获得的资源和协同工作来运行和监控任务 。
上图中支持分层级的应用队列,这些队列享有集群一定比例的资源 。从某种意义上讲它就是一个纯粹的调度器,它在执行过程中不对应用进行监控和状态跟踪 。同样,它也不能重启因应用失败或者硬件错误而运行失败的任务 。