【CDH】CDH大数据平台实施经验总结( 三 )


7.1 有组件报错或者无法启动时,先查看相应日志,如果error的地方是关于时间的,ntp同步服务器时间,然后重启该组件;如果error的地方是关于客户端连接问题的,重启服务,如果不行就重启agent服务;绝大多数情况下通过上述两步就可成功,极少数情况下,那就删除角色重新添加该服务,必要的时候可以调整一下该服务的各种角色所在的节点位置 。
7.2 如果服务器硬盘故障更换硬盘之后,各种组件启动报错,提示无法连接到cm,如果重启服务无效的话,可以先把该节点移除出服务器,然后配置角色模板,再添加进集群中来 。
7.3 CM主机页面中会时常显示物理内存还有剩余,但是交换内存却用了好多,导致CDH报警;这个从Linux机制的角度来看,可以忽略不管,Linux系统会不时的进行页面交换操作,以保持尽可能多的空闲物理内存,即使并没有什么需要内存,Linux也会交换出暂时不用的内存页面,这样的可以避免等待交换所需的时间 。如果非要消除这个报警,那就调整Linux中参数的值为0即可 。