Puppet:维护运行环境一致性的利器( 二 )

Puppet:维护运行环境一致性的利器

文章插图
不一致的影响
问题定位耗时长
很多人都玩过”大家来找茬“,就是在两张相似的图片中将所有的不同点找出来 。在工作中,大家来找茬的场景变成了在一万台机器中找出一个不同的机器来,难度和耗时可想而知 。如果不巧遇到这类问题,加上支撑工具不完善,想要找出来这种小概率异常的问题,真的是要剥层皮 。
Puppet:维护运行环境一致性的利器

文章插图
缺少权威源
手表定律是指拥有两块以上手表,并不能帮人更准确的判断时间,反而会制造混乱,让看表的人失去对时间的判断 。
笔者几年前参加的一个case study(故障复盘)大致情况如下,运维人员长期进行手工上线,有一次误操作,将线上所有服务器的Nginx配置全部删除,相关的配置也没有版本管理,导致服务故障 。只能从测试环境为数不多的几台机器上找配置了,但测试环境的配置,每台机器都不一样,也无法判断哪个配置是最新的完整的配置,只能一个个试试碰运气,即使这样,最后也只是勉强恢复服务,依然有很多二级和三级路径的转发规则丢失了 。
广义的不一致
除去文中已经提到的运行环境的各种配置可能导致的不一致外,还有一些广义上的不一致的问题,可能会影响服务的可用性,同样需要进行一致性检查
参考文章
引入 Chef 来管理其 web 层
的支撑架构:扩展网络与存储并提供服务
监控速查手册:问题 / 原因→解决方案
Top 5to
公众号介绍
智能运维公众号聚焦于运维领域,由一群BATJ的资深运维工程师所创建,在监控,部署,预案,混沌工程和故障分析等方向进行方法论和最佳实践的持续输出,目前有超20篇原创文章发表在InfoQ上,并在其他渠道广泛转载 。
【Puppet:维护运行环境一致性的利器】
Puppet:维护运行环境一致性的利器

文章插图