文章插图
不一致的影响
问题定位耗时长
很多人都玩过”大家来找茬“,就是在两张相似的图片中将所有的不同点找出来 。在工作中,大家来找茬的场景变成了在一万台机器中找出一个不同的机器来,难度和耗时可想而知 。如果不巧遇到这类问题,加上支撑工具不完善,想要找出来这种小概率异常的问题,真的是要剥层皮 。
文章插图
缺少权威源
手表定律是指拥有两块以上手表,并不能帮人更准确的判断时间,反而会制造混乱,让看表的人失去对时间的判断 。
笔者几年前参加的一个case study(故障复盘)大致情况如下,运维人员长期进行手工上线,有一次误操作,将线上所有服务器的Nginx配置全部删除,相关的配置也没有版本管理,导致服务故障 。只能从测试环境为数不多的几台机器上找配置了,但测试环境的配置,每台机器都不一样,也无法判断哪个配置是最新的完整的配置,只能一个个试试碰运气,即使这样,最后也只是勉强恢复服务,依然有很多二级和三级路径的转发规则丢失了 。
广义的不一致
除去文中已经提到的运行环境的各种配置可能导致的不一致外,还有一些广义上的不一致的问题,可能会影响服务的可用性,同样需要进行一致性检查
参考文章
引入 Chef 来管理其 web 层
的支撑架构:扩展网络与存储并提供服务
监控速查手册:问题 / 原因→解决方案
Top 5to
公众号介绍
智能运维公众号聚焦于运维领域,由一群BATJ的资深运维工程师所创建,在监控,部署,预案,混沌工程和故障分析等方向进行方法论和最佳实践的持续输出,目前有超20篇原创文章发表在InfoQ上,并在其他渠道广泛转载 。
【Puppet:维护运行环境一致性的利器】
文章插图
- 运行期 【笔记】深入理解 Java 虚拟机:晚期优化
- maven项目如何打包运行指定java程序(maven-shade
- 传奇归来服务器维护,传奇归来开服表
- 二 Linux设备驱动程序——建立和运行模块
- 工业物联网系统下如何实现设备数据采集与设备维护
- 数字冰雹智慧园区运行监控中心
- 加班,这件事你怎么看?
- ipadpro2022运行内存多大
- 平板6g运行和8g运行差别 6g运行和8g运行差别
- 6g和8g运行有什么差别大吗 6g和8g运行有什么差别