当前位置: 首页 > news >正文

服务稳定性运维保障体系建设的误区

误区一:对监控的错误期待

每每在谁在讲服务稳定性不够好时,总是会说我们的监控做的还不够好,可往往已经把监控搞的已经很全面了,服务稳定性依然没有有效的改善,反而运维被告警淹没,变的疲惫不堪。

究其原因,服务的稳定性本就不是监控能够解决的,但不是说监控就不重要,而是许多人总是把监控与告警划等号,错误的期待告警能够解决问题。

监控真正的核心作用是:

  1. 数据分析,帮助研发、测试、运维等技术团队测试、分析、发现、优化问题,尽可能的把问题消灭在生产环境前
  2. 故障自愈,日常中80%以上的问题都可以通过自动化手段解决,利用程序通过获取监控数据,可以自动的对服务进行降级、熔断、恢复、扩缩容等动作,真正的保障服务的稳定运行 

而故障告警的作用则是对一些不可知、不可抗力因素和无法自动化的问题的兜底,告警的出现就一定是需要人工立即介入的事件,而人工的介入一定是有时延的,等到人去解决的时候,往往是业务已经受到了影响。正确的趋势一定是随着运维工作的深入,告警规则越来越少,如果告警规则只增未减,就一定是错误的。

误区二:监控指标的标定

我前面文章中讲过做好SRE的一个重要因素是做一个社交达人,运维团队相较研发团队离业务方较远,而技术团队中研发是与业务方互动最为频繁的,运维团队通常会陷入封闭造车的境况,或者把研发当做业务方情况,而这会造成指标的上的误差,以及真正的业务方无法理解和重视的情况。

而真正的业务方关心的指标往往是订单量、在线用户数、GMV等,但这些指标往往在业务方的系统中,技术团队通常是看不到的,所以运维团队需要主动走进业务方,与业务方共同敲定指标,将业务方的指标与技术上的指标对应上,既可以让业务方理解指标的含义,又可以让业务方理解重要性,从而获得更多的支持和重视。还有最重要的一点是,了解了业务方关注的指标,就掌握了最准确的指标,之后不管技术架构、服务模块如何的变更,都不会影响指标的准确性。

误区三:故障处理

首先故障的定义什么?故障的定级又该如何定义?业务方、研发、运维不同的视角的理解是不一样的,业务方可能认为有10个用户反馈订单异常就是故障,但也可能运维认为的很严重的某服务宕机,业务方并不觉得是故障,这些需要具体量化数值,到底什么程度算故障?一定是要在故障出现之前有准确的定义,而不是在事后复盘再做定义,要能够在故障出现的第一时间根据量化定义判断出是事件、异常、还是故障、事故。

在处理故障的过程中,技术人员通常会陷入细节陷阱,总是在最宝贵的第一时间忙于查找根因,而忘记了业务方真正关心的不是根因,而是止损、快速恢复。这是许多运维人员长期陷入的一个误区,认为解决故障的能力是特别重要的,总是把更多的时间放在了如何提高个人技术和应急处理能力上,造成这个的原因是多面的,有运维人自身认识问题,也有KPI制度的不合理问题,老板对运维的认知问题(认为运维和研发是一样的,喜欢见到运维与研发一样忙碌),还有历史留下的繁杂技术包袱问题。但再优秀的个人,也是抵不过一个完整的预案的,应对突发故障的最好的办法是充足的预案,这才是将运维带出故障循坏的正确路径。

误区四:关于根因定位

一次故障复盘中,定位是A服务接口出现了大面积超时导致,导致接口超时的原因是下游的数据库出现响应超时,数据库出现超时的原因是出现了大量慢查导致高负载,通过分析SQL,得出源自于B服务上线的新功能。

以上是故障复盘的直接原因,基本也都能得到所有人的确定和接受,但其根本原因呢?数据库混用的设计是否合理?为什么没有做好上线检查?为什么测试环节没有发现问题?是制度流程缺陷,还是制度没有得到有效的执行?

一时的故障原因是解决了,但如果根本原因没有解决,类似的故障就永远不会减少和消失。但站在运维的角度,有没有深入思考根本原因,有没有推动过深究根本原因的解决。当然深究根本原因往往面临着谁来担责的现实问题,很多时候阻力很大,需要公司或团队的力量,但只有消除根本原因才是一劳永逸的不二法门,否则运维团队只会越做疲惫。


http://www.mrgr.cn/news/57817.html

相关文章:

  • Redis 客户端简述
  • 龙迅#LT89101 适用于 MIPI DSI/CSI摄像头和 LVDS 中继信号延长功能,分辨率可支持 1080P@60HZ!
  • VMware Workstation Pro 16 搭建 android-x86过程问题罗列
  • JAVA面试-linux相关
  • 信息安全工程师(54)网络安全审计主要产品与技术指标
  • Leetcode4:寻找两个正数数组中的中位数
  • 最近比较火的提示词记录
  • 如何减小 Maven 项目生成的 JAR 包体积 提升运维效率
  • 电脑屏幕录制哪个好?强烈推荐这几款
  • webGIS用在可视化大屏上,那效果还有啥话说。
  • FK743M5-XIH6核心板的学习
  • 数据驱动医院数字化转型之路
  • Pytorch Note
  • 雨课堂(长江云)如何自动刷课(无做题)
  • repo将每个仓库回退到第一个commit的状态
  • pandas库
  • 【系统配置】命令行修改统信UOS的grub启动延时
  • 打印堆栈信息
  • python实现数据库的增删改查功能,图形化版本
  • 2019-2020 CSP-J C++普及组 第一题题解汇编
  • nginx 隐藏版本号与WEB服务器信息(yum)
  • 用户身份和访问管理是保障企业数字化转型的安全基石
  • 地平线港交所挂牌上市,开启智能驾驶新征程
  • EFCore pgsql Join 查询
  • 502 错误码通常出现在什么场景?
  • c语言指针详解2