当前位置: 首页 > news >正文

了解智能运维

智能运维

(一)运维工作的转变

随着技术发展,运维工作从基础的搬机器、插网线、装系统等体力活儿,逐渐转变为更侧重服务器管理、代码管理、日志分析、监控告警、流量管理及故障排查等的脑力劳动。如今,运维人员拿到的通常是已装好系统、配置好IP和账号的服务器,工作重点也随之改变。

(二)云服务与虚拟化带来的挑战

公司业务扩张促使服务器增多,云服务和虚拟化技术广泛应用,运维工作变得复杂。不仅要管理服务器,还需关注容量管理、自动调整服务器数量、应对安全问题,以及处理因新容器和开源技术引发的故障。运维人员得学会运用各种工具解决这些新难题。

(三)智能运维的兴起

基于算法的智能运维应运而生,它利用数据和算法提升运维自动化与效率,例如合并报警信息、分析问题根源、关联分析、评估容量以及自动调整服务器数量等。其真正意义在于依托监控、服务台自动化,借助大数据和机器学习持续改进,突破人类能力极限。

(四)海量事件处理

  1. 数据分类方式
    • 实时数据与非实时数据。
    • 格式化数据与非格式化数据。
    • 需要索引的数据与只需要运算的数据。
    • 全量数据与抽样数据。
    • 可视化数据与告警数据。
  2. 多维度数据:复杂业务场景下,事件包含多维度信息,如时间、地点、服务器组件、错误码、业务线、服务接口等。支持多维度数据存储和查询分析是系统灵活性的重要衡量指标。
  3. 处理方法多样:处理复杂数据往往是设计问题,不同设计思路带来不同处理方式,实际操作中常混合使用多种存储介质和计算模型,如监控数据用实时数据库,分析报表用 MySQL,告警事件用 Redis,日志检索用 Elasticsearch 等。同时,要考虑数据源稳定性、API 适配能力及数据与展现分离,避免前端变更引发大量工作量。

(五)常见运维困境及应对

  1. 拒绝服务与信息过载:DDoS 攻击致使服务器被大量请求淹没,陷入拒绝服务状态;运维中告警信息过多,如监控指标剧增,人力难以巡检,引发信息过载。这都要求运维人员从海量信息里筛选有用内容,找出问题根源。
  2. 故障定位困难:业务模型或系统部署复杂,不同系统技术栈混杂,导致故障定位艰难。为此可采用日志标准化、全链路追踪、SLA 规范化等方法,让不同系统协同,助力智能化运维,同时不影响程序员使用习惯。

查看更多


http://www.mrgr.cn/news/81695.html

相关文章:

  • 如何高效启动并优化你的Google广告?
  • 离线docker安装数据库(无法访问互联网),那么直接使用 docker pull mysql:latest
  • uniapp 小程序 textarea 层级穿透,聚焦光标位置错误怎么办?
  • 《自动驾驶与机器人中的SLAM技术》ch8:基于 IESKF 的紧耦合 LIO 系统
  • Grails应用http.server.requests指标数据采集问题排查及解决
  • Linux标准IOday4
  • #渗透测试#漏洞挖掘#红蓝攻防#漏洞挖掘#未授权漏洞-Es未授权漏洞
  • leetcode 27. 移除元素
  • 【和春笋一起学C++】文本输入与读取
  • C# 修改项目类型 应用程序程序改类库
  • 【CSS in Depth 2 精译_094】16.2:CSS 变换在动效中的应用(下)——导航菜单的文本标签“飞入”特效与交错渲染效果的实现
  • CMake技术细节:解决未定义,提供参数
  • 走进人工智能体
  • 【Go】context标准库
  • SpringMVC学习(二)——RESTful API、拦截器、异常处理、数据类型转换
  • esp32学习:用虫洞ESP32S3-EYE开发板快速实现USB摄像头(UVC免驱)
  • 【HENU】河南大学计院2024 计算机网络 期末复习知识点
  • 中关村科金智能客服机器人如何解决客户个性化需求与标准化服务之间的矛盾?
  • Windows 11 中利用 WSL - Linux 虚拟环境部署 ChatTTS-Enhanced 项目教程
  • 动态规划<四> 回文串问题(含对应LeetcodeOJ题)
  • 动态规划<五> 子数组问题(含对应LeetcodeOJ题)
  • PaddleOCR训练自己的私有数据集(包括标注、制作数据集、训练及应用)
  • 学习笔记(C#基础书籍)-- C#高级应用
  • WEB UI 创建视图
  • 存储过程实现多个分类不同计算规则得到对应的分类、月份和款号
  • 任务8 数据库服务配置与管理