统一运维的挑战和技术趋势
某跨国电器制造企业告警多:业务故障时会产生大量告警(日均严重告警200+,月均告警短信10000+),一些关键故障可能被掩盖。希望借助专家经验和AI算法提升告警准确性、降低告警数量。很多客户已经部署了多种运维工具,逐渐用工具替代传统人工运维,但是工具的智能化程度不足,运维数据未能很好转化为运维知识,所以运维仍然处处是痛点。某能源企业资源多:监控对象类型多、指标多,当某个指标告警时运维人员很难理解指标的含义、如何快速处置。希望借助AIGC“运维专家大脑”给予快速指导,并积累自己的处置经验。某大型生物基因公司工具多:业务快速发展,IT规模急剧扩大,IT人员未增加,运维不转型已经无法支撑业务发展。云智原生时代的客户运维新挑战引入综合运维管理平台,运维数据标准化,借助AIGC能力,提高运维效率。某省医保监控难:全面采用HSAF架构,springboot云原生架构和微服务,业务复杂度高,运维难度大。希望利用全栈可视的智能运维技术减低运维复杂度,提升运维效率。
云原生可观测CloudObservability企业向多云和云原生架构迁移,全栈可观测方案对业务的全栈可见、洞察和行动,实现跨技术栈的E2E洞察,对保障客户体验至关重要PlatformOps平台化运维以软件定义、API驱动的模块化平台架构实现产品快速创新,推进系统集约化统一管理,促进IT运维和运营融合用户体验UserExperience通过数据分析、交互设计和个性化推荐等技术手段,为用户提供更加个性化、智能化、便捷化的产品和服务体验生成式人工智能AIGC运用先进的人工智能技术和大数据分析,以实时优化和自我学习的方式提升企业的通信能力和网络安全。为企业提供更可靠和智能的运维解决方案统一运维发展趋势Automation自动化基于AI技术、高级规则引擎、启发式和机器学习的应用,进行自动化决策和执行IO活动,提升业务敏捷性
当智能运维遇到AIGCAIGC的出现让我们看到了一个新的解决问题的方法借助AIGC,智能运维的异常检测、趋势预测、故障诊断等场景可以真正地把过往的知识注入进去。没有AIGC的时候,知识是知识,算法是算法,它们之间是没有关联的。运维数据智能算法运维场景运维知识大模型AIGC
运维大模型具备运维专业领域的背景知识,应用于运维场景,用于支持完成运维相关的任务和应用运维大语言模型的产生和部署开源大语言模型底座OpsLLM公域版OpsLLM私域版本地部署MaaS平台服务运维领域是一个非常复杂的庞大场景,开源大模型具有更强灵活性和可扩展性,我们选择开源大模型作为运维大模型的底座通用基础大模型混合专家模型多模态运维知识图谱知识关联运维大语言模型(OpsLLM)FinetuneAPI调用外挂知识库帮助文档、产品资料、操作指导、故障处理手册……
统一采控平台新华三管理工具(云管平台、态势感知、终端管理、服务器管理等)第三方运维软件(商业运维软件、Zabbix、Prometheus等)南向接口、Agent等直采直控预置运维场景自运维场景自定义运维场景行行业运维方案运维大模型配置管理多模型管理安全模块模型管理第三方大模型模型调度运维知识管理语料收集与存储知识表示向量数据库模型接口基于AIGC的统一运维平台框架统一运维平台默认支持运维领域大模型,用户根据需要选择安装部署AIGC组件服务即可快速完成模型对接机房 动环 网络设备 服务器 存储设备 安全设备 无线 终端 OS 数据库 中间件 应用 虚拟机 容器 大数据 云运维治理平台统一告警统一门户统一流程统一资源统一分析智能让告警一屏统揽协同提升一图绘制发现运维更准确运维全局运维效率业务全景价值之美
AIGC技术在统一运维领域的应用探索
AIGC赋能典型运维场景统一运维平台+大模型利用大模型的力量强大的表征能力和迁移能力,可以有效分析和处理网络运维数据,提高运维效率和质量,推动网络智能技术高质量发展,打造更智能的服务多工具融合编排解决复杂问题自然语言交互识别所需的工具按需编排多工具运维专家指导提升运维效率快捷提供帮助识别用户意图反馈系统信息快速报表生成让系统状态更可视运维数据提取AI数据分析图文汇总呈现自动决策和执行减少人工干预故障自动发现系统自动分析故障自动修复全景地图让故障无处遁形多维感知风险洞察辅助决策策略优化个性化的定制拓展产品能力快速生成代码优化代码可读性风格安全检查近中期 中长期运维大模型:运维领域的热门趋势,具有巨大的发展潜力,广阔的发展前景
一、个性化定制拓展产品能力AIGC自定义扩展能力增强支持强扩展能力,通过多模型的组合,可以由自然语言生成代码或通过代码片段生成代