基本信息
文件名称:AI应用精细化运维日志.docx
文件大小:30.62 KB
总页数:16 页
更新时间:2026-03-26
总字数:约5.62千字
文档摘要

AI应用精细化运维日志

2024-05-20至2024-05-25智享客服V2.1大模型应用精细化运维日志

一、日常监控与阈值触发处置

(一)在线推理集群GPU利用率阈值告警处置

事件时间:2024-05-2009:15

触发场景:Prometheus监控系统触发在线推理节点GPU利用率阈值告警,预设阈值85%,当前集群平均GPU利用率92%,持续时长≥5分钟。

处置流程:

1.登录Grafana监控面板,切换至“在线推理集群GPU资源”视图,按Pod级维度拆解利用率数据,发现pod-intent-27(承载核心意图识别模型)利用率持续维持在91%-94%区间,其余Pod利用率为75%-