AI应用精细化运维日志.docx

基本信息

文件名称：AI应用精细化运维日志.docx

文件大小：30.62 KB

总页数：16 页

更新时间：2026-03-26

总字数：约5.62千字

文档摘要

AI应用精细化运维日志

2024-05-20至2024-05-25智享客服V2.1大模型应用精细化运维日志

一、日常监控与阈值触发处置

（一）在线推理集群GPU利用率阈值告警处置

事件时间：2024-05-2009:15

触发场景：Prometheus监控系统触发在线推理节点GPU利用率阈值告警，预设阈值85%，当前集群平均GPU利用率92%，持续时长≥5分钟。

处置流程：

1.登录Grafana监控面板，切换至“在线推理集群GPU资源”视图，按Pod级维度拆解利用率数据，发现pod-intent-27（承载核心意图识别模型）利用率持续维持在91%-94%区间，其余Pod利用率为75%-