基本信息
文件名称:大模型时代的可观测技术探索与实践.pptx
文件大小:2.59 MB
总页数:20 页
更新时间:2025-05-18
总字数:约2.61千字
文档摘要

大模型时代的可观测技术探索与实践

目录CONTENTS智能涌现蚂蚁 AI-Infra 可观测实践分享技术开源1234大模型工程可观测体系

01智能涌现

相关报告显示,截止至今年7月,国内大模型数量已达130个,高于美国的114个。GOPS全球运维大会2023·上海站全球大模型技术蓬勃发展-百模大战

蚂蚁金融大模型快速演进GOPS全球运维大会2023·上海站

02大模型可观测体系

训练推理应用基础大模型部署LoRA模型热部部署调度及在线服务Langchain大语言模型(LLMs)应用的框架Prompt工程及Agent开发向量数据库及其它组件数据加工模型训练模型评价大模型工程简述GOPS全球运维大会2023·上海站

大模型训练因参数量规模不同通常需要几百甚至上千小时的训练才能输出最终的可用模型。NVIDIA在2021年4月发表的《EfficientLargeScaleLanguageModelTrainingonGPUClusters》文章中提到:使用1024张80G显存的A100卡训练1750亿参数的GPT-3模型,需要训练34天。大模型训练领域的基础设施痛点GOPS全球运维大会2023·上海站

LLM应用框架性能(langchain)及用户使用体验SRE算法研发应用研发GPURDMATensorCoreEmbedding向量存储NasCache重点关注GPU资源利用率及硬件故障引起的异常事件lossFlops Elapsed_time模型收敛和是否过拟等Token数量请求成功率耗时模型服务性能表现应用训练推理基础设施层组件…………GOPS全球运维大会2023·上海站……大模型工程可观测体系

03蚂蚁AI-Infra可观测技术分享

场景编排及数据服务AIOps平台低代码编写及管理算法/特征服务?险及运维知识全息可观测社区兼容协议(OpenTelemetry,Prometheus)APM业务客户端/IOT基础设施LLMOps告警分析溯源混合云/跨云端到端智能托管数字化营销商户监控解决?案Pontus-多维时序型采集计算框架指标链路?志事件…….蚂蚁业务消??商?付信贷科技……蚂蚁?态业务出海国际钱包?付宝商家财富科技数字科技……蚂蚁可观测性产品AntmonitorAntmonitor是蚂蚁集团自研的可观测监控产品,有十年的发展历程,主要解决海量用户高频交易及双11等全民级大促可观测场景诉求,支撑起内部百万级容器及分钟几十TB的日常数据处理。大模型可观测能力(LLMOps)23年初开始建设,覆盖训练、推理、应用各个阶段。GOPS全球运维大会2023·上海站

AI-Infra可观测技术架构GOPS全球运维大会2023·上海站

关系模型时序模型多维时序模型job_idGPU—指标单机AppOwnerapp_namejob_idowner_name…………维度列时间多值模型gpu_typeJob_idnamespace……Timestampgpu_utilgpu_mem_usedgpu_mem_total……pod_ipjob_idHostnamenc_ipIdc……AI-Infra可观测多维时序模型GOPS全球运维大会2023·上海站

应用、用户、基础资源数据关联监控分析案例一:资源数据多维分析GOPS全球运维大会2023·上海站

用户可以通过tensorboard观察到核心模型训练指标,如loss不收敛或收敛太慢的case,及时作出调整,终止无效的训练。案例二:内置Tensorboard查看训练指标GOPS全球运维大会2023·上海站

设置告警规则可以针对训练指标、异常事件(如Loss收敛及发散)等配置告警,减少训练异常中断带来的影响。案例三:指标监控告警GOPS全球运维大会2023·上海站

推理服务关注请求耗时、成功率、流量等,可以从多个维度(如集群、服务、机房)进行下钻分析案例四:推理服务监控GOPS全球运维大会2023·上海站

04技术开源

RealtimeLoggingMonitoringAlarmCenterLLMOpsMonitoring低成本、?可?K8MasterK8Masteragentk8masterapi-serverNodeagentpodpodpodK8s探针Sidecar采集Hosting采集NodeagentappContainersidecarCeresdbGatewa