基本信息
文件名称:高校云原生深度学习训练推理平台的实践与创新.pdf
文件大小:3.2 MB
总页数:23 页
更新时间:2025-05-26
总字数:约7.61千字
文档摘要

云原生深度学习训练平台

在高校的实践与创新

沃天宇|北京航空航天大学教授

0102

高校集群资源管理自研深度学习训推平台

目录的现状与挑战的实践与创新

CONTENTS0304

平台在高校科研工作

平台开源与未来展望

的应用成效

集群资源管理需求

深度学习需求的兴起

深度学习技术有着广泛应用,大模型进一步增加了资源需求。

研究深度学习通常需要高性能的硬件资源,例如GPU。

2025年国内GPU市场规模或将超过1200亿元。

深度学习应用场景广泛

高校对集群资源管理的需求

GPU成本高,搭建多租户集群是常见方法。

研究机构搭建超算中心,提供GPU等计算资源供研究者使用。

Slurm作业调度系统在高校有着广泛的使用。

中国GPU市场规模预估(亿美元)AI服务器占比的增长

现有资源管理系统的局限性

环境配置复杂

01基于modules的环境管理方式难以满足多样化的深度学习

软件包版本需求,用户习惯使用Conda管理环境。即使用

户存在相同的任务也难以复用环境,对存储空间消耗大。

文件读写瓶颈

02Conda中包含大量小文件,分布式存储系统在频繁小文件读

写时面临性能挑战,影响深度学习数据存储和读取效率。难

以遵循分布式存储系统使用的最佳实践。

可观测性不足

03监控系统覆盖不够全面,无法实时准确地监控任务的运行状

态和资源使用情况。问题排查困难,影响系统的稳定性。

云原生在高校的机遇与挑战

高校助力云原生科研创新推广云原生技术面临的难题

高校作为前沿技术研究的重要阵地,技术学习曲线陡峭,需要投入大量时间

为云原生技术的理论发展与工程实践和精力进行学习和掌握。

提供了丰富的创新土壤。实践教学案例匮乏,缺乏与高校科研场

容器化和云原生技术能够有效解决深景紧密结合的云原生应用案例。

度学习环境配置复杂、资源管理困难

等问题,提升科研效率。

深度学习训练平台设计

用户界面模块监控运维模块