云原生深度学习训练平台
在高校的实践与创新
沃天宇|北京航空航天大学教授
0102
高校集群资源管理自研深度学习训推平台
目录的现状与挑战的实践与创新
CONTENTS0304
平台在高校科研工作
平台开源与未来展望
的应用成效
集群资源管理需求
深度学习需求的兴起
深度学习技术有着广泛应用,大模型进一步增加了资源需求。
研究深度学习通常需要高性能的硬件资源,例如GPU。
2025年国内GPU市场规模或将超过1200亿元。
深度学习应用场景广泛
高校对集群资源管理的需求
GPU成本高,搭建多租户集群是常见方法。
研究机构搭建超算中心,提供GPU等计算资源供研究者使用。
Slurm作业调度系统在高校有着广泛的使用。
中国GPU市场规模预估(亿美元)AI服务器占比的增长
现有资源管理系统的局限性
环境配置复杂
01基于modules的环境管理方式难以满足多样化的深度学习
软件包版本需求,用户习惯使用Conda管理环境。即使用
户存在相同的任务也难以复用环境,对存储空间消耗大。
文件读写瓶颈
02Conda中包含大量小文件,分布式存储系统在频繁小文件读
写时面临性能挑战,影响深度学习数据存储和读取效率。难
以遵循分布式存储系统使用的最佳实践。
可观测性不足
03监控系统覆盖不够全面,无法实时准确地监控任务的运行状
态和资源使用情况。问题排查困难,影响系统的稳定性。
云原生在高校的机遇与挑战
高校助力云原生科研创新推广云原生技术面临的难题
高校作为前沿技术研究的重要阵地,技术学习曲线陡峭,需要投入大量时间
为云原生技术的理论发展与工程实践和精力进行学习和掌握。
提供了丰富的创新土壤。实践教学案例匮乏,缺乏与高校科研场
容器化和云原生技术能够有效解决深景紧密结合的云原生应用案例。
度学习环境配置复杂、资源管理困难
等问题,提升科研效率。
深度学习训练平台设计
用户界面模块监控运维模块