基本信息
文件名称:金融业AI大模型智算网络研究报告.docx
文件大小:1022.75 KB
总页数:30 页
更新时间:2025-06-21
总字数:约1.7万字
文档摘要

金融业AI大模型智算网络研究报告

目 录

一、研究背景 1

(一)AI大模型发展趋势及挑战 1

(二)金融领域应用规划 4

二、智算网络方案综述 5

(一)智算网络技术需求 5

(二)业界智算网络方案 6

三、智算网络整体架构及关键技术 10

(一)高性能网络拓展算力规模 11

(二)高可用网络提升算力效率 12

(三)高可维网络增强算力可用性 17

(四)高安全网络保障算力安全 19

四、智算网络发展趋势 21

(一)主要发展阶段 21

(二)新技术创新方向 22

五、案例实践 23

(一)工商银行AI大模型算网融合创新实践 23

(二)邮储银行AI大模型算力网络创新实践 24

术语与缩略词表 27

参考文献 28

一、研究背景

(一)AI大模型发展趋势及挑战

随着新一轮科技革命和产业变革加速推进,AI大模型浪潮席卷全球,成为最具影响力的创新科技,大模型被认为是未来人工智能领域的关键基础设施。AI大模型正加速定义及形成新服务、新制造、新业态,成为数字时代的新质生产力。

随着技术演进,AI大模型技术呈现以下显著发展趋势:一是模型能力持续提升。随着深度学习技术不断发展,AI

大模型的参数规模和计算能力不断增加,使得模型能够处理更加复杂的任务和数据。2022年发布的自然语言模型GPT-3,能生成高质量的自然语言文本,能进行翻译、问答、文本生成等任务;在2024年诞生的Sora模型,不仅演进到视频生成的能力,还具备理解和应用现实世界物理规律的强大能力。AI大模型逐渐从能说会道过渡到了突破多模态,形成了人机混合、自主理解、规划决策、执行复杂任务的智能体AIAgent。

二是模型结构持续演进。稠密模型由于其结构简单及易于实

现,在早期成为大模型的主流。但是随着AI模型规模不断扩大,计算和存储资源的需求不断增加,成为新的挑战。稀疏模型因其支持参数剪枝,在保持模型性能的同时极大降低了计算成本,因而受到更多关注并逐步成为演进方向。

三是模型算力持续增长。从2016年到2024年,GPU单卡算

力增长了1000倍;以英伟达GPU为例,其单卡算力增长速度达

到每6个月翻一番,超过了摩尔定律。新出现的Superpod超节点技术可将多个GPU集成在一个较大的服务器中,通过高速总线互联,实现高带宽、低延迟的数据交换和通信,以持续提升单节点算力(例如英伟达GB200)。另一方面,大模型的参数量从GPT-1的0.1B增长到ChatGPT的175B,模型所需算力在四年间也从GPT-1的1PFlops增长到ChatGPT的3000+PFlops,如表1所示。表1AI大模型算力变化趋势

四是模型效率持续优化。随着AI大模型的规模和复杂性增加,

训练效率面临严峻挑战。业界通过并行通信算法优化、模型算法优化、混合精度训练优化等技术在训练框架层、通信算法层持续提升AI模型训练的效率。随着技术的不断进步,未来必定会有更多高效训练AI模型的方法出现。

AI大模型持续加速演进,其庞大的训练任务需要大量服务器节点通过高速网络互联组成AI算力集群协同完成。但AI算力集群并非通过简单算力堆叠即可实现完美线性扩展,而是取决于节点间网络通信及集群系统资源调度能力。网络系统的性能及可用性

成为AI算力集群的线性度和稳定性的关键,也面临新的挑战:一是高性能传输挑战。大模型需要大量的数据进行训练和推

理,千亿模型单次计算迭代内,梯度同步需要的通信量达百GB量级;MoE稀疏模型下张量并行的卡间互联流量带宽需求达到数百至上千GBps量级。服务器节点间互联网络会承载数据并行和流水线并行流量,千亿参数模型如GPT-3并行训练节点间带宽需求达到13.5GB(108Gbps),如表2所示。万亿模型参数面带宽需求增加到200Gbps至400Gbps。AI智算网络需提供更高的带宽来支持数据快速传输,并且支持算力的横向扩展能力。

表2千亿稠密模型GPT3千卡PTD训练通信量

注:PDT,P指Pipeline并行,D指Date数据并行,T指Tensor并行

参数:模型GPT3-175B,h=12288,S=2048,N=96,B=1536,D=16,T=8,P=8

二是高可用互联挑战。由于AI并行训练通信具备不规整的特

征,即单流通信量大,ECMP选路不均衡,极易导致网络出现局部堵点,从而导致训练效率下降。以GPT3-175B大模型千卡并行训练为例,训练期间网络中同时存在的流数目千条以内,ECMP选路方式下,高负载链路利用率:低负载链路利用率达7:1,即流量无法有效hash,高负载链路堵点概率极大。因此对网络负载均衡