大模型时代,智算网络性能评测挑战.pdf

2024-04-01 12:08
大模型时代,智算网络性能评测挑战.pdf

大模型时代,智算网络性能评测挑战中国移动研究院2024.032目录01智算中心网络技术概况03智算网络技术评测面临的挑战02全调度以太网技术创新3随着算力需求的快速增长,AI基础设施建设不断布局,算与网成为AI算力重要基础设施的两大核心智算中心是以GPU芯片为核心的计算基础设施和以高速以太网交换芯片为核心的网络基础设施的综合体,智能算力需求激增推动计算与网络基础设施建设不断布局•算力需求激增,GPU是重中之重•AI芯片市场规模不断扩大,较2022年,2026年AI芯片规模提升4倍•GPU技术快速发展,Nvidia即将推出H200,H200的算力是H100的2倍左右AI基础设施GPU芯片为核心的算力基础以太网交换芯片为核心的网络基础•GPU市场规模提升,对网络设备需求激增,交换芯片的更新换代周期缩短至1.5年来源:Frost&Sullivan,中商产业研究院...来源:中商产业研究院,安信证券研究中心中国移动NICC技术架构基础设施智算平台ROCmCUDACANNTesnsorFlowPyTorchPaddlePaddleDeepSpeed存储计算CPUGPU液冷高效供电机房配套冷却水系统应用使能跨架构编译器算力抽象运行时算力原生裸金属实例虚拟机实例容器实例高速互联计算总线内存池融合存储全局统一存储Hypervisor+AI开发框架网络交换机高速以太网DPU注:NewIntelligentComputingCenter(NICC),新型智算中心算和网是新型智算中心关键基础设施算和网基础设施倍受关注4网络成为AI算力瓶颈,以网强算对我国更加重要AI大模型以算力集群分布式训练为基础,带来大量节点间通信消耗,组网规模、网络性能和可靠性决定集群有效算力,网络成为AI算力“瓶颈”,以网强算成为提升大模型训练效率的关键集群有效算力∝{GPU单卡算力*总卡数*线性加速比*有效运行时}网络可靠性决定GPU集群有效运行时间2%的丢包就会使RDMA吞吐率下降为0网络芯片容量决定GPU集群组网规模芯片容量提升2倍,组网规模提高4倍网络芯片性能决定GPU集群算力加速比GPU集群性能≠单GPU性能*N5智算中心网络用于连接CPU、GPU、内存等池化异构算力资源,贯穿数据计算、存储全流程,网络性能增强对提升智算中心整体算力水平具有关键意义;与通用云计算网络不同,AI参数面网络要求极高,是业界关注焦点智算中心网络概况面向任务场景,以算力资源为池化对象网络提供CPU、GPU、存储之间高速连接面向业务场景,以服务器/VM为池化对象网络提供VM/服务器之间连接通算中心AsIs–DataCenter智算中心ToBe–ClusterComputing…………业务面管理面参数面存储面智算中心网络数据中心网络IPMIIPMIIPMIIPMI数据面…业务面…IPMIIPMIIPMIIPMI…管理面…存储面61243Ringallreduce12431+21+23+43+41+2+3+41+2+3+41+2+3+41+2+3+4log 6控step1step2HDallreduceRingallreduceAllreduce:可以通过算法转化为对分通信通信数据量Double,无多打一01237456012374560123745601237456特征:ü点到点通信,对分流量,无多打一ü网络同轨通信ALLReduce:在主节点上进行Reduce(如sum、min)操作,通过Garther分发给所有节点,所有节点得到相同数据,一个典型的32卡HDallreduce过程:üStep1-3:通过总线完成机内8卡通信üStep4-5:通过网络完成4台服务器之间的通信AI训练依赖典型集合通信原语7通用算力以CPU芯片为主,业务种类多流量小,业务间相互独立;智能算力以GPU、Al芯片等人工智能芯片为主,通信关系固定,流数量少流量大,分布式训练带来大量节点的同步突发,木桶效应明显•单个流量:数量多、带宽小、突发异步•累积流量:抖动幅度较小,具有随机性•单个流量:数量少、带宽大、突发同步•累积流量:波峰、波谷效应明显,具有周期性单个流量累积流量单个流量累积流量通算中心流量模型智算中心大模型(All-to-all)流量模型GPU停工等待其他GPU完成工作通算中心与智算中心流量模型差异性8通算中心与智算中心网络差异性智算中心组网方案•端口速率方面:服务器端口10GE/25GE并存,汇聚层从40GE向100GE演进•服务器网卡数量:一机双卡•设备关系:交换机设备之间部署MC-LAG•组网形态:Leaf为盒式设备,Spine多为框式设备通算中心组网方案Spine交换机Leaf交换机服务器•端口速率方面:服务器端口200GE/400GE,汇聚层400GE/800GE•服务器网卡数量:一机八卡•设备关系:交换机设备之间独立•组网形态:Leaf为盒式设备,Spine多为盒式设备业界主流通算中心与智算中心均采用spine-leaf架构,但两者端口速率、组网方式、网络协议均存在差异性9目录01智算中心网络技术概况03智算网络技术评测面临的挑战02全调度以太网技术创新10有效通信带宽≠网卡/交换机组网物理带宽任务同步产生“多打一”流量,拥塞导致时延、抖动增加•问题:传统以太网源端发流不关注网络情况及目的端接受能力,直接向网络“推”流,产生多打一流量,导致网络产生拥塞或丢包,导致GPU空闲,算力损失•问题:传统流级负载均衡极易造成多个流哈希到同一条链路,造成部分链路拥塞,部分空闲,网络利用率低,无法应对突发的网络流量现有以太网协议基于流的负载分担及拥塞控制机制,在AI模型训练场景存在天然缺陷,导致网络有效带宽和时延受限In-cast流量问题一:基于流的负载均衡存在哈希极化问题问题二:被动拥塞控制导致GPU闲置606060100100switchswitch当前智算中心网络技术问题和挑战InfiniBand和RoCE存在各自问题,基于新型以太网构建开放、标准的生态,成为智算中心网络技术演进方向11GSE链路层三大核心技术从“局部”决策到“全局”调度从“流”分发到“报文”分发从盲发+被动控制到感知+主动控制将业务流拆分到不同“报文容器”转发,提供逐“报文容器”负载均衡机制,提升带宽利用率从被动拥塞控制,到基于“授权请求和响应机制”的主动流控,最大限度避免网络拥塞产生基于算网协同的全局视野转发调度机制,实现集中式管理运维、分布式控制转发当前:逐流负载,链路利用率低、发生拥塞被动降速未来:逐报文容器转发,链路负载均衡,全局调度,避免拥塞源leafSpineSpineSpine目的leaf213213213213213213拥塞21321321丢包GSE创新以太网转发机制,基于三大核心机制转变,实现高精度负载均衡、网络层原生无损及低延迟12全调度以太网(GSE)技术体系框架部署自动化测试验收自动化变更自动化运维自动化物理层高速光接口光交换低延迟FECPhySec链路层报文分发和重组机制调度机制链路级安全及容错机制故障快速检测网络层新型组网拓扑新型组播/任播协议新型负载均衡机制传输层高可扩展的传输队列/连接管理新型传输服务灵活报文/事务交付序设计高效可靠性机制网络可视化管理与运维体系GS

点击免费阅读完整报告
© 2017-2023 上海俟德教育科技有限公司
沪ICP备17027418号-1 | 增值电信业务经营许可证:沪B2-20210551
回顶部
报告群
公众号
小程序
APP
在线客服
收起