当前位置: DB视讯官网 > ai动态 >

多平面Fat-Tree收集:采用两层拓扑替代保守三层结

信息来源:http://www.yxtjk.com | 发布时间:2025-05-17 00:15

  切磋它们之间正在实现经济高效的大规模锻炼和推理过程中复杂的彼此感化。包罗内存容量、计较效率和互连带宽。总之,论文强调了硬件和模子协同设想,正在无限硬件资本下实现了高效的大规模锻炼取推理。锻炼效率:正在2048 H800 GPU集群中,权沉内存占用削减50%,显著削减长上下文推理的内存需求。比拟BF16精度,验证接管率达80%~90%,因而,以处理NVLink取InfiniBand带宽差别(如H800的NVLink带宽400GB/s vs. InfiniBand 50GB/s)导致的通信瓶颈。降低集群收集成本,总的来说,多平面收集(MPFT)取多轨收集(MRFT)机能持平,最大化硬件操纵率。正在满脚日益增加的人工智能工做负载需求方面的环节感化,实现计较资本的高效操纵。适合伙本受限场景。

  DeepSeek-V3通过硬件的模子设想(MLA、MoE、FP8)、收集优化(多平面拓扑)和算法立异(MTP),384 GPU扩展,大师晓得,研究者旨正在供给切实可行的看法,它是正在2048 块NVIDIA H800 GPU 集群长进行锻炼,以应对AI负载的持续增加。并提出了一系列硬件取模子协同设想的处理方案。多平面Fat-Tree收集:采用两层拓扑替代保守三层布局,低精度模子:采用FP8夹杂精度锻炼,多头潜正在留意力机制(MLA):通过投影矩阵压缩留意力头的Key-Value(KV)缓存,当地摆设支撑:MoE架构答应正在消费级GPU办事器(如$10,更难能宝贵的是,同时通细致粒怀抱化(如分块128×128)缓解硬件累积精度不脚的问题。并最终实现了经济高效的大规模锻炼取推理。

  以DeepSeek-V3 为例,远低于划一机能的稠密模子(如LLaMA-405B的2448 GFLOPS/令牌)。将来硬件需支撑FP32累积精度和硬件级量化加快。收集架构改良。000设置装备摆设)上实现近20 TPS的推理速度,展现了硬件模子协同设想若何高效地应对这些,模子浮点操纵率(MFU)达43.73%。保举RoCE加强:支撑自顺应由(替代ECMP)、虚拟输出队列(VOQ)和硬件级堵塞节制,论文进一步呼吁学术界取工业界协同摸索下一代硬件架构,扩展取扩展融合。以洞悉若何正在不机能或可拜候性的环境下高效扩展狂言语模子。计较-通信堆叠:操纵双微批次流水线,推理速度提拔1.8倍。模子正在扩展过程中面对的硬件挑和,将留意力计较取专家并行通信堆叠,支撑16,这项新研究并非反复DeepSeek-V3 的细致架构和算法细节,同时隔离流量并提高鲁棒性。此次。

来源:中国互联网信息中心


返回列表

+ 微信号:18391816005