研究人员可基于全新发布的实例组建上千节点规模的超高性能计算集群,成倍缩短超大AI模型的训练时间,激发AI业务创新想象力。
新的GPU服务器实例采用百度自研的X-MAN架构的超级AI计算机为硬件平台。
X-MAN自2016年推出以来,已在凤巢、自动驾驶、自然语言处理等百度内部业务进行大规模应用多年,申请六项专利,包括PCie Fabric架构、液冷技术、最大支持64GPU卡扩展等,是百度AI业务快速落地的重要基础设施。
目前,X-MAN已经全面升级到第四代X-MAN 4.0,为AI和HPC等计算场景进行了新的优化设计。
配置方面,每台X-MAN 4.0包含8张NVIDIA A100-80GB GPU,并可支持8张200Gb/s 的InfiniBand网卡,实现了高速存储、高速无阻网络、高性能计算于一体的超级AI计算机。
架构方面,X-MAN 4.0全新设计的架构缩短了数据传输延迟,提高了数据传输带宽,有效解决本地数据传输的通信瓶颈,降低AI作业中GPU的闲置时间。在MLCommons 1.1榜单中,X-MAN 4.0在同配置单机硬件性能名列TOP2。
为了实现更高的集群运行性能,百度智能云专门设计了适用于超大规模集群的InfiniBand网络架构。这个架构优化了网络收敛比,提升了网络吞吐能力。并结合容错、交换机亲和,拓扑映射等手段,得以将EFLOPS级算力的计算集群性能发挥到极致。
经过内部NLP研究团队的验证,在这个网络环境下的超大规模集群上提交千亿模型训练作业时,同等机器规模下整体训练效率是普通GPU集群的3.87倍。
百度副总裁谢广军先生表示:“AI原生云是推动企业智能化升级的核心驱动力。作为中国AI公有云服务市场领跑企业,百度智能云一直在优化提升智能计算的核心能力。X-MAN 4.0助力百度内部业务发展的同时,我们也愿意将这一领先的架构开放给百度智能云的众多客户,帮助大家一起更高效地进行AI研发与探索,驱动业务创新,迈向AI原生。”
为了帮助客户更深入地了解新的GPU服务器实例,以及超大规模的高性能集群构建的技术细节,百度智能云将与NVIDIA 于3月16日晚19:00举办在线研讨会进行详细分享,解答客户的问题。直播平台在B站(百度智能云的朋友们)、视频号(百度智能云)。