深圳, 2023年10月17日 — “我真的需要运行这个任务来赶上截止日期。资源排队时间太长了。我该怎么办?”
“我的实验截止日期是下周了,但我刚注意到一些数据错误。重新运行模拟将需要超过100小时。它能不能更快一些?”
“这个实验对我来说很重要。截止日期快到了。我能不能首先运行我的任务?”
科研人员所困扰的不仅是分子运动、脱氧核糖核酸(DNA)成分、风洞测试以及复杂的建模和模拟实验,也包括如何管理有限的计算资源和协调长时间的排队。
为了提高HPC效率并减少科研成本,北京大学公共HPC平台组织了供应商评估,选择一款能够满足期望的HPC网络。由于其无与伦比的计算性能,华为的智能无损HPC网络位居榜首。
成就卓著的计算中心
北京大学在1963年购买第一台计算机时就率先在中国高校建立计算中心。2001年,它汇集各领域专家共同成立了计算科学与工程中心。该中心定位为一座多学科研究平台,可为学校教学和科研活动提供服务。2018年,公共HPC平台正式启用,分阶段投入运营了“微名1号”“微名教学1号”“微名生命科学1号”三个集群。公共平台的总核心数达到31,732颗,峰值计算能力3.65千万亿次浮点运算每秒。该平台为数学、力学、物理学、化学、生物学、地质学等多个学科提供HPC环境。
坚实的科研基础
HPC平台作为大学科研的关键支撑。截至2023年5月12日,北京大学HPC平台已有5070名来自96个学院的用户。该平台支持了545个研究项目,总资金达到316亿元人民币,出版高质量论文1400余篇。它还支持2020年获得戈登贝尔奖的项目。该获奖项目通过机器学习将分子动力学模拟限制提高到1亿个原子,这在计算科学领域至今仍属重大突破。
计算需求增长使网络重建迫在眉睫
随着平台用户数量的不断增加,运营工作量逐渐超出上限。这给网络基础设施带来了前所未有的吞吐量和复杂性。以“微名生命科学1号”为例,节点利用率长期保持在95%以上。其最大任务运行时间达到109小时,最大排队时间550小时。系统和网络重建迫在眉睫已是明显。
为解决这些问题,供应商提出采用无损网络技术如InfiniBand(IB)、RoCEv1和RoCEv2。经过严格测试,北京大学公共HPC平台最终选择了华为CloudFabric 3.0超融合DCN解决方案,因为其性能无与伦比。基于智能无损HPC网络,该解决方案理想地构建了可以发挥100%计算能力并最小化任务运行和排队时间的HPC集群。
华为智能无损HPC网络助力北京大学提升科研效率
测试重点在不同应用场景下TCP/IP、IB和RoCEv2的性能,包括HPC基准测试工具LINPACK、地球系统模型社区(CESM)以及分子动力学软件虚拟类比开关点(VASP)。
在VASP测试中,华为智能无损HPC网络——100GE RoCEv2性能超过IB。在LINPACK和CESM测试中,华为100GE RoCEv2与IB性能基本持平。这证明华为智能无损HPC网络可以替代IB在真实应用场景下。
华为智能无损HPC网络解决方案独特地实现了无损以太网。相比常规以太网,无损以太网可以在同规模服务器下提升两倍计算能力。该解决方案亮点之一是CloudEngine 16800交换机。这款功能丰富的交换机提供行业最高密度的768个400GE端口,理想于构建10E级超大规模计算集群。此外,华为是唯一实现网络辅助计算的供应商,即网络内计算(INC)。Tolly验证,华为解决方案任务完成时间(JCT)比IB短17%。
北京大学HPC平台拥有中国领先的超级计算集群。整体系统的LINPACK效率长期位居第一,对网络性能和可靠性提出了极高要求。这些测试再次证明华为超融合DCN的强大能力,助推华为在超计算领域获得更多认可。展望未来,华为智能无损HPC网络将在教育、科研等各个领域得到更广泛应用,为科学计算、工程创新和高端科研奠定坚实基础。
本文选自华为ICT Insights杂志智慧教育专刊。欢迎访问华为官方网站了解更多详情:
https://e.huawei.com/en/ict-insights/global/ict_insights/ict34-intelligent-education
联系方式
hwebgcomms@huawei.com