整个计算模拟集群可以分为:计算节点、管理登录节点、存储节点、计算网络以及集群调动管理系统。以下为材料人推荐的一套解决方案。
计算节点
计算节点是计算集群的核心,在预算许可的情况下尽量选择搭载了新款CPU的机型。材料人推荐选用目前性价比非常高的HY-8581C服务器。这款双路服务器搭载intel 8581C,单台达到120核!单台售价仅4万+。
分项 | 参数 | 数量 |
CPU | INTEL 铂金 8581C 60核 | 2 |
内存 | SK 4800 DDR5 16G RECC | 16 |
系统盘 | 三星 1T SATA SSD 企业级 | 1 |
存储盘 | 无 | 0 |
机箱 | 4U机架机箱 | 1 |
具体可以参考:https://www.cailiaoren.com/zl_detail.php?dbid=443
此外,还可以根据需要部署一些大内存(如内存1T\2T)的计算节点。
如果有机器学习需求,可以部署一些搭载3090、4090或A100、H100的机器学习节点。以下是一台双卡4090机器学习节点配置供参考。
分项 | 参数 | 数量 |
CPU | INTEL 铂金 8370C 32核 | 2 |
内存 | SK 3200 DDR4 16G RECC | 16 |
系统盘 | 三星 1T SATA SSD 企业级 | 1 |
存储盘 | WD 8T企业级硬盘 | 1 |
显卡 | NVIDIA RTX4090 24G涡轮 | 2 |
管理登录节点
该节点用于计算用户登录系统、管理计算任务等等。,不建议用其中一个计算节点同时担任管理登录节点。以下是可用于小型计算集群的管理登录节点配置,单台在2万左右。
分项 | 参数 | 数量 |
CPU | INTEL 黄金 6148 20核 | 2 |
内存 | SK 3200 DDR4 16G RECC | 8 |
系统盘 | 三星 1T SATA SSD 企业级 | 1 |
存储盘 | WD 8T企业级硬盘 | 6 |
存储节点
存储节点可以与管理登录节点共用,也可以分开。如果单独配置,计算节点、管理登录节点均可以不配置存储盘。
IB网络
IB网络(InfiniBand network)是一种高性能的互连技术,主要用于高性能计算(HPC)和数据中心中的数据传输。如果将计算节点接入IB网络,需要购入专门的IB交换机(40口约十数万),每台计算节点需要配备IB网卡(数千元一张),并用专用线缆连接(数千元一条)。计算集群IB网络搭建价格相对较高,可以根据需要选择是否接入。
集群调度管理系统
Slurm(Simple Linux Utility for Resource Management)是一种开源的集群管理和作业调度系统,广泛用于大型计算节点集群。它的主要功能包括:资源分配、作业管理、作业调度等等。
基于Slurm系统,材料人自主开发了鸿研云超算用户管理系统,并取得了相关软件著作权证书。除了集成了Slurm管理功能以外,还增加了用户管理系统、计费系统、硬件管理以及超算运行数据收集和展示。
模块化机房
当部署的节点数量较多,需要数个甚至数十个机柜来部署的时候,这个时候就需要建设专门的机房了。材料人提供模块化机房解决方案,将机房所需的所有设备(机柜、空调、UPS等)全部集成于冷热通道全封闭的柜体内,并配置各种环境数据采样传感器,进⾏统⼀的监控及管理。这种方式可以将机房建设、运维⼤⼤简化。
业务联系
如有需要,可以联系微信号:cailiaoren010