为什么要用到作业调度系统?因为超算上有多个用户的计算任务在运行。他们的任务申请的计算资源不同,但是超算的资源有限,该如何分配资源,安排任务的先后?所以超算系统会安装作业调度系统进行计算资源的分配等工作。
Slurm(Simple Linux Utility for Resource Management是开源的、具有容错性和高度可扩展大型和小型Linux集群资源管理和作业调度系统。鸿研云超算中心安装的就是这款作业调度系统。
官网的使用手册是这里:https://slurm.schedmd.com/documentation.html
网上也可以找到很多中文版的教程。
例如:https://scc.ustc.edu.cn/zlsc/user_doc/html/slurm/index.html