||
本词条由“科普中国”科学百科词条编写与应用工作项目 审核 。
Slurm工作调度工具是面向Linux和Unix类似内核的免费和开源工作调度程序,由世界上许多超级计算机和计算机集群使用。 它提供了三个关键功能。 首先,它在一段时间内为用户分配对资源(计算机节点)的独占和/或非独占访问权限,以便他们可以执行工作。 其次,它提供了一个框架,用于在一组分配的节点上启动,执行和监视工作(通常是并行作业,例如MPI)。 最后,它通过管理待处理作业队列来仲裁资源争用。
Slurm是TOP500超级计算机中约60%的工作负载管理器,其中包括天河二号,在2016年之前,它是世界上速度最快的计算机。
Slurm使用基于希尔伯特曲线调度或胖树网络拓扑的最佳拟合算法来优化并行计算机上任务分配的局部性。
中文名
Slurm工作调度工具
作 用
优化并行计算机
Slurm的设计非常模块化,有大约100个可选插件。 在最简单的配置中,它可以在几分钟内安装和配置。 更复杂的配置为会计提供数据库集成,管理资源限制和工作负载优先级 [1] 。
显著的Slurm功能包括以下内容:
没有单点故障,备份守护程序,容错作业选项;
高度可扩展性(在IBM Sequoia的100,000个套接字上安排高达100,000个独立作业);
高性能(每秒多达1000个作业提交和每秒执行600个作业);
免费和开源软件(GNU通用公共许可证);
具有约100个插件的高度可配置性;
公平分享调度与分级银行账户;
抢先式和组合式调度(并行作业的时间切片);
与数据库集成以进行记帐和配置;
针对网络拓扑和节点拓扑(套接字,内核和超线程)优化的资源分配;
高级预订;
空闲节点可以关闭;
每个作业都可以启动不同的操作系统;
通用资源调度(例如图形处理单元);
实时记帐到任务级别(识别具有高CPU或内存使用情况的特定任务);
用户或银行账户的资源限制;
按职位计算用电量;
IBM并行环境(PE / POE)的支持;
支持作业阵列;
作业分析(每个任务CPU使用,内存使用,功耗,网络和文件系统使用的定期采样);
考虑工作的功耗;
先进的多因素作业优先排序算法;
支持MapReduce +;
2014年11月发布了Slurm 14.11版的以下功能:
改进了作业数组的数据结构和可伸缩性;
支持异构通用资源;
添加用户选项以设置CPU调速器;
基于退出值的自动求职策略;
用户使用的报告API,消耗的类型,数量和时间;
通信网关节点可提高可扩展性。
Slurm主要开发与Linux发行版一起工作,虽然也支持一些其他基于POSIX的操作系统,包括BSD(FreeBSD, NetBSD和OpenBSD)。Slurm还支持多种独特的计算机体系结构,其中包括:
参考资料
1.基于超级计算的复杂CAE作业管理系统的研究与实现 .万方[引用日期2018-06-28]
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-3-29 21:30
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社