diff --git a/Linux/工具篇/Scp远程拷贝.md b/Linux/工具篇/Scp远程拷贝.md deleted file mode 100644 index e69de29b..00000000 diff --git a/Linux/工具篇/slrum作业调度.md b/Linux/工具篇/slrum作业调度.md index a3e2633c..7067cd11 100644 --- a/Linux/工具篇/slrum作业调度.md +++ b/Linux/工具篇/slrum作业调度.md @@ -8,6 +8,29 @@ 不通过作业调度管理系统直接在计算节点上运行将会被杀掉。 +常用术语 +* user:用户名 +* node:计算节点 +* core:cpu核 +* job:作业 +* job step:作业步,单个作业可以有多个作业步 +* partition:分区,作业需在特定分区中运行 +* QOS:服务质量,可理解为用户可使用的CPU、内存等资源限制 +* tasks:任务数,默认一个任务使用一个cpu核,可理解为作业所需的cpu核数 +* socket:cpu插槽,可理解为物理cpu颗数 +* stdout:标准输出文件,程序运行正常时输出信息的文件,一般指输出到屏幕的信息 +* stderr:标准错误文件,程序运行出错时输出信息的文件,一般指输出到屏幕的信息 + + +命令 +* sbatch:提交作业脚本。此脚本一般会包含一个或多个srun命令启动并行任务 +* sinfo:显示分区或节点状态,可以通过参数选项进行过滤、和排序 +* squeue:显示队列的作业及作业状态 +* scancel:取消排队或运行中的作业 +* scontrol:显示或设定slurm作业、分区、节点等状态 +* sacctmgr:显示和设置账户关联的QOS等信息 +* sacct:显示历史作业信息 +* srun:运行并行作业,具有多个选项,如:最大和最小节点数、处理器数、是否指定和排除节点 ## 分区信息查询-sinfo 用户在使用时,首先需要了解哪些分区可以使用。在计算服务中,使用sinfo命令查询队列信息。根据命令输出,可以看到当前节点所在集群的作业调度系统的队列情况,并可看到每个分区可访问的空闲节点数量、节点名称。