内容删除

This commit is contained in:
yinkanglong
2022-01-13 17:16:21 +08:00
parent 910fe95942
commit 34e9ca0c2e
2 changed files with 23 additions and 0 deletions

View File

@@ -8,6 +8,29 @@
不通过作业调度管理系统直接在计算节点上运行将会被杀掉。
常用术语
* user用户名
* node计算节点
* corecpu核
* job作业
* job step作业步单个作业可以有多个作业步
* partition分区作业需在特定分区中运行
* QOS服务质量可理解为用户可使用的CPU、内存等资源限制
* tasks任务数默认一个任务使用一个cpu核可理解为作业所需的cpu核数
* socketcpu插槽可理解为物理cpu颗数
* stdout标准输出文件程序运行正常时输出信息的文件一般指输出到屏幕的信息
* stderr标准错误文件程序运行出错时输出信息的文件一般指输出到屏幕的信息
命令
* sbatch提交作业脚本。此脚本一般会包含一个或多个srun命令启动并行任务
* sinfo显示分区或节点状态可以通过参数选项进行过滤、和排序
* squeue显示队列的作业及作业状态
* scancel取消排队或运行中的作业
* scontrol显示或设定slurm作业、分区、节点等状态
* sacctmgr显示和设置账户关联的QOS等信息
* sacct显示历史作业信息
* srun运行并行作业具有多个选项最大和最小节点数、处理器数、是否指定和排除节点
## 分区信息查询-sinfo
用户在使用时首先需要了解哪些分区可以使用。在计算服务中使用sinfo命令查询队列信息。根据命令输出可以看到当前节点所在集群的作业调度系统的队列情况并可看到每个分区可访问的空闲节点数量、节点名称。