mirror of
https://github.com/Estom/notes.git
synced 2026-04-14 10:21:08 +08:00
内容删除
This commit is contained in:
@@ -8,6 +8,29 @@
|
||||
|
||||
不通过作业调度管理系统直接在计算节点上运行将会被杀掉。
|
||||
|
||||
常用术语
|
||||
* user:用户名
|
||||
* node:计算节点
|
||||
* core:cpu核
|
||||
* job:作业
|
||||
* job step:作业步,单个作业可以有多个作业步
|
||||
* partition:分区,作业需在特定分区中运行
|
||||
* QOS:服务质量,可理解为用户可使用的CPU、内存等资源限制
|
||||
* tasks:任务数,默认一个任务使用一个cpu核,可理解为作业所需的cpu核数
|
||||
* socket:cpu插槽,可理解为物理cpu颗数
|
||||
* stdout:标准输出文件,程序运行正常时输出信息的文件,一般指输出到屏幕的信息
|
||||
* stderr:标准错误文件,程序运行出错时输出信息的文件,一般指输出到屏幕的信息
|
||||
|
||||
|
||||
命令
|
||||
* sbatch:提交作业脚本。此脚本一般会包含一个或多个srun命令启动并行任务
|
||||
* sinfo:显示分区或节点状态,可以通过参数选项进行过滤、和排序
|
||||
* squeue:显示队列的作业及作业状态
|
||||
* scancel:取消排队或运行中的作业
|
||||
* scontrol:显示或设定slurm作业、分区、节点等状态
|
||||
* sacctmgr:显示和设置账户关联的QOS等信息
|
||||
* sacct:显示历史作业信息
|
||||
* srun:运行并行作业,具有多个选项,如:最大和最小节点数、处理器数、是否指定和排除节点
|
||||
|
||||
## 分区信息查询-sinfo
|
||||
用户在使用时,首先需要了解哪些分区可以使用。在计算服务中,使用sinfo命令查询队列信息。根据命令输出,可以看到当前节点所在集群的作业调度系统的队列情况,并可看到每个分区可访问的空闲节点数量、节点名称。
|
||||
|
||||
Reference in New Issue
Block a user