1. Slurm前处理和后处理
Slurm支持大量的prolog和epilog程序。 请注意,出于安全原因,这些程序没有设置搜索路径。 在程序中指定完全限定的路径名或设置“PATH”环境变量。 下面的第一个表格列出了可用于作业分配的prolog和epilog,它们的运行时间和地点。
参数 | 地点 | 由...调用 | 用户 | 执行时 |
Prolog(来自slurm.conf) | 计算或前端节点 | slurmd守护进程 | SlurmdUser(通常是用户root) | 该节点上的第一个作业或作业步骤启动(默认情况下);PrologFlags = Alloc将强制脚本在作业分配时执行 |
PrologSlurmctld(来自slurm.conf) | 头节点(slurmctld守护程序运行的地方) | slurmctld守护进程 | SlurmctldUser | 在工作分配 |
Epilog(来自slurm.conf) | 计算或前端节点 | slurmd守护进程 | SlurmdUser(通常是用户root) | 在工作结束时 |
EpilogSlurmctld(来自slurm.conf) | 头节点(slurmctld守护程序运行的地方) | slurmctld守护进程 | SlurmctldUser | 在工作结束时 |
下面的第二个表格列出了作业步骤分配可用的prolog和epilog,它们运行的时间和地点。
参数 | 地点 | 由...调用 | 用户 | 执行时 |
SrunProlog(来自slurm.conf)或srun --prolog | srun调用节点 | srun命令 | 用户调用srun命令 | 在启动工作步骤之前 |
TaskProlog(来自slurm.conf) | 计算节点 | slurmstepd守护进程 | 用户调用srun命令 | 在启动工作步骤之前 |
srun --task-prolog | 计算节点 | slurmstepd守护进程 | 用户调用srun命令 | 在启动工作步骤之前 |
TaskEpilog(来自slurm.conf) | 计算节点 | slurmstepd守护进程 | 用户调用srun命令 | 完成工作步骤 |
srun --task-epilog | 计算节点 | slurmstepd守护进程 | 用户调用srun命令 | 完成工作步骤 |
SrunEpilog(来自slurm.conf)或srun --epilog | srun调用节点 | srun命令 | 用户调用srun命令 | 完成工作步骤 |
默认情况下,Prolog脚本仅在第一次看到新分配的作业步骤时在任何单个节点上运行; 在授予分配时,它不会立即运行Prolog。 如果在节点上没有运行分配的作业步骤,它将永远不会为该分配运行Prolog。 可以通过PrologFlags参数更改此Prolog行为。 另一方面,Epilog在分配释放时总是在分配的每个节点上运行。
使用与要启动的用户任务相同的环境执行任务序言。 该程序的标准输出读取和处理如下:
export name = value设置用户任务的环境变量
unset name从用户任务中清除环境变量
print ...写入任务的标准输出。
2. 环境变量
除非另有说明,否则这些环境变量可用于所有程序。
BASIL_RESERVATION_ID BASIL预订ID。仅适用于ALPS的Cray系统。
SLURM_ARRAY_JOB_ID如果此作业是作业数组的一部分,则将其设置为作业ID。否则将无法设置。要引用作业数组的此特定任务,请将SLURM_ARRAY_JOB_ID与SLURM_ARRAY_TASK_ID结合使用(例如“scontrol update $ {SLURM_ARRAY_JOB_ID} _ {$ SLURM_ARRAY_TASK_ID} ...”);仅适用于PrologSlurmctld和EpilogSlurmctld。
SLURM_ARRAY_TASK_ID如果此作业是作业数组的一部分,则将其设置为任务ID。否则将无法设置。要引用作业数组的此特定任务,请将SLURM_ARRAY_JOB_ID与SLURM_ARRAY_TASK_ID结合使用(例如“scontrol update $ {SLURM_ARRAY_JOB_ID} _ {$ SLURM_ARRAY_TASK_ID} ...”);仅适用于PrologSlurmctld和EpilogSlurmctld。
SLURM_ARRAY_TASK_MAX如果此作业是作业数组的一部分,则将其设置为最大任务ID。否则将无法设置。仅适用于PrologSlurmctld和EpilogSlurmctld。
SLURM_ARRAY_TASK_MIN如果此作业是作业数组的一部分,则将其设置为最小任务ID。否则将无法设置。仅适用于PrologSlurmctld和EpilogSlurmctld。
SLURM_ARRAY_TASK_STEP如果此作业是作业数组的一部分,则将其设置为任务ID的步长。否则将无法设置。仅适用于PrologSlurmctld和EpilogSlurmctld。
SLURM_CLUSTER_NAME执行作业的群集的名称。
SLURM_JOB_GPUS分配给作业的GPU ID(如果有)。仅在Prolog中提供。
SLURM_JOB_ACCOUNT用于作业的帐户名称。仅适用于PrologSlurmctld和EpilogSlurmctld。
SLURM_JOB_CONSTRAINTS运行作业所需的功能。仅适用于Prolog,PrologSlurmctld和EpilogSlurmctld。
SLURM_JOB_DERIVED_EC所有作业步骤的最高退出代码。仅适用于EpilogSlurmctld。
SLURM_JOB_EXIT_CODE作业脚本(或salloc)的退出代码。该值是wait()系统调用返回的状态(请参阅wait(2))仅适用于EpilogSlurmctld。
SLURM_JOB_EXIT_CODE2作业脚本(或salloc)的退出代码。该值的格式为:。第一个数字是退出代码,通常由exit()函数设置。如果信号被信号终止,则导致该过程终止的第二个信号。仅适用于EpilogSlurmctld。
SLURM_JOB_GID作业所有者的组ID。仅适用于PrologSlurmctld和EpilogSlurmctld。
SLURM_JOB_GROUP作业所有者的组名。仅适用于PrologSlurmctld和EpilogSlurmctld。
SLURM_JOB_ID作业ID。小心:如果此作业是作业数组的第一个任务,则使用此作业ID的Slurm命令将引用整个作业数组,而不是作业数组的此特定任务。
SLURM_JOB_NAME工作的名称。仅适用于PrologSlurmctld和EpilogSlurmctld。
SLURM_JOB_NODELIST分配给作业的节点。 Slurm主机列表表达式。 “scontrol show hostnames”可用于将其转换为单个主机名列表。仅适用于PrologSlurmctld和EpilogSlurmctld。
SLURM_JOB_PARTITION作业运行的分区。仅适用于Prolog,PrologSlurmctld和EpilogSlurmctld。
SLURM_JOB_UID作业所有者的用户ID。
SLURM_JOB_USER作业所有者的用户名。
SLURM_WCKEY作业wckey的用户名(如果有)。仅适用于PrologSlurmctld和EpilogSlurmctld。
插件函数也可用于在各种明确定义的点处执行逻辑。
SPANK是另一种在用户命令,slurmd守护进程和slurmstepd守护进程中调用逻辑的机制。
3. 失败处理
如果Epilog失败(返回非零退出代码),这将导致节点设置为DOWN状态。 如果EpilogSlurmctld失败(返回非零退出代码),则只会记录此信息。 如果Prolog失败(返回非零退出代码),这将导致节点设置为DRAIN状态,并且作业在保持状态下重新排队(除非在SchedulerParameters中配置nohold_on_prolog_fail)。 如果PrologSlurmctld失败(返回非零退出代码),这将导致作业重新排队以在可能的情况下在另一个节点上执行。 只能批量作业重新排队。 如果PrologSlurmctld失败,将取消交互式作业(salloc和srun)。
4. 源码分析
计算节点slurmd执行prolog代码调用流程:
main(src\slurmd\slurmd\slurmd.c)
_msg_engine
_handle_connection
_service_connection(src\slurmd\slurmd\slurmd.c)
slurmd_req
_rpc_prolog(REQUEST_LAUNCH_PROLOG)
_rpc_batch_job(REQUEST_BATCH_JOB_LAUNCH)
_rpc_launch_tasks(REQUEST_LAUNCH_TASKS)
_run_prolog(以上三种情况都会执行到这儿)
_build_env(设置相关环境变量,包括SLURMD_NODENAME)
_run_job_script
run_script
_run_one_script
fork & execve