🚧 Ejecución de trabajos#

Para ejecutar programas se usa SLURM, que es un sistema de gestión de trabajos utilizado en clusters para distribuir y gestionar tareas de manera eficiente.

Para correr un trabajo, se necesita crear un script de lanzamiento que describa los recursos requeridos por el trabajo y las tareas que realiza. Más abajo encontrará ejemplos de scripts.

Ver también

Para usar software ya instalados en el cluster, ver el tutorial sobre modules.

Comandos básicos#

sbatch: Para encolar un trabajo cuyo submit script es job.sh, luego de encolar el trabajo le devolverá un número que lo identifica.
```
$ sbatch job.sh
Submitted batch job 1234
```
squeue: Muestra la cola de trabajos pendientes o en ejecución.
```
$ squeue --me
```
sinfo: Proporciona información sobre el estado de los nodos en el cluster.
```
$ sinfo
```
scancel: Para eliminar un trabajo de la cola o cancelar su ejecución, usando el identificador del trabajo.
```
$ scancel 1234
```

Ver trabajos encolados#

Para ver todos los trabajos en las distintas colas de trabajos, utilice squeue. El programa muestra distinta información sobre cada trabajo:

Ejemplo del comando squeue#

$ squeue
PARTITION   JOBID PRIO       NAME     USER ST       TIME NO CPU  GRES NODELIST(REASON)
multi       55060 7353      seed1 usuario1 PD       0:00  4  80 (null (Resources)
mono        55079 6659     e05.e2 usuario2 PD       0:00  1   8 gpu:0 (AssocMaxJobsLimit)
multi       55081 6538       neb1 usuario3 PD       0:00  2  40 (null (Priority)
gpu         55008 6281     br_190 usuario4 PD       0:00  1   1 gpu:1 (AssocMaxJobsLimit)
multi       54915    0 Au3Ir5TiO2 usuario5 PD       0:00  2  40 (null (launch failed requeued held)
multi       55059 7347      seed3 usuario1  R       9:39  4  80 (null mendieta[11-12,19-20]
multi       54959 7167       neb2 usuario3  R 3-03:53:18  2  40 (null mendieta[13-14]
mono        55073 7038     e03.e2 usuario2  R    3:25:40  1   8 gpu:0 mendieta01
mono        55025 6777 e09.new.e2 usuario2  R 1-21:49:42  1   8 gpu:0 mendieta08
gpu         55007 6113     br_170 usuario4  R    3:25:53  1  16 gpu:1 mendieta05

PARTITION:

La cola en la que está

JOBID:

El identificador

PRIO:

La prioridad para que tiene para ser lanzado.

NAME:

El nombre.

USER:

El usuario que lo encoló.

TIME:

El tiempo que lleva ejecutando.

NO:

La cantidad de nodos que se estima que va a ocupar o que ya ocupa.

CPU:

La cantidad de cores totales que se estima que va a ocupar o que ya ocupa.

GRES:

Los aceleradores que pidió.

NODELIST:

Los nodos en los que está corriendo el trabajo, o la razón por la que no se está ejecutando todavía. Algunas razones comunes son:

(Resources): No hay recursos libres en el cluster para ejecutarlo.
(Priority): Hay trabajos con mayor prioridad esperando a ser ejecutados.
(AssociationJobLimit): El usuario ya excede la cantidad de trabajos máxima en ejecución simultánea.
(JobHeldUser): El usuario ha suspendido el trabajo.
(JobHeldAdmin): Un administrador ha suspendido el trabajo.
(launch failed requeued held): SLURM encontró un error al iniciar el trabajo y lo ha suspendido.
(Nodes required for job are DOWN, DRAINED or reserved): Si alguno de los nodos que están down se levanta este job lo ocuparía.

Preguntas Frecuentes#

¿Por qué SLURM no toma en cuenta el tiempo de ejecución solicitado?

En las nuevas versiones de SLURM todas las directivas del preámbulo se deben especificar en un solo bloque, es decir que apenas detecta un comando SLURM considera que llegó al final del preámbulo. Por ejemplo, el siguiente script considerará el tiempo de ejecución solicitado por el usuario, en este caso 7 días:

#!/bin/bash
#SBATCH --job-name=test
#SBATCH --partition=mono
#SBATCH --ntasks=4
#SBATCH --cpus-per-task=2
#SBATCH --time 7-0:00:00

Mientras que el siguiente script tomará como tiempo de ejecución aquel indicado en la configuración por defecto de la cola, porque la instrucción --time no va a ser tomada en consideración:

#!/bin/bash
#SBATCH --job-name=test
#SBATCH --partition=mono
#SBATCH --ntasks=4
#SBATCH --cpus-per-task=2

export MYVAR="Hello"
#SBATCH --time 7-0:00:00

¿Cómo sé si SLURM tomó en consideración todas las instrucciones especificadas en el preámbulo?

Es posible utilizar el comando scontrol para verificar que el gestor de recursos haya encolado el trabajo de acuerdo a lo solicitado en el preámbulo:

scontrol show job $JOBID

Donde la variable $JOBID debe ser reemplazada por el numero del job.

🚧 Ejecución de trabajos

Contenido

🚧 Ejecución de trabajos#

Comandos básicos#

Ver trabajos encolados#

Ejemplos#

Hola Mundos#

Quantum Espresso#

GROMACS#

Sesión interactiva#

Notebook Jupyter con GPU en Mendieta#

Preguntas Frecuentes#