wiki:comandos_básicos_slurm

Version 1 (modified by tonin, 2 years ago) (diff)

--

Comandos básicos de slurm

Los comandos de slurm que usará con más asiduidad son realmente muy pocos, principalmente:

  • sinfo: Le mostrará información sobre el estado de las particiones y nodos de slurm, con una salida como esta:
    [root@admin01 etc]# sinfo
    PARTITION AVAIL  TIMELIMIT  NODES  STATE NODELIST
    normal*      up   infinite      5  down* x440-[20-24]
    normal*      up   infinite     19   idle x440-[01-19]
    fat          up   infinite      1   idle x808
    
    En ella puede ver que existen dos particiones (normal y fat), que la partición normal consta de 24 nodos de los cuales 5 están caidos y 19 en estado de espera para recibir trabajos. También hay una partición llamada fat con un solo nodo en estado de espera. Si un usuario envía un trabajo que tiene 140 procesos que ocupan un solo core, y teniendo en cuenta que los nodos de la partición normal disponen de 40 cores, la salida de sinfo durante la ejecución será esta:
    [root@admin01 etc]# sinfo
    PARTITION AVAIL  TIMELIMIT  NODES  STATE NODELIST
    normal*      up   infinite      5  down* x440-[20-24]
    normal*      up   infinite      1    mix x440-04
    normal*      up   infinite      3  alloc x440-[01-03]
    normal*      up   infinite     15   idle x440-[05-19]
    fat          up   infinite      1   idle x808
    
    Como se puede ver hay 3 nodos (del x440-01 al x440-03) totalmente asignados y el nodo x440-04 en estado mix que indica que aún ejecutando procesos tiene recursos libres para ejecutar más. El resto de nodos se encuentran en el mismo estado que en el ejemplo anterior.