Context Navigation

← Previous Change
Wiki History
Next Change →

Changes between Initial Version and Version 1 of accounting_slurm

Timestamp:: May 8, 2023, 12:07:17 PM (2 years ago)
Author:: tonin
Comment:: --

Legend:

: Unmodified
: Added
: Removed
: Modified

accounting_slurm

                       v1
+== Accounting e informes de slurm ==
+Slurm consta de un sistema de accounting y reporting que permite a los administradores y a los usuarios tener información restropectiva sobre el uso que se ha hecho del sistema HPC.
+Es importante saber que slurm cuenta con dos entidades necesarias para estas actividades:
+- '''Account''': Es la entidad propia de slurm que permite controlar el acceso y el uso a los recursos para un usuario o grupos de usuarios. Es interna de slurm y no tiene ninguna correspondencia con ningún directorio ni sistema de autenticación.
+- '''User''': Es la entidad que mapea el usuario de slurm al usuario propio de linux correspondiente a la cuenta de usuario,  que estará definido en los servicios de directorio o de autenticación de linux.
+Para entenderlo prácticamente podriamos pensar en que {{{account}}} se corresponde con nuestro grupo de investigación y que {{{user}}} es el usuario que cada uno de los miembros del grupo tiene en el HPC.
+De esa forma un {{{account}}} puede tener varios usuarios, y también un usuario puede pertenecer a varios {{{account}}}. A la hora de contar los recursos del HPC empleados, podremos hacerlo por {{{account}}}, por {{{user}}} o por una combinación de ambos.
+Sobre los {{{account}}} y los {{{user}}} se pueden generar informes de uso. Pondremos aquí solo algunos ejemplos que pueden ser de interés desde el punto de vista del usuario.
+El comando para generar los informes es {{{sreport}}} y por defecto genera informes sobre lo sucedido en las últimas 24 horas. Si queremos especificar otro rango temporal debemos usar los argumentos {{{Start}}} y {{{End}}}, que admiten los siguientes formatos:
+{{{
+              HH:MM[:SS] [AM|PM]
+              MMDD[YY] o MM/DD[/YY] o MM.DD[.YY]
+              MM/DD[/YY]-HH:MM[:SS]
+              YYYY-MM-DD[THH:MM[:SS]]
+}}}
+La información completa del comando {{{sreport}}} se encuentra [https://slurm.schedmd.com/sreport.html aquí]
+=== Muestra los usuarios que más han consumido desde el 1 de enero de 2023 ===
+{{{
+(base) [root@admin01 logs]$ sreport user topuser start=2023-01-01
+--------------------------------------------------------------------------------
+Top 10 Users 2023-01-01T00:00:00 - 2023-05-07T23:59:59 (10969200 secs)
+Usage reported in CPU Minutes
+--------------------------------------------------------------------------------
+  Cluster     Login     Proper Name         Account     Used   Energy
+--------- --------- --------------- --------------- -------- --------
+    linux     user1                              si    47072        0
+    linux     user2                              si    11179        0
+}}}
+Como se ve ambos usuarios corresponden al mismo account. {{{Used}}} nos indica el tiempo de cómputo usado por dichos usuarios.
+=== Muestra la distribución de trabajos en función del número de cpus ===
+{{{
+(base) [root@admin01 logs]$ sreport  job SizesByAccount start=2023-01-01 -t percent Format=account Grouping=5,9
+--------------------------------------------------------------------------------
+Job Sizes 2023-01-01T00:00:00 - 2023-05-07T23:59:59 (10969200 secs)
+Time reported in Percentage of Total
+--------------------------------------------------------------------------------
+  Account      0-4 CPUs      5-8 CPUs     >= 9 CPUs % of cluster
+--------- ------------- ------------- ------------- ------------
+     root        27.25%        72.75%         0.00%      100.00%
+}}}
+Aquí vemos que el 27.25% han consumido menos de 5 cpus, y el resto entre 5 y 8. Cambiando los valores de Grouping podemos cambiar dichos umbrales.
+=== Ver la utilización del cluster ===
+{{{
+(base) [root@admin01 logs]$ sreport cluster utilization Start=2023-01-01
+--------------------------------------------------------------------------------
+Cluster Utilization 2023-01-01T00:00:00 - 2023-05-07T23:59:59
+Usage reported in CPU Minutes
+--------------------------------------------------------------------------------
+  Cluster Allocate      Down PLND Dow       Idle Reserved   Reported
+--------- -------- --------- -------- ---------- -------- ----------
+    linux    58251   7135949        0   40486311    37291   47717802
+}}}
+Este informe nos muestra el consumo en minutos en cada uno de los estados de nuestro cluster, los estados son:
+- '''Allocate''': Los que han usado nuestros trabajos.
+- '''Down''': Los que no se han podido usar porque determinados nodos estaban fuera de servicio o en mantenimiento.
+- '''Idle''': Los minutos que estaban disponibles pero no se han usado.
+- '''Reserved''': Los minutos que se han reservado para que determinado/s usuario/s ejecuten sus trabajos en un momento dado.
+- '''Reported''': El total de minutos de nuestro sistema.
+== Muestra una lista de trabajos pasados ==
+Con el comando {{{sacct}}} es posible mostrar una lista de trabajos pasados y otra información no tan sumarizada como hace el {{{sreport}}}. Aquí tenemos un ejemplo de las primeras filas del listado de los trabajos del cluster desde el 1 de Enero de 2023:
+{{{
+(base) [root@admin01 logs]$ sacct -S2023-01-01 | head
+       JobID    JobName  Partition    Account  AllocCPUS      State ExitCode
+------------ ---------- ---------- ---------- ---------- ---------- --------
+_1            hello     normal         si          1  COMPLETED      0:0
+_1.batch      batch                    si          1  COMPLETED      0:0
+_1.0         python                    si          1  COMPLETED      0:0
+_2            hello     normal         si          1  COMPLETED      0:0
+_2.batch      batch                    si          1  COMPLETED      0:0
+_2.0         python                    si          1  COMPLETED      0:0
+_3            hello     normal         si          1  COMPLETED      0:0
+_3.batch      batch                    si          1  COMPLETED      0:0
+}}}
+Si quisiéramos ver por ejemplo las cpus usadas por el trabajo con id 5000, usariamos este comando:
+{{{
+(base) [tonin@admin01 logs]$ sacct --jobs 5000 --allocations
+       JobID    JobName  Partition    Account  AllocCPUS      State ExitCode
+------------ ---------- ---------- ---------- ---------- ---------- --------
+         BioHub_Ba+     normal         si          5  COMPLETED      0:0
+}}}
+Hay muchas posibilidades usando los argumentos del comando {{{sacct}}} que están explicados [https://slurm.schedmd.com/sacct.html aquí]