Version 1 (modified by tonin, 2 years ago) (diff) |
---|
Preparación de datos
Para trabajar con el HPC, los ficheros de datos pueden venir de datasets públicos o privados externos, como por ejemplo los genomas del NCBI, datasets de ejemplo para machine learning, etc. Normalmente las aplicaciones desarrolladas o las que desarrolle uno deben estar preparadas para leer estos ficheros sin ninguna modificación especial.
Otros datasets serán los del propio usuario que someterá a análisis en el HPC. Lo normal es que la aplicación que los haya generado haya tenido en cuenta el formato necesario para que las aplicaciones que los procesarán no necesiten ninguna transformación. En caso contrario, deberá usar alguna aplición de transformación de datos.
Le recomendamos que use el lenguaje python para estas tareas, ya que es muy potente y sencillo para manipular cadenas de texto, ficheros .csv, etc. sobre todo usando librerías como pandas y similares. Python en su versión 2.7 o python3 en su versión 3.6 se encuentra disponible en el login server.
También puede trasnformar sus datasets en el origen, en su ordenador de escritorio, siempre que la carga de trabajo de la propia transformación no sea tal que haga necesario el uso de un sistema HPC para hacerlo.