Datas: do 25 ao 28 de maio de 2026
Horario: de 15:00 a 18:15 horas
Modalidade: Presencial, Aula T-109, E. E. de Telecomunicación, Universidade de Vigo
Idioma: Español
Imparte: Álvaro Correal Román, ITWISE. Enxeñeiro Superior de Telecomunicación e Doutor en Tecnoloxía Electrónica e das Comunicacións, con máis de 25 anos de experiencia no ámbito das infraestruturas IT, administración de sistemas e consultoría tecnolóxica. Ao longo da súa traxectoria profesional traballou en compañías de referencia do sector tecnolóxico e das telecomunicacións, acumulando unha sólida experiencia no deseño, implantación e administración de plataformas empresariais. Actualmente desenvolve o seu labor como Consultor Sénior de Infraestruturas en ITWISE, participando en proxectos de alta complexidade relacionados coa virtualización, o almacenamento, as redes e os contornos críticos empresariais.
Obxectivos do curso
Proporcionar ao persoal investigador unha visión práctica e aplicada de contornas High Performance Computing (HPC), capacitándoo para utilizar de maneira eficiente os recursos de computación, almacenamento e execución distribuída dispoñibles nas infraestruturas do centro.
Contidos
Módulo 1: Fundamentos de HPC
- Introdución: Evolución, casos de uso (ciencia, IA, big data).
- Tipos de arquitecturas: Clústeres, MPP, cloud HPC.
- Conceptos clave: Workloads (CPU, memory, IO-bound).
- Escalabilidade: Lei de Amdahl e Lei de Gustafson.
Módulo 2: Arquitectura de Sistemas
- Procesadores: x86/ARM, multicore, multithreading, NUMA e afinidade.
- Memoria: Xerarquía (L1-L3, RAM) e xestión de acceso.
- Aceleradores: Visión xeral de GPUs, DPUs e FPGAs en HPC.
- Interconexión: Latencia vs ancho de banda, InfiniBand vs Ethernet, topoloxías (Fat-tree, Dragonfly).
Módulo 3: Almacenamiento en HPC
- Sistemas de ficheiros paralelos: Lustre, IBM Spectrum Scale (GPFS), BeeGFS.
- Conceptos de I/O: Secuencial vs aleatorio, Throughput vs IOPS.
- Problemas críticos: Small files, colos de botella en metadatos.
- Ciclo de vida: Tiering (NVMe, HDD, tape), backup e políticas de datos.
Módulo 4: Xestión de Recursos e Scheduling (Slurm)
- Arquitectura: Nodos, particións e colas.
- Operativa: sbatch, srun, squeue, job arrays.
- Xestión avanzada: QoS, fair-share, dependencias, backfilling, scheduling para GPUs.
- Troubleshooting: Diagnóstico de fallos e xestión de colas.
Módulo 5: Programación Paralela
- Modelos: MPI (memoria distribuída), OpenMP (memoria compartida) e modelos híbridos.
- Conceptos: Comunicación entre procesos, sincronización e execución distribuída.
Módulo 6: Optimización e Rendimiento
- Análisis: Profiling de CPU e GPU.
- Técnicas: Vectorización (SIMD), afinidade CPU/memoria.
- Diagnóstico: Identificación de colos de botella en rede, I/O, memoria e cómputo.
Módulo 7: Operación, Administración e Nube
- Monitorización: Métricas de saúde, uso de recursos (Prometheus/Grafana).
- Automatización: Provisioning (PXE), xestión con Ansible.
- Ecosistema: Contedores (Singularity/Apptainer) e HPC híbrido (cloud).
Módulo 8: Laboratorios Prácticos
- Práctica Slurm: Configuración, envío de jobs e xestión.
- Benchmarking: HPL, IOZone e probas de escalabilidade.
- Desenvolvemento: Compilación e execución de aplicacións paralelas (MPI/OpenMP).
Módulo 9: Boas Prácticas e Xestión
- Eficiencia: Uso responsable dos recursos e selección de hardware/software.
- Xestión: Optimización do sistema de archivos e análise de custo computacional.