Hardware#

Clementina cuenta con 80 nodos de cómputo, identificados como cn[001:080].

Composición#

Características por nodo:

CPU

Intel(R) Xeon(R) CPU Max 9462

Cores por nodo

64 cores

Sockets

2

Cache L1i

32KB

Cache L1d

48KB

Cache L2

2048KB

Cache L3

75MB

Memoria HBM

64GB

RAM

512GB

GPU

4 x Intel GPU Max 1550 (Intel Ponte Vecchio)

Nota sobre HBM

La memoria HBM de Clementina XXI actúa como un nivel de memoria intermedio entre la Cache L3 y la RAM. La misma no es visible desde el punto de vista del usuario. No es necesario realizar ninguna acción particular para utilizarla, ya que es el sistema operativo el que se encarga de administrarla.

Topología CPUs#

Topología nodo Clementina XXI

La topología de las CPUs se puede obtener con el comando lstopo.

Topología GPUs#

La topología de interconexión de las GPUs puede verse con el comando xpu-smi topology. Por ejemplo, para ver la afinidad:

xpu-smi topology -m
         GPU 0/0  GPU 0/1  GPU 1/0  GPU 1/1  GPU 2/0  GPU 2/1  GPU 3/0  GPU 3/1  CPU Affinity
GPU 0/0  S        MDF      XL*      XL8      XL8      XL*      XL8      XL*      16-23
GPU 0/1  MDF      S        XL8      XL*      XL*      XL8      XL*      XL8      16-23
GPU 1/0  XL*      XL8      S        MDF      XL*      XL8      XL*      XL8      24-31
GPU 1/1  XL8      XL*      MDF      S        XL8      XL*      XL8      XL*      24-31
GPU 2/0  XL8      XL*      XL*      XL8      S        MDF      XL8      XL*      56-63
GPU 2/1  XL*      XL8      XL8      XL*      MDF      S        XL*      XL8      56-63
GPU 3/0  XL8      XL*      XL*      XL8      XL8      XL*      S        MDF      40-47
GPU 3/1  XL*      XL8      XL8      XL*      XL*      XL8      MDF      S        40-47

Para ver los datos de una GPU en específico:

xpu-smi topology -d 0
+-----------+--------------------------------------------------------------------------------------+
| Device ID | Topology Information                                                                 |
+-----------+--------------------------------------------------------------------------------------+
| 0         | Local CPU List: 16-23                                                                |
|           | Local CPUs: 00000000,00ff0000                                                        |
|           | PCIe Switch Count: 0                                                                 |
|           | PCIe Switch: N/A                                                                     |
+-----------+--------------------------------------------------------------------------------------+

Particiones#

Los nodos cn[001:074] tienen 4 GPUs Intel Ponteveccio. Pueden ser utilizados mediante la partición gpunodes.

Los nodos cn[075:080] son idénticos a los anteriores, pero no poseen GPU. Estos se identifican mediante la partición cpunodes. Actualización: Para evitar bottlenecks, actualmente todos los nodos (cn[001:080]) pueden ser utilizados mediante la partición cpunodes.

Utilizar la flag --partition=gpunode o --partition=cpunode de Slurm.