¿Por qué son tan difíciles de gestionar las corrientes de genAI (y la informática de alto rendimiento en general)?
Este desafío se relaciona con el hecho de que la demanda de corriente eléctrica es altamente transitoria, dependiendo de la carga algorítmica del procesador de entrenamiento. En otras palabras, a medida que la carga de tareas del modelo de red neuronal aumenta o disminuye, los requisitos actuales varían drásticamente, hasta 2.000 amperios por microsegundo. Además, para evitar daños al transistor durante estos frecuentes eventos transitorios, cualquier exceso o defecto de voltaje de suministro debe limitarse a menos del 10 % (o desde 0,07 V hasta 0,7 VDD). Esto supone un gran desafío para las arquitecturas tradicionales de suministro de energía.
En segundo lugar, el área de la matriz de silicio de los procesadores de entrenamiento es grande, 800 mm2 o más. Para evitar daños al transistor y problemas de fiabilidad a largo plazo, se debe mantener el voltaje de suministro mínimo en esta gran área del troquel. Las arquitecturas de suministro de energía tradicionales, con energía distribuida desde los cuatro bordes del encapsulado del procesador genAI, generalmente deben mantener 0,75 V en el borde del troquel para garantizar 0,7 V en el centro del troquel. Estos 0,05 V adicionales aumentan la disipación de energía general.
¿Pueden las arquitecturas de suministro de energía tradicionales afrontar el desafío energético de la genAI?
Hasta hace poco, los centros de datos utilizaban distribución de energía de 12 VCC. Vicor, durante los últimos 10 años, ha abogado por el uso de energía de 48 VCC en los racks de los centros de datos porque (gracias a la Ley de Ohm) un voltaje más alto produce menores pérdidas de energía en conductores con resistencia eléctrica distinta de cero. La adopción de alimentación de 48 VCC para aplicaciones informáticas de mayor rendimiento recibió un gran impulso en las especificaciones Open Rack estandarizadas por el Open Compute Project.
En las primeras arquitecturas de distribución de energía de generación AI, este suministro nominal de 48 VCC se convierte en un voltaje de bus intermedio en el módulo acelerador, y esta señal de CC intermedia a menudo alimenta reguladores de voltaje transinductores (TLVR) multifásicos, un enfoque que tiene límites estrictos en términos de escalabilidad. y densidad de corriente.
¿Por qué estos enfoques tradicionales de suministro de energía son inadecuados?
El espacio de la placa de circuito impreso (PCB) disponible en los módulos aceleradores (AM) utilizados con los procesadores de entrenamiento genAI es extremadamente limitado, lo que significa que los subsistemas de suministro de energía para estos procesadores deben tener una densidad de potencia (W/mm2) y una densidad de corriente (A/mm2) muy altas.
Las fuentes de alimentación tradicionales simplemente no pueden alcanzar la potencia y la densidad de corriente necesarias para suministrar la corriente que se necesita y encajar fácilmente dentro del área disponible en el PCB. Como se analizó anteriormente, los componentes de energía para los procesadores de entrenamiento genAI deben cumplir con las demandas de rendimiento dinámico causadas por los transitorios de los pasos de carga.
Y aquí, nuevamente, los enfoques convencionales de entrega de energía no se adaptan bien a esas demandas, en particular porque los procesadores de entrenamiento genAI necesitan alrededor de 3 mF de capacidad de desacoplamiento lo más cerca posible del paquete del procesador.
Además, los componentes de una arquitectura de suministro de energía genAI deben tener una gran capacidad térmica. Ya sea que el sistema genAI esté refrigerado por líquido o por aire, los componentes de potencia deben tener una alta conductividad térmica y un embalaje que pueda soportar niveles extraordinariamente altos de ciclos térmicos durante su vida útil.
Los módulos aceleradores genAI más recientes utilizan una arquitectura de energía factorizada, y los convertidores de punto de carga utilizan la multiplicación de corriente, como los innovados por Vicor.