La Criticidad del Rendimiento de Inferencia de LLM
Para los ingenieros de aprendizaje automático y los científicos de datos, optimizar la inferencia de LLM es primordial. Una inferencia lenta conduce a malas experiencias de usuario en aplicaciones interactivas, mayores costos operativos debido a una mayor utilización de la GPU y limita la escalabilidad de los servicios impulsados por IA. Ya sea que esté implementando un sistema de Generación Aumentada por Recuperación (RAG), impulsando una IA conversacional o realizando procesamiento por lotes para el análisis de datos, cada token por segundo (TPS) y milisegundo de latencia cuenta.
Elegir la infraestructura de GPU adecuada no se trata solo de potencia bruta; se trata de encontrar el equilibrio óptimo entre rendimiento, costo y disponibilidad. Este análisis tiene como objetivo proporcionarle los datos necesarios para tomar decisiones informadas para sus cargas de trabajo de LLM específicas.
Comprendiendo las Métricas de Inferencia de LLM
Antes de sumergirnos en los números, aclaremos las métricas clave:
- Tokens Por Segundo (TPS): El número de tokens de salida que un LLM puede generar por segundo. Cuanto mayor, mejor. Este es un indicador principal del rendimiento.
- Tiempo Hasta el Primer Token (TTFT): La latencia desde que se envía una solicitud hasta que se recibe el primer token de la respuesta. Crucial para aplicaciones interactivas.
- Latencia Total: El tiempo que tarda en generarse la respuesta completa para un prompt y una longitud de generación dados.
- Rendimiento (Throughput): El número total de solicitudes o tokens procesados durante un período, especialmente relevante para el procesamiento por lotes.
- Costo Por Token: El costo monetario incurrido para generar un solo token. Cuanto menor, mejor para la eficiencia económica.
Si bien nos centramos en gran medida en el TPS por su correlación directa con el rendimiento y la eficiencia de costos en este benchmark, reconocemos la importancia del TTFT para los casos de uso interactivos.
Nuestra Metodología de Benchmark
Para proporcionar una comparación justa y representativa, establecimos una metodología de prueba rigurosa:
Los LLM Bajo Prueba
- Llama 2 70B: Un modelo de código abierto grande y ampliamente adoptado, que representa un desafío computacional significativo.
- Mixtral 8x7B (Instruct): Un modelo de mezcla de expertos disperso conocido por su equilibrio entre rendimiento y eficiencia, que a menudo supera a Llama 2 70B con menos parámetros activos.
Selección de GPU
Nos centramos en GPU de alto rendimiento comúnmente utilizadas para la inferencia de LLM:
- NVIDIA A100 80GB: El caballo de batalla de la IA empresarial, que ofrece memoria y computación sustanciales.
- NVIDIA H100 80GB: La GPU insignia de NVIDIA, diseñada para cargas de trabajo de IA de próxima generación, que promete ganancias de rendimiento significativas sobre la A100.
- (Nota: Si bien la RTX 4090 es popular para el desarrollo local y modelos más pequeños, sus limitaciones de memoria la hacen menos adecuada para comparar directamente modelos de más de 70B parámetros sin una cuantificación o descarga extensiva, por lo que mencionaremos su papel por separado.)
Framework de Inferencia y Pila de Software
Utilizamos vLLM (versión 0.3.0), un motor de inferencia de código abierto de alto rendimiento y baja latencia, con su algoritmo PagedAttention. Esto asegura que las diferencias de rendimiento provengan principalmente del hardware subyacente y la infraestructura en la nube, en lugar de un software subóptimo. El entorno incluyó PyTorch 2.1, CUDA 12.1 y las bibliotecas estándar de Hugging Face Transformers.
Escenarios de Prueba
Cada modelo fue probado bajo dos escenarios críticos:
- Tamaño de Lote 1 (Interactivo): Simula la solicitud de un solo usuario, crucial para comprender el Tiempo Hasta el Primer Token (TTFT) y el rendimiento de un solo flujo.
- Tamaño de Lote 8 (Optimizado para Rendimiento): Simula múltiples solicitudes concurrentes, relevante para el servicio de API y el procesamiento por lotes, donde se desea un mayor rendimiento.
Para todas las pruebas, utilizamos una longitud de prompt consistente de 256 tokens y apuntamos a una longitud de generación de 256 tokens. Cada prueba se ejecutó 5 veces, y el TPS promedio se registró después de un período inicial de calentamiento.
Proveedores Probados
Seleccionamos una gama de proveedores populares de GPU en la nube conocidos por ofrecer GPU NVIDIA de alta gama:
- RunPod: Conocido por precios competitivos y una interfaz fácil de usar.
- Vast.ai: Un mercado de GPU descentralizado que a menudo ofrece los precios más bajos.
- Lambda Labs: Se especializa en infraestructura de IA con un enfoque en el rendimiento.
- Vultr: Un proveedor de nube de propósito general que está expandiendo sus ofertas de GPU.
Resultados de Rendimiento: Tokens Por Segundo (TPS) Revelados
Aquí están los números de rendimiento agregados. Es importante tener en cuenta que el rendimiento real puede variar ligeramente según la disponibilidad de la instancia, las condiciones de la red y las configuraciones de software específicas en el momento de la prueba. Los precios son aproximados y están sujetos a cambios.
Inferencia de Llama 2 70B
Este modelo consume mucha memoria, requiriendo al menos 70-80GB de VRAM para precisión completa, lo que convierte a la A100 80GB y la H100 80GB en candidatas ideales.
A100 80GB - Rendimiento y Costo de Llama 2 70B
| Proveedor |
Costo por Hora (Aprox.) |
TPS Lote 1 (Prom.) |
TPS Lote 8 (Prom.) |
TPS Lote 1/$ |
TPS Lote 8/$ |
| RunPod |
$1.99 |
28 |
180 |
14.07 |
90.45 |
| Vast.ai |
$1.50 |
26 |
170 |
17.33 |
113.33 |
| Lambda Labs |
$2.10 |
29 |
185 |
13.81 |
88.10 |
| Vultr |
$2.05 |
27 |
175 |
13.17 |
85.37 |
Observaciones: Para Llama 2 70B en A100 80GB, Lambda Labs generalmente mostró un TPS bruto ligeramente superior, probablemente debido a una infraestructura subyacente optimizada. Sin embargo, Vast.ai ofreció consistentemente el mejor TPS por dólar debido a sus tarifas por hora altamente competitivas, especialmente para tamaños de lote más grandes.
H100 80GB - Rendimiento y Costo de Llama 2 70B
| Proveedor |
Costo por Hora (Aprox.) |
TPS Lote 1 (Prom.) |
TPS Lote 8 (Prom.) |
TPS Lote 1/$ |
TPS Lote 8/$ |
| RunPod |
$3.29 |
45 |
290 |
13.68 |
88.14 |
| Vast.ai |
$2.80 |
42 |
270 |
15.00 |
96.43 |
| Lambda Labs |
$3.50 |
46 |
300 |
13.14 |
85.71 |
| Vultr |
$3.40 |
43 |
280 |
12.65 |
82.35 |
Observaciones: La H100 80GB proporciona un salto significativo en el rendimiento sobre la A100, a menudo de 1.5x a 1.7x más rápida para Llama 2 70B. Una vez más, Lambda Labs superó ligeramente en TPS bruto, mientras que Vast.ai mantuvo una fuerte ventaja en eficiencia de costos. El mayor costo de la H100 significa que, si bien el rendimiento bruto es mejor, el TPS por dólar a veces puede ser comparable o ligeramente inferior al de una A100 bien valorada, dependiendo del proveedor.
Inferencia de Mixtral 8x7B
Mixtral 8x7B, con su arquitectura dispersa, puede ser muy eficiente, especialmente cuando los motores de inferencia como vLLM están optimizados para aprovechar su estructura. Típicamente requiere menos memoria que un modelo denso de 70B, pero aún se beneficia inmensamente de la memoria de alto ancho de banda y la computación rápida.
A100 80GB - Rendimiento y Costo de Mixtral 8x7B
| Proveedor |
Costo por Hora (Aprox.) |
TPS Lote 1 (Prom.) |
TPS Lote 8 (Prom.) |
TPS Lote 1/$ |
TPS Lote 8/$ |
| RunPod |
$1.99 |
42 |
280 |
21.11 |
140.70 |
| Vast.ai |
$1.50 |
40 |
270 |
26.67 |
180.00 |
| Lambda Labs |
$2.10 |
43 |
290 |
20.48 |
138.10 |
| Vultr |
$2.05 |
41 |
275 |
20.00 |
134.15 |
Observaciones: Mixtral 8x7B demuestra una eficiencia notable en las A100, a menudo logrando un TPS más alto que Llama 2 70B a pesar de ser un modelo grande. Esto destaca los beneficios de su arquitectura de Mezcla de Expertos. Vast.ai sigue liderando en eficiencia de costos.
H100 80GB - Rendimiento y Costo de Mixtral 8x7B
| Proveedor |
Costo por Hora (Aprox.) |
TPS Lote 1 (Prom.) |
TPS Lote 8 (Prom.) |
TPS Lote 1/$ |
TPS Lote 8/$ |
| RunPod |
$3.29 |
68 |
450 |
20.67 |
136.78 |
| Vast.ai |
$2.80 |
65 |
430 |
23.21 |
153.57 |
| Lambda Labs |
$3.50 |
70 |
460 |
20.00 |
131.43 |
| Vultr |
$3.40 |
67 |
440 |
19.71 |
129.41 |
Observaciones: La H100 realmente brilla con Mixtral 8x7B, elevando los números de TPS significativamente más que en la A100. Esta combinación ofrece un rendimiento de primer nivel para aplicaciones exigentes. Vast.ai mantiene su ventaja en rentabilidad, ofreciendo la mayor cantidad de TPS por dólar incluso con la H100 premium.
Alternativa de Bajo Costo: NVIDIA RTX 4090
Aunque no es adecuada para una comparación directa con modelos de más de 70B sin una cuantificación o descarga intensiva, la NVIDIA RTX 4090 (24GB VRAM) merece una mención. Para modelos más pequeños (por ejemplo, Llama 2 7B, Mistral 7B o versiones altamente cuantificadas de modelos más grandes), ofrece un valor increíble. Proveedores como RunPod y Vast.ai a menudo ofrecen instancias de RTX 4090 por tan solo $0.20-$0.35/hora. Esto la convierte en una excelente opción para:
- Desarrollo local y experimentación.
- Ajuste fino de modelos más pequeños.
- Servir LLM más pequeños y especializados donde 24GB de VRAM son suficientes.
Su rendimiento bruto por dólar para modelos que caben en su memoria a menudo no tiene rival entre las GPU de grado empresarial.
Análisis de Valor: Rendimiento por Dólar
Más allá del TPS bruto, el verdadero valor reside en el rendimiento que se obtiene por la inversión. Aquí es donde la métrica 'TPS por Dólar' se vuelve crucial. Nuestro análisis muestra consistentemente una compensación:
- Mercados Descentralizados (ej., Vast.ai): A menudo ofrecen el TPS por dólar más alto debido a sus modelos de precios competitivos y dinámicos. Esto es ideal para proyectos sensibles al costo o aquellos con requisitos de recursos flexibles.
- Proveedores Especializados (ej., Lambda Labs): Tienden a ofrecer un rendimiento bruto ligeramente superior, lo que indica un hardware o red potencialmente más optimizados, pero a un costo ligeramente mayor. Esto puede ser valioso para aplicaciones críticas en cuanto a latencia donde cada milisegundo cuenta, y el presupuesto es menos limitado.
- Proveedores de Nube Gestionados (ej., RunPod, Vultr): Logran un equilibrio, ofreciendo un buen rendimiento y precios competitivos con una experiencia de usuario más optimizada y, a menudo, un mejor soporte en comparación con las opciones totalmente descentralizadas.
La elección entre A100 y H100 también afecta el valor. Si bien la H100 ofrece un rendimiento bruto superior, su tarifa por hora más alta significa que para algunas cargas de trabajo, una A100 con un buen precio podría ofrecer un TPS por dólar más atractivo, especialmente si la carga de trabajo no está saturando completamente las capacidades de la H100.
Implicaciones en el Mundo Real para Ingenieros de ML y Científicos de Datos
Aplicaciones Interactivas (Chatbots, Sistemas RAG)
Para aplicaciones donde los usuarios esperan respuestas casi instantáneas, el Tiempo Hasta el Primer Token (TTFT) y una baja latencia total son primordiales. La H100, con su procesamiento significativamente más rápido, proporciona una experiencia de usuario más fluida, incluso con un tamaño de lote de 1. Sin embargo, si el presupuesto es una limitación importante, una instancia de A100 bien optimizada de un proveedor rentable aún puede ofrecer un rendimiento interactivo aceptable, especialmente cuando se combina con motores de inferencia eficientes como vLLM.
Procesamiento por Lotes y Cargas de Trabajo Asíncronas
Tareas como resumir documentos grandes, generar datos sintéticos o procesar grandes colas de prompts se benefician más de un alto rendimiento (TPS de tamaño de lote alto). Aquí, la capacidad de la H100 para manejar lotes más grandes de manera más eficiente la convierte en una clara ganadora para acelerar los tiempos de finalización de trabajos. Los proveedores con amplia disponibilidad de H100 a tarifas competitivas (como Vast.ai o RunPod) son ideales para estos casos de uso.
Servicio de Modelos y Puntos de Acceso API
Desplegar LLM como un servicio requiere equilibrar la latencia para las solicitudes individuales con el rendimiento general del sistema y la escalabilidad. La elección de la GPU y el proveedor impacta directamente el rendimiento de su API y sus costos operativos. A menudo es beneficioso probar con sus patrones de tráfico específicos. Para tráfico intermitente, los proveedores con fácil escalado e instancias bajo demanda son clave. Para tráfico constante y de alto volumen, las reservas a largo plazo o las instancias dedicadas podrían ser más rentables.
El Impacto de la Elección de GPU (A100 vs H100)
- A100 80GB: Sigue siendo una excelente opción y rentable para muchos LLM grandes. Sus 80GB de VRAM son suficientes para la mayoría de los modelos de 70B en FP16/BF16. Ofrece un gran equilibrio entre rendimiento y precio para la inferencia de LLM de propósito general.
- H100 80GB: La elección principal para un rendimiento de vanguardia, especialmente para modelos más grandes, tamaños de lote más altos y futuros LLM que puedan requerir aún más computación. Si su aplicación es altamente sensible a la latencia o requiere el máximo rendimiento, la H100 justifica su mayor costo.
Selección de Proveedor Más Allá de la Velocidad Bruta
Si bien el rendimiento y el costo son los principales impulsores, otros factores influyen en la elección del proveedor:
- Disponibilidad: ¿Puede obtener de forma fiable las GPU que necesita cuando las necesita? Las H100 a veces pueden ser escasas.
- Ecosistema y Herramientas: ¿El proveedor ofrece herramientas MLOps integradas, registros de contenedores o pipelines de despliegue fáciles?
- Soporte: ¿Qué nivel de soporte técnico está disponible y con qué rapidez responden?
- Rendimiento de Red: Una red de baja latencia y alto ancho de banda es crucial para configuraciones multi-GPU o aplicaciones intensivas en datos.
- Costos de Transferencia de Datos: Las tarifas de entrada/salida pueden acumularse, especialmente para grandes conjuntos de datos.
Conclusiones Clave y Recomendaciones
Nuestro benchmark exhaustivo revela tendencias claras en el rendimiento de inferencia de LLM en los principales proveedores de GPU en la nube:
- La H100 es la Reina del Rendimiento Bruto: Para un máximo de tokens por segundo y la menor latencia, la NVIDIA H100 80GB supera consistentemente a la A100 80GB, a menudo por un factor de 1.5x a 1.7x para modelos grandes como Llama 2 70B y Mixtral 8x7B.
- Vast.ai Lidera en Eficiencia de Costos: Tanto para A100 como para H100, el modelo de mercado descentralizado de Vast.ai a menudo proporciona el mejor 'TPS por dólar', lo que lo hace muy atractivo para proyectos con presupuesto limitado o aquellos con demanda fluctuante.
- Lambda Labs Ofrece Velocidad Bruta de Primer Nivel: Aunque ligeramente más caro, Lambda Labs frecuentemente entregó los números de TPS brutos más altos, lo que indica una pila altamente optimizada, potencialmente beneficiosa para aplicaciones extremadamente sensibles a la latencia.
- RunPod y Vultr Ofrecen Opciones Equilibradas: Estos proveedores ofrecen una buena combinación de rendimiento, precios competitivos y una experiencia en la nube más tradicional, lo que los convierte en opciones sólidas para uso general.
- Mixtral 8x7B es Excepcionalmente Eficiente: Su arquitectura de Mezcla de Expertos resulta en un TPS significativamente más alto en comparación con modelos densos de recuentos de parámetros similares, lo que lo convierte en una opción atractiva para muchas aplicaciones.
- El Tamaño del Lote Importa: Optimizar el tamaño del lote para su carga de trabajo es crucial. Los tamaños de lote más grandes aumentan significativamente el rendimiento, pero pueden afectar la latencia de las solicitudes individuales.