Servidor dedicado para inferencia de IA: elección de hardware

Para una inferencia de IA eficiente sin GPU en un servidor dedicado, es crucial contar con una CPU multinúcleo potente, un mínimo de 64GB de RAM y un disco NVMe rápido, lo que permite procesar modelos complejos de ONNX y llama.cpp con alto rendimiento y baja latencia.

¿Por qué la inferencia con CPU es relevante para los modelos de IA?

En el mundo de la inteligencia artificial, las unidades de procesamiento gráfico (GPU) dominan, especialmente para el entrenamiento de modelos grandes. Sin embargo, para la fase de inferencia, es decir, la aplicación de un modelo ya entrenado para obtener predicciones, la inferencia con CPU a menudo resulta ser más que suficiente y, a veces, una solución preferible. Esto es especialmente cierto para modelos que no requieren la paralelización masiva inherente a las GPU, o cuando el presupuesto para GPU es limitado.

Las ventajas de la inferencia con CPU incluyen:

Rentabilidad: Un servidor dedicado con una CPU potente suele ser significativamente más económico que un servidor similar con GPU de alto rendimiento.
Disponibilidad: Los servidores con GPU a menudo escasean o tienen un coste de alquiler más elevado. Los servidores con CPU son mucho más comunes.
Flexibilidad: Muchos frameworks y bibliotecas (como ONNX Runtime, llama.cpp) están optimizados para funcionar eficientemente en CPU, permitiendo el uso de una amplia gama de hardware.
Eficiencia energética: En varios casos, especialmente para modelos "ligeros" o con baja carga, los servidores con CPU consumen menos energía.

Proyectos como llama.cpp han demostrado que incluso los modelos de lenguaje grandes (LLM) pueden funcionar eficazmente en CPU, utilizando algoritmos optimizados de cuantificación y cálculo. De manera similar, ONNX Runtime permite desplegar modelos de varios frameworks (PyTorch, TensorFlow) en CPU con un excelente rendimiento.

¿Qué procesador se necesita para un servidor de inferencia de IA?

La elección del procesador es un punto clave para un servidor de inferencia de IA sin GPU. Aquí no solo importa el número de núcleos, sino también su frecuencia de reloj y la cantidad de memoria caché.

Número de núcleos: Para el procesamiento simultáneo de múltiples solicitudes o la ejecución de operaciones de inferencia multiproceso, se requiere la mayor cantidad de núcleos posible. Los frameworks modernos saben cómo distribuir la carga de manera eficiente. Busque procesadores con al menos 8-12 núcleos físicos, y preferiblemente 16-32 o más.
Frecuencia de reloj: Una alta frecuencia de reloj es importante para el rendimiento de un solo hilo, lo que puede ser crítico para aplicaciones sensibles a la latencia, donde cada solicitud se procesa secuencialmente.
Memoria caché (L3 Cache): Una gran cantidad de caché acelera significativamente el acceso a los datos del modelo de uso frecuente, reduciendo las latencias al acceder a la memoria RAM.
Soporte de instrucciones: La presencia de instrucciones AVX-512 (para Intel) o FMA (para AMD) acelera significativamente los cálculos matemáticos necesarios para las redes neuronales.

Series de procesadores recomendadas:

Intel Xeon E/W: Buen equilibrio entre precio y rendimiento para tareas pequeñas y medianas. Por ejemplo, Xeon E-2388G (8 núcleos/16 hilos, 5.10 GHz Turbo).
Intel Xeon Scalable (Silver, Gold, Platinum): Excelente opción para un servidor dedicado para IA de alto rendimiento. Ofrecen una gran cantidad de núcleos (hasta 56 por socket), alta frecuencia y gran caché.
AMD EPYC (series 7002, 7003, 7004): Líderes en número de núcleos (hasta 128 por socket), cantidad de caché y soporte para grandes cantidades de memoria RAM. Ideales para hosting de inferencia de ML a gran escala.

Ejemplo de elección óptima de CPU: AMD EPYC 7302P (16 núcleos/32 hilos, 3.3 GHz) o Intel Xeon Gold 6248R (24 núcleos/48 hilos, 4.0 GHz). Estos procesadores proporcionan suficiente potencia de cálculo para la mayoría de las tareas de inferencia con CPU.

¿Busca un servidor fiable para sus proyectos?

Valebyte ofrece VPS y servidores dedicados con recursos garantizados y activación rápida.

Ver ofertas →

Memoria RAM: un recurso crítico para un servidor para redes neuronales

Para un servidor para redes neuronales, especialmente en la inferencia con CPU, la cantidad y velocidad de la memoria RAM juegan un papel tan importante como el procesador. Los modelos de aprendizaje automático, especialmente los modelos de lenguaje grandes (LLM), pueden ocupar decenas e incluso cientos de gigabytes en la memoria RAM.

Cantidad de RAM: Este es el factor principal. Para la mayoría de las tareas de inferencia, un mínimo de 64GB de RAM es el punto de partida. Para LLM grandes (por ejemplo, Llama 2 70B en formato cuantificado) puede ser necesario 128GB, 256GB o incluso 512GB de RAM. Asegúrese de que el servidor elegido sea capaz de albergar el volumen necesario.
Velocidad de RAM: Cuanto más rápida sea la memoria RAM (DDR4-3200, DDR5-4800 y superior), más rápido podrá el procesador acceder a los datos del modelo y a los resultados intermedios de los cálculos. Esto afecta directamente la latencia de inferencia.
RAM ECC: Para sistemas comerciales y críticos, se recomienda encarecidamente utilizar RAM con código de corrección de errores (ECC). Detecta y corrige errores de datos sobre la marcha, lo que aumenta la estabilidad y fiabilidad del sistema, previniendo fallos causados por errores de memoria aleatorios.

La falta de RAM provoca un constante intercambio de datos al disco (swapping), lo que ralentiza significativamente la inferencia. Por lo tanto, es mejor prevenir y elegir RAM con un margen, que enfrentarse a un cuello de botella en el rendimiento.

Almacenamiento de datos: ¿por qué NVMe SSD es indispensable para el hosting de inferencia de ML?

La velocidad del subsistema de disco es críticamente importante para el hosting de inferencia de ML, especialmente al cargar modelos grandes y conjuntos de datos. Los HDD tradicionales o incluso los SSD SATA pueden convertirse en un grave cuello de botella.

NVMe SSD: Este es el estándar de facto para servidores de alto rendimiento. Las unidades NVMe utilizan el bus PCIe, proporcionando velocidades de lectura/escritura secuencial significativamente más altas (hasta 7000 MB/s o más) y, lo que es más importante, una cantidad colosal de operaciones de entrada/salida por segundo (IOPS) en comparación con los SSD SATA.
Carga de modelos: Los modelos de IA grandes pueden pesar decenas de gigabytes. La carga rápida del modelo desde un disco NVMe a la RAM reduce el tiempo de inicio del servicio de inferencia y acelera la inicialización.
Procesamiento de datos: Si su inferencia incluye el preprocesamiento de grandes volúmenes de datos almacenados en el disco, o el registro de resultados, un NVMe de alta velocidad garantizará latencias mínimas.
Capacidad: Para la mayoría de las tareas de inferencia, una capacidad de 500GB a 2TB NVMe SSD es suficiente. Los modelos o registros más grandes pueden requerir más.

El uso de NVMe SSD garantiza que el subsistema de disco no será un cuello de botella, permitiendo que el procesador y la RAM funcionen a plena capacidad.

Infraestructura de red y ancho de banda

Aunque el ancho de banda de la red puede parecer menos crítico que la CPU o la RAM, para un servidor de inferencia de IA juega un papel importante, especialmente en los siguientes escenarios:

API de alta carga: Si su servicio de inferencia procesa un gran número de solicitudes de usuarios u otros sistemas, se requiere un ancho de banda suficiente para un intercambio rápido de datos.
Procesamiento de datos en streaming: Para la inferencia de flujos de vídeo, imágenes grandes o datos de audio que llegan en tiempo real, una interfaz de red de 10 Gbit/s se convierte en una necesidad.
Inferencia distribuida: Si planea escalar su servicio horizontalmente, utilizando varios servidores, una red rápida entre ellos garantizará una interacción eficiente.
Carga/descarga de modelos y datos: La carga inicial de modelos grandes en el servidor, así como las actualizaciones regulares o la descarga de resultados, pueden beneficiarse significativamente de una conexión de alta velocidad.

Para la mayoría de las tareas de inferencia, un puerto de 1 Gbit/s será suficiente, pero para aplicaciones de alta carga o sensibles a la latencia, considere opciones con conexión de 10 Gbit/s.

Configuraciones óptimas de Valebyte para un servidor dedicado para IA

Valebyte ofrece una amplia selección de servidores dedicados para IA que son ideales para la inferencia con CPU, proporcionando un equilibrio entre potencia, flexibilidad y coste. Nos centramos en procesadores con un gran número de núcleos, suficiente RAM y discos NVMe rápidos.

Tabla: Configuraciones recomendadas de Valebyte para inferencia de IA (basada en CPU)

Plan / Configuración	Procesador	RAM	Disco (NVMe)	Puerto de red	Costo aproximado (desde)
AI Inference Start	Intel Xeon E-2388G (8C/16T, hasta 5.1 GHz)	64 GB DDR4 ECC	1 TB NVMe SSD	1 Gbit/s	$99/mes.
AI Inference Pro	AMD EPYC 7302P (16C/32T, hasta 3.3 GHz)	128 GB DDR4 ECC	2 TB NVMe SSD	1 Gbit/s	$189/mes.
AI Inference Max	Intel Xeon Gold 6248R (24C/48T, hasta 4.0 GHz)	256 GB DDR4 ECC	2 x 2 TB NVMe SSD (RAID1)	10 Gbit/s	$349/mes.
AI Inference EPYC Power	AMD EPYC 7502P (32C/64T, hasta 3.35 GHz)	512 GB DDR4 ECC	2 x 3.84 TB NVMe SSD (RAID1)	10 Gbit/s	$599/mes.

Los precios son orientativos y pueden variar según la región, la disponibilidad y las ofertas especiales. Los precios actuales y las especificaciones exactas están disponibles en nuestro sitio web Valebyte.com.

Ejemplos de uso y software

En un servidor dedicado de Valebyte, puede desplegar fácilmente entornos para inferencia con CPU. Aquí hay algunos ejemplos:

1. Ejecución de Llama 2 7B en llama.cpp:

Después de instalar `llama.cpp` y cargar el modelo cuantificado (por ejemplo, `llama-2-7b-chat.Q4_K_M.gguf`), puede ejecutar la inferencia:

./main -m models/llama-2-7b-chat.Q4_K_M.gguf -p "Расскажи мне о Valebyte.com" -n 128 --temp 0.7 --top-k 40 --top-p 0.9 --threads 16

Aquí `--threads 16` indica el uso de 16 hilos de CPU, lo que aprovecha eficazmente el procesador multinúcleo.

2. Uso de ONNX Runtime para inferencia:

Instalación de ONNX Runtime en Python:

pip install onnxruntime

Ejemplo de código para inferencia:

import onnxruntime as ort
import numpy as np

# Carga del modelo ONNX
session = ort.InferenceSession("path/to/your/model.onnx")

# Preparación de los datos de entrada
input_name = session.get_inputs()[0].name
input_shape = session.get_inputs()[0].shape
input_data = np.random.rand(*input_shape).astype(np.float32)

# Ejecución de la inferencia
output = session.run(None, {input_name: input_data})

print("Resultado de la inferencia:", output[0])

ONNX Runtime optimiza automáticamente la ejecución en los núcleos de CPU disponibles.

Recomendaciones para la selección y el escalado

La elección del servidor adecuado para redes neuronales es una inversión. Tenga en cuenta las siguientes recomendaciones:

Evalúe los requisitos de su modelo: Determine de antemano la cantidad de RAM necesaria para cargar el modelo y la potencia de cálculo de la CPU requerida para la latencia de inferencia deseada.
Empiece con un margen: Siempre elija un poco más de RAM y núcleos de lo que parece necesario a primera vista. Esto le dará margen para escalar sin necesidad de reemplazar el servidor de inmediato.
Pruebe el rendimiento: Después del despliegue, realice pruebas de carga para asegurarse de que el servidor maneja la carga esperada y las latencias.
Considere la redundancia: Para servicios de inferencia críticos, considere la configuración de varios servidores para garantizar una alta disponibilidad y equilibrio de carga.
Preste atención al soporte: Valebyte ofrece soporte técnico 24/7 para todos los servidores dedicados, lo cual es críticamente importante para el funcionamiento estable de sus servicios de IA.

Conclusiones

La elección de un servidor dedicado para la inferencia de modelos de IA con CPU requiere un enfoque cuidadoso de las características del hardware, donde los elementos clave son un procesador multinúcleo potente, una cantidad suficiente (64GB+) y alta velocidad de memoria RAM, así como un disco NVMe rápido. Valebyte.com ofrece configuraciones óptimas capaces de manejar eficazmente las tareas de un servidor de inferencia de IA, garantizando fiabilidad y rendimiento para sus proyectos.

¿Listo para elegir un servidor?

Compare VPS y servidores dedicados de proveedores de confianza en Valebyte.

Empezar ahora →