Selección de la configuración de hardware para Ollama VPS
El funcionamiento eficiente de ollama vps en procesadores clásicos depende no tanto de la frecuencia de reloj, sino de la cantidad de memoria RAM y del soporte de conjuntos de instrucciones modernos por parte del procesador (AVX2, AVX-512). Al elegir un servidor para local llm hosting, es fundamental entender cómo interactúa el modelo con el hardware. A diferencia de las tarjetas de video, donde prima el ancho de banda de la memoria de video (VRAM), en el caso de la CPU, la carga principal recae en el bus de memoria del sistema y el número de hilos (threads). Para un funcionamiento fluido de modelos de nivel Mistral 7B o Llama 3 8B, se requieren al menos 16 GB de RAM, aunque 32 GB son el "estándar de oro", ya que permiten cargar modelos con un menor coeficiente de cuantización (por ejemplo, Q8_0 en lugar de Q4_K_M), lo que influye directamente en la calidad de las respuestas. Si su objetivo es tener su propio gpt para trabajar con ventanas de contexto grandes (32k tokens o más), el volumen de RAM se convierte en el único factor limitante.Características mínimas y recomendadas del servidor
| Característica | Mínimo (modelos 7B) | Óptimo (modelos 7B-13B) | High-end (modelos 30B+) |
|---|---|---|---|
| Procesador (vCPU) | 4 Cores (AVX2) | 8 Cores (Alta frecuencia) | 16-32 Cores |
| Memoria RAM | 16 GB | 32 GB | 64-128 GB |
| Tipo de disco | NVMe (obligatorio) | NVMe Gen4 | NVMe RAID |
| SO | Ubuntu 22.04 LTS | Ubuntu 24.04 LTS | Debian 12 |
| Velocidad esperada | 3-5 tokens/seg | 8-15 tokens/seg | 1-3 tokens/seg |
Tecnología llama.cpp y la magia de la cuantización
La base de la mayoría de las soluciones modernas para ejecutar redes neuronales en procesadores es la optimización de llama.cpp cpu. Se trata de un proyecto en lenguaje C++ que implementa algoritmos eficientes de multiplicación de matrices adaptados a las arquitecturas x86 y ARM. Gracias a llama.cpp, ha sido posible ejecutar modelos pesados en hardware de servidor convencional. El concepto clave aquí es la cuantización (quantization). Los modelos originales de Meta o Mistral AI se entregan en formato FP16 (16 bits por peso). Un modelo 7B en este formato ocupa unos 14 GB. La cuantización comprime los pesos a 4 u 8 bits. El formato GGUF, que utiliza Ollama, permite almacenar el modelo en un solo archivo donde los pesos ya están optimizados para CPU.Por qué el formato GGUF es ideal para VPS
- Ahorro de memoria: Un modelo mistral 7b vps con cuantización Q4_K_M ocupa solo 4.1 GB de RAM en lugar de 14 GB.
- Velocidad de inferencia: Cuantos menos bits se utilicen por peso, más rápido podrá el procesador realizar los cálculos, aunque la precisión del modelo disminuye ligeramente.
- Universalidad: El mismo archivo funciona en Linux, macOS y Windows a través del entorno de llama.cpp.
lscpu | grep Flags.
¿Busca un servidor confiable para sus proyectos?
VPS desde $10/mes y servidores dedicados desde $9/mes con NVMe, protección DDoS y soporte 24/7.
Ver ofertas →Instalación paso a paso de Ollama en Linux VPS
El proceso de instalación de Ollama está simplificado al máximo. Los desarrolladores proporcionan un script que detecta automáticamente la arquitectura del sistema e instala las dependencias necesarias. Recomendamos utilizar una instalación "limpia" de Ubuntu 22.04 o 24.04.curl -fsSL https://ollama.com/install.sh | sh
Una vez finalizada la instalación, el servicio se iniciará automáticamente en segundo plano. Puede comprobar el estado con el comando systemctl status ollama. Por defecto, Ollama escucha en el puerto 11434 en localhost. Si planea acceder a la API desde el exterior, será necesario configurar las variables de entorno.
Configuración del acceso remoto a la API
Por defecto, Ollama bloquea las conexiones externas por motivos de seguridad. Para permitir el acceso, edite la configuración del servicio:sudo systemctl edit ollama.service
Añada las siguientes líneas en la sección [Service]:
[Service]
Environment="OLLAMA_HOST=0.0.0.0"
Environment="OLLAMA_ORIGINS=*"
A continuación, reinicie el demonio y el servicio:
sudo systemctl daemon-reload
sudo systemctl restart ollama
Ahora su ollama vps está listo para recibir solicitudes. Esto es útil si está creando un VPS para un negocio de VPN y desea integrar un chatbot de IA para atención al cliente directamente en el panel de control.
rocket_launch
Elección rápida
¿Buscas un servidor que simplemente funcione?
Valebyte VPS — NVMe, soporte 24/7, despliegue en 60 segundos.
Ejecución de los modelos Mistral 7B y Llama 3 8B
Tras la instalación, puede proceder a descargar los modelos. Para servidores CPU con 32 GB de RAM, la mejor opción son los modelos de la familia Llama 3 (8B) y Mistral (7B). Ofrecen un excelente equilibrio entre la calidad del razonamiento lógico y la velocidad de generación de texto.Comandos para ejecutar modelos populares
- Llama 3 8B:
ollama run llama3— el estándar de la industria para tareas generales. - Mistral 7B:
ollama run mistral— mejor para resúmenes y escritura de código. - Mistral NeMo 12B:
ollama run mistral-nemo— nuevo modelo con contexto ampliado, requiere unos 12-14 GB de RAM. - Phi-3 Mini:
ollama run phi3— modelo ultrarrápido de Microsoft, genera más de 20 tokens/seg incluso en CPUs modestas.
Despliegue de OpenWebUI: interfaz gráfica para su GPT
Trabajar con IA a través de la terminal no siempre es cómodo. Para obtener una interfaz idéntica a ChatGPT, instalaremos OpenWebUI (anteriormente conocido como Ollama WebUI). Es una potente aplicación web que admite autenticación de usuarios, historial de chats, carga de documentos (RAG) y creación de prompts personalizados.Instalación mediante Docker Compose
La forma más sencilla de despliegue es utilizando Docker. Cree un archivodocker-compose.yml:
services:
open-webui:
image: ghcr.io/open-webui/open-webui:main
container_name: open-webui
ports:
- "3000:8080"
extra_hosts:
- "host.docker.internal:host-gateway"
volumes:
- open-webui:/app/backend/data
restart: always
volumes:
open-webui:
Inicie el contenedor con el comando docker compose up -d. Ahora, en la dirección http://ip-de-su-servidor:3000, estará disponible su asistente de IA personal. El primer registro será el del administrador. En el interior, podrá elegir los modelos instalados en Ollama y comenzar a chatear.
Optimización del rendimiento: cómo exprimir al máximo la CPU
Ejecutar LLM en un procesador requiere un ajuste fino del sistema operativo. Por defecto, Linux puede intentar ahorrar energía o distribuir incorrectamente los recursos entre los núcleos, lo que provocará latencia en la salida de texto.Recomendaciones para el ajuste del sistema
- CPU Governor: Establezca el modo de máximo rendimiento.
echo "performance" | sudo tee /sys/devices/system/cpu/cpu*/cpufreq/scaling_governor - Desactivar SWAP: Si el modelo no cabe en la RAM, el uso del archivo de intercambio en el disco ralentizará el trabajo 100 veces. Es mejor usar un modelo más pequeño que permitir el uso de SWAP.
- Numa Nodes: Si tiene un servidor dedicado potente con dos procesadores, utilice
numactlpara vincular el proceso de Ollama a un grupo de núcleos y a su memoria local. - Thread Count: Ollama detecta automáticamente el número de núcleos, pero a veces configurar manualmente
OLLAMA_NUM_PARALLELayuda a evitar el sobrecalentamiento y el throttling.
rocket_launch
Elección rápida
¿Buscas un servidor que simplemente funcione?
Valebyte VPS — NVMe, soporte 24/7, despliegue en 60 segundos.
Comparación de costes: CPU VPS frente a GPU Cloud
Muchos principiantes creen que para la IA es obligatoria una tarjeta gráfica de nivel NVIDIA A100 o H100. Esto es cierto para el entrenamiento de modelos, pero para la inferencia (uso) de modelos 7B-13B, un VPS con CPU es mucho más rentable.| Tipo de hosting | Precio mensual aprox. | Ventajas | Desventajas |
|---|---|---|---|
| GPU Cloud (A10) | $150 - $300 | Velocidad muy alta (50+ t/s) | Caro, pago por tiempo de inactividad |
| Valebyte CPU VPS (32GB) | $35 - $50 | Precio fijo, mucha RAM | Velocidad media (10 t/s) |
| Serverless AI API | $0.50 por 1M tokens | Sin necesidad de configuración | Falta de privacidad, censura |
Seguridad y monitorización de Ollama
El despliegue de ollama vps requiere atención a la seguridad, especialmente si la API es accesible desde internet. Recomendamos cerrar el puerto 11434 medianteufw y permitir el acceso solo desde su IP o a través de un túnel VPN.
Para monitorizar la carga, utilice la utilidad htop o btop. Verá cómo, al realizar una solicitud, todos los núcleos vCPU se cargan al 100%, mientras que el consumo de memoria permanece estable; esta es la especificidad del funcionamiento de llama.cpp cpu. Si nota que el proceso de Ollama finaliza con un error "Out of Memory", significa que el modelo elegido es demasiado grande para su cantidad de RAM. En ese caso, conviene probar una versión con una cuantización más fuerte (por ejemplo, Q3_K_S).
Conclusiones
Para ejecutar Ollama con modelos 7B-13B, lo óptimo es utilizar un VPS con 32 GB de RAM y 8 núcleos vCPU, lo que proporcionará unos 10 tokens por segundo estables. Esto es suficiente para la mayoría de las tareas: desde escribir código hasta analizar documentos, con un coste de la solución entre 5 y 6 veces inferior al alquiler de un servidor con GPU.¿Listo para elegir su servidor?
VPS y servidores dedicados en más de 72 países con activación instantánea y acceso root completo.
Empezar ahora →