Tu propia LLM en un VPS con CPU: Ollama + llama.cpp con modelos 7B-13B

Para ejecutar Ollama y modelos 7B-13B en un VPS con CPU, lo óptimo es utilizar un servidor con 32 GB de RAM y 8 núcleos vCPU, lo que garantiza una velocidad de generación de 5 a 15 tokens por segundo con un coste de alquiler desde $30-40 al mes. Este enfoque permite desplegar un análogo completo de ChatGPT para uso privado, pruebas de API o automatización de tareas sin necesidad de alquilar costosas instancias con GPU.

Selección de la configuración de hardware para Ollama VPS

El funcionamiento eficiente de ollama vps en procesadores clásicos depende no tanto de la frecuencia de reloj, sino de la cantidad de memoria RAM y del soporte de conjuntos de instrucciones modernos por parte del procesador (AVX2, AVX-512). Al elegir un servidor para local llm hosting, es fundamental entender cómo interactúa el modelo con el hardware. A diferencia de las tarjetas de video, donde prima el ancho de banda de la memoria de video (VRAM), en el caso de la CPU, la carga principal recae en el bus de memoria del sistema y el número de hilos (threads). Para un funcionamiento fluido de modelos de nivel Mistral 7B o Llama 3 8B, se requieren al menos 16 GB de RAM, aunque 32 GB son el "estándar de oro", ya que permiten cargar modelos con un menor coeficiente de cuantización (por ejemplo, Q8_0 en lugar de Q4_K_M), lo que influye directamente en la calidad de las respuestas. Si su objetivo es tener su propio gpt para trabajar con ventanas de contexto grandes (32k tokens o más), el volumen de RAM se convierte en el único factor limitante.

Características mínimas y recomendadas del servidor

Característica	Mínimo (modelos 7B)	Óptimo (modelos 7B-13B)	High-end (modelos 30B+)
Procesador (vCPU)	4 Cores (AVX2)	8 Cores (Alta frecuencia)	16-32 Cores
Memoria RAM	16 GB	32 GB	64-128 GB
Tipo de disco	NVMe (obligatorio)	NVMe Gen4	NVMe RAID
SO	Ubuntu 22.04 LTS	Ubuntu 24.04 LTS	Debian 12
Velocidad esperada	3-5 tokens/seg	8-15 tokens/seg	1-3 tokens/seg

Al planificar el presupuesto, tenga en cuenta que Cloudways → Valebyte: una alternativa de managed hosting 3 veces más barata puede ayudar a ahorrar en infraestructura, liberando fondos para un procesador más potente. El uso de unidades NVMe es crítico para la velocidad de la carga inicial de los pesos del modelo en la memoria. Los SSD convencionales pueden obligarle a esperar 2-3 minutos cada vez que reinicie el servicio o cambie de modelo.

Tecnología llama.cpp y la magia de la cuantización

La base de la mayoría de las soluciones modernas para ejecutar redes neuronales en procesadores es la optimización de llama.cpp cpu. Se trata de un proyecto en lenguaje C++ que implementa algoritmos eficientes de multiplicación de matrices adaptados a las arquitecturas x86 y ARM. Gracias a llama.cpp, ha sido posible ejecutar modelos pesados en hardware de servidor convencional. El concepto clave aquí es la cuantización (quantization). Los modelos originales de Meta o Mistral AI se entregan en formato FP16 (16 bits por peso). Un modelo 7B en este formato ocupa unos 14 GB. La cuantización comprime los pesos a 4 u 8 bits. El formato GGUF, que utiliza Ollama, permite almacenar el modelo en un solo archivo donde los pesos ya están optimizados para CPU.

Por qué el formato GGUF es ideal para VPS

Ahorro de memoria: Un modelo mistral 7b vps con cuantización Q4_K_M ocupa solo 4.1 GB de RAM en lugar de 14 GB.
Velocidad de inferencia: Cuantos menos bits se utilicen por peso, más rápido podrá el procesador realizar los cálculos, aunque la precisión del modelo disminuye ligeramente.
Universalidad: El mismo archivo funciona en Linux, macOS y Windows a través del entorno de llama.cpp.

Para quienes planean una migración de Hetzner a Valebyte, es importante asegurarse de que las nuevas instancias admitan los flags del procesador necesarios para acelerar las operaciones matemáticas. Puede comprobarlo con el comando lscpu | grep Flags.

¿Busca un servidor confiable para sus proyectos?

VPS desde $10/mes y servidores dedicados desde $9/mes con NVMe, protección DDoS y soporte 24/7.

Ver ofertas →

Instalación paso a paso de Ollama en Linux VPS

El proceso de instalación de Ollama está simplificado al máximo. Los desarrolladores proporcionan un script que detecta automáticamente la arquitectura del sistema e instala las dependencias necesarias. Recomendamos utilizar una instalación "limpia" de Ubuntu 22.04 o 24.04.

curl -fsSL https://ollama.com/install.sh | sh

Una vez finalizada la instalación, el servicio se iniciará automáticamente en segundo plano. Puede comprobar el estado con el comando systemctl status ollama. Por defecto, Ollama escucha en el puerto 11434 en localhost. Si planea acceder a la API desde el exterior, será necesario configurar las variables de entorno.

Configuración del acceso remoto a la API

Por defecto, Ollama bloquea las conexiones externas por motivos de seguridad. Para permitir el acceso, edite la configuración del servicio:

sudo systemctl edit ollama.service

Añada las siguientes líneas en la sección [Service]:

[Service]
Environment="OLLAMA_HOST=0.0.0.0"
Environment="OLLAMA_ORIGINS=*"

A continuación, reinicie el demonio y el servicio:

sudo systemctl daemon-reload
sudo systemctl restart ollama

Ahora su ollama vps está listo para recibir solicitudes. Esto es útil si está creando un VPS para un negocio de VPN y desea integrar un chatbot de IA para atención al cliente directamente en el panel de control.

Ejecución de los modelos Mistral 7B y Llama 3 8B

Tras la instalación, puede proceder a descargar los modelos. Para servidores CPU con 32 GB de RAM, la mejor opción son los modelos de la familia Llama 3 (8B) y Mistral (7B). Ofrecen un excelente equilibrio entre la calidad del razonamiento lógico y la velocidad de generación de texto.

Comandos para ejecutar modelos populares

Llama 3 8B: ollama run llama3 — el estándar de la industria para tareas generales.
Mistral 7B: ollama run mistral — mejor para resúmenes y escritura de código.
Mistral NeMo 12B: ollama run mistral-nemo — nuevo modelo con contexto ampliado, requiere unos 12-14 GB de RAM.
Phi-3 Mini: ollama run phi3 — modelo ultrarrápido de Microsoft, genera más de 20 tokens/seg incluso en CPUs modestas.

En la primera ejecución, Ollama descargará los pesos del modelo (aprox. 4-8 GB). Gracias al uso de NVMe en los servidores de Valebyte, el proceso de verificación y carga en memoria tardará apenas unos segundos. Si anteriormente utilizaba nubes extranjeras y tuvo problemas con los pagos, las soluciones de VLESS-Reality vs WireGuard le ayudarán a garantizar un acceso estable a su servidor desde cualquier parte del mundo.

Despliegue de OpenWebUI: interfaz gráfica para su GPT

Trabajar con IA a través de la terminal no siempre es cómodo. Para obtener una interfaz idéntica a ChatGPT, instalaremos OpenWebUI (anteriormente conocido como Ollama WebUI). Es una potente aplicación web que admite autenticación de usuarios, historial de chats, carga de documentos (RAG) y creación de prompts personalizados.

Instalación mediante Docker Compose

La forma más sencilla de despliegue es utilizando Docker. Cree un archivo docker-compose.yml:

services:
  open-webui:
    image: ghcr.io/open-webui/open-webui:main
    container_name: open-webui
    ports:
      - "3000:8080"
    extra_hosts:
      - "host.docker.internal:host-gateway"
    volumes:
      - open-webui:/app/backend/data
    restart: always

volumes:
  open-webui:

Inicie el contenedor con el comando docker compose up -d. Ahora, en la dirección http://ip-de-su-servidor:3000, estará disponible su asistente de IA personal. El primer registro será el del administrador. En el interior, podrá elegir los modelos instalados en Ollama y comenzar a chatear.

Optimización del rendimiento: cómo exprimir al máximo la CPU

Ejecutar LLM en un procesador requiere un ajuste fino del sistema operativo. Por defecto, Linux puede intentar ahorrar energía o distribuir incorrectamente los recursos entre los núcleos, lo que provocará latencia en la salida de texto.

Recomendaciones para el ajuste del sistema

CPU Governor: Establezca el modo de máximo rendimiento.

echo "performance" | sudo tee /sys/devices/system/cpu/cpu*/cpufreq/scaling_governor

Desactivar SWAP: Si el modelo no cabe en la RAM, el uso del archivo de intercambio en el disco ralentizará el trabajo 100 veces. Es mejor usar un modelo más pequeño que permitir el uso de SWAP.
Numa Nodes: Si tiene un servidor dedicado potente con dos procesadores, utilice numactl para vincular el proceso de Ollama a un grupo de núcleos y a su memoria local.
Thread Count: Ollama detecta automáticamente el número de núcleos, pero a veces configurar manualmente OLLAMA_NUM_PARALLEL ayuda a evitar el sobrecalentamiento y el throttling.

Es importante recordar que el local llm hosting consume el 100% de los recursos de los núcleos vCPU seleccionados durante la generación. Esto es normal. Sin embargo, si aloja simultáneamente otros servicios pesados, como un servidor de Rust en VPS, pueden producirse conflictos por los recursos del procesador, lo que provocará lag en el juego y ralentización en las respuestas de la red neuronal.

Comparación de costes: CPU VPS frente a GPU Cloud

Muchos principiantes creen que para la IA es obligatoria una tarjeta gráfica de nivel NVIDIA A100 o H100. Esto es cierto para el entrenamiento de modelos, pero para la inferencia (uso) de modelos 7B-13B, un VPS con CPU es mucho más rentable.

Tipo de hosting	Precio mensual aprox.	Ventajas	Desventajas
GPU Cloud (A10)	$150 - $300	Velocidad muy alta (50+ t/s)	Caro, pago por tiempo de inactividad
Valebyte CPU VPS (32GB)	$35 - $50	Precio fijo, mucha RAM	Velocidad media (10 t/s)
Serverless AI API	$0.50 por 1M tokens	Sin necesidad de configuración	Falta de privacidad, censura

El uso de un servidor propio garantiza la total privacidad de los datos. Sus prompts y documentos para RAG no se envían a OpenAI o Anthropic. Esto es crítico para el sector corporativo o desarrolladores que trabajan con código confidencial.

Seguridad y monitorización de Ollama

El despliegue de ollama vps requiere atención a la seguridad, especialmente si la API es accesible desde internet. Recomendamos cerrar el puerto 11434 mediante ufw y permitir el acceso solo desde su IP o a través de un túnel VPN. Para monitorizar la carga, utilice la utilidad htop o btop. Verá cómo, al realizar una solicitud, todos los núcleos vCPU se cargan al 100%, mientras que el consumo de memoria permanece estable; esta es la especificidad del funcionamiento de llama.cpp cpu. Si nota que el proceso de Ollama finaliza con un error "Out of Memory", significa que el modelo elegido es demasiado grande para su cantidad de RAM. En ese caso, conviene probar una versión con una cuantización más fuerte (por ejemplo, Q3_K_S).

Conclusiones

Para ejecutar Ollama con modelos 7B-13B, lo óptimo es utilizar un VPS con 32 GB de RAM y 8 núcleos vCPU, lo que proporcionará unos 10 tokens por segundo estables. Esto es suficiente para la mayoría de las tareas: desde escribir código hasta analizar documentos, con un coste de la solución entre 5 y 6 veces inferior al alquiler de un servidor con GPU.

¿Listo para elegir su servidor?

VPS y servidores dedicados en más de 72 países con activación instantánea y acceso root completo.

Empezar ahora →