Copiloto de código autohospedado: Continue.dev + Ollama frente a Cursor

Para crear un copilot self-hosted, la solución óptima es la combinación de la extensión Continue.dev en VS Code y el servidor Ollama con el modelo DeepSeek-Coder-V2-Lite, desplegados en un VPS con un mínimo de 16 GB de RAM y una CPU moderna, lo que permite eliminar por completo la transferencia de código fuente a terceras empresas y ahorrar desde $240 al año en suscripciones.

¿Por qué el copilot self-hosted se está convirtiendo en el estándar para el desarrollo Enterprise?

La seguridad de la propiedad intelectual es el principal motor de la transición hacia soluciones locales. Al utilizar GitHub Copilot o Cursor, su código, aunque sea de forma cifrada o anonimizada, se transfiere a los servidores de Microsoft o Anthropic. Para empresas con requisitos de seguridad estrictos (NDA, fintech, sector público), esto representa un riesgo inaceptable. El despliegue de un copilot self-hosted dentro de su propio perímetro en un servidor dedicado o VPS resuelve por completo el problema de la fuga de datos.

Viabilidad económica e independencia

La suscripción a Cursor Pro o GitHub Copilot cuesta, de media, $20 al mes por desarrollador. En un equipo de 10 personas, esto supone $2400 anuales. Alquilar un VPS potente o un servidor dedicado para dar servicio a todo el equipo resulta significativamente más económico. Además, no dependerá de las políticas de precios o de las restricciones de sanciones de los proveedores occidentales.

Control sobre la calidad de las respuestas

Al utilizar su propio github copilot, usted mismo elige el modelo. Si necesita escribir en un lenguaje de programación poco común o en un framework específico, puede conectar un modelo especializado de pocos parámetros o realizar un ajuste fino (fine-tuning) de uno existente. En las soluciones en la nube, está limitado a lo que ofrece el proveedor (normalmente Claude 3.5 Sonnet o GPT-4o).

Elección de VPS para code llm self-hosted: procesadores, memoria y latencia

El rendimiento del asistente de IA depende directamente de la potencia del hardware. Para un funcionamiento fluido del autocompletado (autocomplete), la latencia debe ser mínima; idealmente, entre 100-200 ms para la generación de la primera tanda de tokens. Si planea ejecutar un code llm self-hosted en un VPS estándar sin GPU, el enfoque principal debe centrarse en la frecuencia del procesador y el volumen de memoria RAM.

Requisitos del sistema mínimos y recomendados

Para el funcionamiento de los modelos de la familia DeepSeek-Coder o Llama 3 en formato cuantizado (4-bit o 5-bit), se requieren las siguientes características:

CPU: Mínimo 4 núcleos con soporte para instrucciones AVX2. Cuanto mayor sea la frecuencia de reloj (desde 3.0 GHz), más rápida será la generación.
RAM: 8 GB para modelos 7B (mínimo), 16-32 GB para un funcionamiento fluido y almacenamiento de contexto en caché.
Disco: NVMe SSD obligatorio, ya que los pesos de los modelos (4-10 GB) deben cargarse rápidamente en la memoria.
Red: Canal desde 100 Mbit/s si el servidor se encuentra remoto al desarrollador.

Para más detalles sobre cómo funcionan las redes neuronales en servidores estándar, puede leer nuestro artículo Su propio LLM en CPU VPS: Ollama + llama.cpp con modelos 7B-13B.

Comparativa de modelos para autocompletado de código

Los modelos varían según el número de parámetros y la calidad de comprensión del contexto. Para soluciones self-hosted, los más elegidos son:

DeepSeek-Coder-V2-Lite (16B MoE): Líder en la relación precisión/velocidad. Gracias a su arquitectura Mixture of Experts (MoE), funciona rápido incluso en CPUs de gama media.
DeepSeek-Coder-6.7B: Un clásico para servidores menos potentes. Ocupa unos 5 GB de RAM en cuantización de 4 bits.
CodeLlama-7B/13B: Modelos de Meta, estables, pero a menudo superados por DeepSeek en tareas específicas de Python y JS.
StarCoder2: Excelente opción para soporte multilingüe y trabajo con contextos muy extensos.

¿Busca un servidor confiable para sus proyectos?

VPS desde $10/mes y servidores dedicados desde $9/mes con NVMe, protección DDoS y soporte 24/7.

Ver ofertas →

Instalación paso a paso de la combinación continue dev ollama en un servidor Linux

El proceso de despliegue se ha simplificado al máximo gracias al proyecto Ollama. Es una herramienta que empaqueta las complejas dependencias de las redes neuronales en un simple archivo binario y proporciona una API compatible con OpenAI. La combinación continue dev ollama permite convertir un servidor común en un potente backend para el desarrollo con IA en 10 minutos.

Paso 1: Instalación de Ollama en el VPS

Conéctese a su servidor por SSH y ejecute el comando:

curl -fsSL https://ollama.com/install.sh | sh

Tras la instalación, verifique el estado del servicio:

systemctl status ollama

Paso 2: Descarga de modelos

Para trabajar necesitaremos dos modelos: uno para el chat (más potente) y otro para el autocompletado (lo más rápido posible).

# Modelo para chat y refactorización
ollama pull deepseek-coder-v2:lite

# Modelo para autocompletado (autocomplete)
ollama pull deepseek-coder:6.7b-base-q4_K_M

Paso 3: Configuración del acceso a la API

Por defecto, Ollama solo escucha en localhost:11434. Para que la extensión Continue.dev pueda comunicarse con el servidor, es necesario permitir conexiones externas. Edite la configuración del servicio:

sudo systemctl edit ollama.service

Añada las siguientes líneas en la sección [Service]:

[Service]
Environment="OLLAMA_HOST=0.0.0.0"
Environment="OLLAMA_ORIGINS=*"

Reinicie el servicio:

sudo systemctl daemon-reload
sudo systemctl restart ollama

Si planea utilizar el servidor para múltiples tareas, como trabajar con documentación, consulte el material Análogo de ChatGPT self-hosted: OpenWebUI + Ollama + RAG en 30 minutos.

Configuración de VS Code y la extensión Continue.dev

Continue.dev es una extensión de código abierto para VS Code y JetBrains, siendo la herramienta más flexible para crear su propio entorno de trabajo con IA. A diferencia de los plugins cerrados, permite configurar minuciosamente cada aspecto de la interacción con el modelo.

Configuración de config.json

Tras instalar la extensión en VS Code, abra el archivo de configuración config.json (normalmente a través del icono de engranaje en el panel de Continue). Debe especificar la dirección de su servidor.

{
  "models": [
    {
      "title": "DeepSeek Coder V2 Lite",
      "provider": "ollama",
      "model": "deepseek-coder-v2:lite",
      "apiBase": "http://your-vps-ip:11434"
    }
  ],
  "tabAutocompleteModel": {
    "title": "DeepSeek 6.7B Autocomplete",
    "provider": "ollama",
    "model": "deepseek-coder:6.7b-base-q4_K_M",
    "apiBase": "http://your-vps-ip:11434"
  },
  "embeddingsProvider": {
    "provider": "ollama",
    "model": "nomic-embed-text",
    "apiBase": "http://your-vps-ip:11434"
  }
}

Uso de túnel SSH para mayor seguridad

Si no desea abrir el puerto 11434 a todo internet, utilice la tunelización SSH. Esto garantizará el cifrado del tráfico y la autorización mediante claves. Comando para redirigir el puerto desde su máquina local:

ssh -L 11434:localhost:11434 user@your-vps-ip

En este caso, en la configuración de Continue.dev puede mantener localhost:11434. Esto es especialmente relevante si se está trasladando desde plataformas en la nube. Sobre las sutilezas de la migración escribimos en el artículo Migración de AWS Lightsail/EC2 a dedicado: ahorramos $500-2000/mes.

Comparativa entre Continue.dev y Cursor: ¿qué elegir en 2025?

Cursor es un fork de VS Code con IA integrada. Es increíblemente cómodo "out of the box", pero su naturaleza cerrada y su precio obligan a muchos a buscar una alternativa a Cursor. Continue.dev ofrece casi la misma funcionalidad, pero en forma de plugin que se puede instalar en un VS Code limpio.

Característica	Cursor (Plan Pro)	Self-hosted (Continue + Ollama)
Costo	$20 / mes por usuario	Costo del VPS ($10-30 / mes por equipo)
Privacidad	Datos en servidores de Cursor/Anthropic	100% local en su servidor
Selección de modelos	Claude 3.5, GPT-4o	Cualquier modelo de la biblioteca de Ollama/HuggingFace
Trabajo offline	No	Sí (en red local)
Indexación de código	En la nube (Remote Indexing)	Local (LanceDB / Vector DB)
Complejidad de configuración	Nula (instalar y usar)	Media (requiere configuración del servidor)

Diferencias funcionales

Cursor destaca por su función "Composer", que permite generar código en varios archivos simultáneamente. Continue.dev está alcanzando rápidamente a su competidor implementando el soporte para "Edit Mode" (Cmd+I / Ctrl+I), donde la IA propone correcciones directamente en el archivo actual. Sin embargo, para un funcionamiento pleno de la indexación de toda la base de código en Continue.dev, podría requerirse una base de datos vectorial externa. Sobre cómo desplegarla, lea aquí: Vector DB en VPS: pgvector vs Qdrant vs Weaviate — qué elegir.

Optimización de DeepSeek-Coder y Llama 3 para un autocompletado rápido

Para que su copilot self-hosted no se demore, es necesario optimizar el proceso de inferencia. El problema principal de la generación por CPU es la velocidad de lectura de los pesos desde la memoria.

Uso de cuantización

La cuantización reduce la precisión de los pesos del modelo de 16 bits a 4 o 5 bits. Esto disminuye los requisitos de RAM entre 3 y 4 veces y acelera el trabajo proporcionalmente.

Q4_K_M: Equilibrio óptimo para la mayoría de las tareas. La pérdida de precisión es prácticamente imperceptible al escribir código.
Q2_K: Velocidad máxima, pero el modelo puede empezar a confundirse con la sintaxis o generar alucinaciones.

Parámetros de la ventana de contexto

En el config.json de Continue.dev, puede limitar el número de tokens que el modelo ve "arriba" y "abajo" del cursor. Para el autocompletado en CPU se recomienda configurar:

"tabAutocompleteOptions": {
  "maxContextLength": 2048,
  "maxPromptTokens": 1024
}

Esto reducirá significativamente el tiempo de "reflexión" del modelo antes de ofrecer una sugerencia.

Economía de propiedad: su propio GitHub Copilot frente a suscripciones

Hagamos cuentas reales. Para el trabajo de un grupo de 3 a 5 desarrolladores, es suficiente con un VPS de alto rendimiento con 8 vCPUs y 32 GB de RAM. Un servidor así cuesta unos $30-40 al mes.

Gastos en suscripciones: 5 personas * $20 = $100 al mes.
Gastos en servidor propio: $35 al mes.
Ahorro: $65 al mes o $780 al año.

Además, no solo obtiene un Copilot, sino un servidor completo donde puede desplegar CI/CD, entornos de staging o una VPN corporativa. Para quienes se preocupan por la seguridad del acceso a sus herramientas de desarrollo, será útil la guía Su propia VPN en VPS: VLESS Reality + Xray-core en 10 minutos.

Tuning de modelos y contexto para aumentar la precisión del código

Para que su propio github copilot comprenda la especificuidad de su proyecto, Continue.dev utiliza el mecanismo de Context Providers. Esto permite "alimentar" al modelo no solo con el archivo abierto, sino también con:

Documentación de URLs externas.
Resultados de la ejecución de comandos de terminal.
Estructura de archivos del proyecto.
Fragmentos específicos de código de otras ramas.

El uso de prompts de sistema (System Prompts) también ayuda a mejorar el resultado. Puede indicarle al modelo: "Eres un experto en React y TypeScript, utiliza siempre componentes funcionales y tipado estricto". Esto obligará a DeepSeek-Coder a generar un código más limpio y acorde a sus estándares.

Conclusiones

Para una máxima privacidad y ahorro, elija la combinación de Continue.dev y Ollama en un VPS dedicado, ya que esto otorga un control total sobre los datos y permite utilizar modelos de primer nivel como DeepSeek-Coder-V2 de forma gratuita. Si, por el contrario, busca la máxima productividad "out of the box" y está dispuesto a pagar $20/mes, Cursor sigue siendo el líder indiscutible en calidad de UX, aunque pierde en flexibilidad de configuración para hardware específico.

¿Listo para elegir su servidor?

VPS y servidores dedicados en más de 72 países con activación instantánea y acceso root completo.

Empezar ahora →