Para lanzar su propio chatgpt vps con soporte RAG y carga de documentos, se requiere un servidor con un mínimo de 16-32 GB de RAM y 8 vCPU, lo que, al utilizar la combinación de Ollama y OpenWebUI, permite procesar datos corporativos localmente por unos $90/mes sin transferir información a terceras empresas. Este enfoque elimina por completo las fugas de datos (data leaks) y la dependencia de las API de OpenAI o Anthropic, proporcionando un control total sobre la información confidencial.
¿Qué servidor elegir para su chatgpt vps?
El funcionamiento eficiente de un modelo de lenguaje local (LLM) depende directamente de la cantidad de memoria RAM y de la velocidad del procesador, especialmente si no se utilizan costosas GPU. Para un trabajo fluido de 1 a 5 usuarios con modelos de nivel Llama 3.1 8B o Mistral 7B, lo óptimo es elegir planes de nivel VPS-L o servidores dedicados de nivel de entrada.
Requisitos técnicos de hardware
La carga principal durante la generación de texto recae en la CPU y la RAM. A diferencia del entrenamiento, la inferencia (salida) de los modelos se puede realizar en el procesador si se utilizan modelos cuantizados (formato GGUF). La memoria RAM es crítica: un modelo 8B con cuantización de 4 bits ocupa unos 5 GB, pero para el funcionamiento de RAG (Retrieval-Augmented Generation) y el almacenamiento en caché del contexto se requiere un margen adicional.
| Parámetro |
Mínimo (Lento) |
Recomendado (Rápido) |
Estándar corporativo |
| vCPU Cores |
4 Cores |
8-12 Cores |
16+ Cores |
| RAM |
8 GB |
16-32 GB |
64 GB+ |
| Disco (NVMe) |
40 GB |
100 GB |
500 GB+ |
| Precio aprox. |
$20-30/mes |
$60-90/mes |
$150+/mes |
Si planea migrar desde plataformas en la nube complejas, le recomendamos estudiar la migración de AWS Lightsail/EC2 a servidores dedicados, lo que permite ahorrar hasta $2000 al mes al ejecutar modelos pesados.
CPU vs GPU en VPS
Para la mayoría de las tareas de pequeñas empresas, el alquiler de un servidor con GPU (por ejemplo, NVIDIA A100 o RTX 4090) es excesivo en precio. Las instrucciones modernas de los procesadores (AVX2, AVX-512) permiten que Ollama ofrezca una velocidad de 10-15 tokens por segundo en VPS convencionales. Esto es suficiente para la lectura y generación de texto en tiempo real. El factor clave es la frecuencia del núcleo y el tamaño de la caché L3.
Configuración paso a paso de OpenWebUI: de Docker al primer modelo
OpenWebUI es la interfaz más avanzada para trabajar con LLM, que emula visualmente a ChatGPT pero funciona completamente en su servidor. Soporta modo multiusuario, gestión de modelos y un motor integrado para RAG.
Instalación de Docker y del entorno base
Para comenzar a trabajar en una instalación limpia de Ubuntu 22.04/24.04, es necesario instalar Docker Engine. Recomendamos utilizar la contenerización para aislar los componentes del sistema.
sudo apt update && sudo apt upgrade -y
sudo apt install curl git -y
curl -fsSL https://get.docker.com -o get-docker.sh
sudo sh get-docker.sh
Después de instalar Docker, puede proceder al despliegue de la combinación Ollama + OpenWebUI. La forma más sencilla es utilizar un archivo Docker Compose o un comando de ejecución único que combine la interfaz y el backend.
Ejecución de OpenWebUI con soporte para Ollama
Para implementar un privategpt vps, utilizamos un contenedor que ya incluye todas las dependencias necesarias para trabajar con bases de datos vectoriales.
docker run -d -p 3000:8080 \
--add-host=host.docker.internal:host-gateway \
-v open-webui:/app/backend/data \
--name open-webui \
ghcr.io/open-webui/open-webui:main
Tras ejecutar este comando, la interfaz estará disponible en la dirección
http://IP_de_su_servidor:3000. Al ingresar por primera vez, se le pedirá crear una cuenta de administrador. Todos los datos de los usuarios y el historial de chat se almacenarán localmente en un volumen de Docker. Puede encontrar detalles sobre la configuración del backend en la guía sobre su propio LLM en CPU VPS: Ollama + llama.cpp.
¿Busca un servidor confiable para sus proyectos?
VPS desde $10/mes y servidores dedicados desde $9/mes con NVMe, protección DDoS y soporte 24/7.
Ver ofertas →
Configuración de RAG para local chatgpt: trabajo con PDF y base de conocimientos
La principal ventaja de un self hosted gpt frente a los servicios públicos es la capacidad de "alimentar" a la red neuronal con documentos internos de la empresa (NDA, especificaciones técnicas, reglamentos) sin riesgo de que terminen en los conjuntos de entrenamiento de los modelos globales.
Cómo funciona RAG en OpenWebUI
RAG (Retrieval-Augmented Generation) funciona mediante el siguiente algoritmo:
- Usted carga un archivo (PDF, DOCX, TXT) en la interfaz.
- El sistema divide el texto en chunks (fragmentos).
- Un modelo especial de embeddings (por ejemplo,
nomic-embed-text) convierte el texto en vectores.
- Ante una pregunta del usuario, el sistema busca los fragmentos más similares en la base de conocimientos local.
- El contexto encontrado se envía al modelo principal junto con su pregunta.
En OpenWebUI, la configuración de RAG se realiza en la sección "Documents". Puede cargar una carpeta completa con documentación o la base de código de un proyecto. Para un funcionamiento correcto, asegúrese de que el modelo de embeddings esté seleccionado en la configuración. Por defecto se utiliza la versión de CPU, lo cual es ideal para nuestro VPS.
Carga de base de código y PDF
Para que su local chatgpt se convierta en un experto en su proyecto, utilice la función de colecciones. Puede crear una colección llamada "Proyecto_Alpha" y cargar allí todos los archivos .py o .js. Al chatear con el modelo, bastará con mencionar la colección mediante el símbolo
#, y la red neuronal utilizará su código como contexto para las respuestas. Esto convierte un chat convencional en una herramienta completa al nivel de GitHub Copilot, pero con almacenamiento privado de datos.
Seguridad de self hosted gpt e islamiento corporativo
Al desplegar un chat corporativo basado en la configuración de OpenWebUI, es necesario prestar atención a la protección del perímetro. Un puerto 3000 abierto es una amenaza directa a la seguridad.
Configuración de HTTPS y Proxy Inverso Nginx
Nunca utilice HTTP para transmitir datos corporativos. Instale Nginx y obtenga un certificado SSL gratuito de Let's Encrypt. Esto cifrará el tráfico entre su navegador y el VPS.
sudo apt install nginx certbot python3-certbot-nginx -y
# Ejemplo de configuración de Nginx
server {
listen 80;
server_name chat.suempresa.com;
location / {
proxy_pass http://localhost:3000;
proxy_set_header Host $host;
proxy_set_header X-Real-IP $remote_addr;
}
}
Si se está trasladando desde otros hostings, por ejemplo, si planea una migración de Hetzner a Valebyte, no olvide actualizar los registros DNS y volver a emitir los certificados.
Restricción de acceso mediante VPN
Para una seguridad máxima, se recomienda cerrar el acceso al puerto 80/443 al mundo exterior y permitirlo solo a través de una red interna. Puede configurar su propia VPN en este mismo servidor o en uno adyacente. Una excelente opción sería utilizar el panel 3x-ui para configurar Reality, lo que garantizará un acceso oculto y rápido de los empleados a la IA corporativa.
Comparación de modelos para privategpt vps: Llama 3.1 vs Mistral
La elección del modelo determina la calidad de las respuestas y la velocidad de trabajo. En un VPS sin tarjeta de video, estamos limitados a modelos de hasta 14-20 mil millones de parámetros.
| Modelo |
Tamaño (4-bit) |
Especialización |
Velocidad en 8 vCPU |
| Llama 3.1 8B |
4.7 GB |
Universal, lógica |
12-15 tokens/seg |
| Mistral Nemo 12B |
7.5 GB |
Contexto largo (128k) |
8-10 tokens/seg |
| Qwen 2.5 7B |
4.4 GB |
Código y matemáticas |
14-16 tokens/seg |
| Phi-3 Mini |
2.3 GB |
Tareas simples y rápidas |
25+ tokens/seg |
Para la mayoría de las tareas de oficina (redacción de correos, resumen de reuniones), Llama 3.1 8B es el estándar de oro. Si necesita analizar logs enormes o contratos legales extensos, Mistral Nemo con su ventana de contexto ampliada será preferible.
Optimización y ajuste de rendimiento en CPU
Para que su chatgpt vps no se ralentice cuando varios empleados trabajen simultáneamente, es necesario configurar correctamente los parámetros de Ollama.
Gestión de hilos (Threads)
Por defecto, Ollama intenta utilizar todos los núcleos disponibles. Sin embargo, esto puede provocar el bloqueo de todo el sistema. En la configuración de OpenWebUI o mediante variables de entorno de Ollama, se puede limitar el número de hilos para una sola solicitud. El valor óptimo es
NUM_THREADS = (total_de_núcleos - 1).
Cuantización y formato GGUF
El uso de modelos en formato FP16 en CPU es imposible debido a los colosales requisitos de memoria. Elija siempre cuantizaciones
Q4_K_M o
Q5_K_M. La pérdida de precisión en comparación con el modelo completo es inferior al 1-2%, pero los requisitos de RAM se reducen en 4 veces. Si anteriormente utilizó DigitalOcean y se enfrentó a la falta de recursos, consulte la guía sobre cómo migrar desde DigitalOcean a configuraciones más potentes de Valebyte.
Integración y API: cómo usar su propio ChatGPT en flujos de trabajo
OpenWebUI proporciona una API totalmente compatible con la API de OpenAI. Esto significa que puede conectar su servidor local a cualquier aplicación de terceros (IDE, CRM, mensajería) simplemente cambiando el
base_url.
- Para desarrolladores: Conecte VS Code a través de la extensión Continue.dev a su VPS. Obtendrá autocompletado de código privado.
- Para analistas: Utilice scripts de Python para el procesamiento masivo de documentos a través de la API de su servidor.
- Para RR.HH.: Configure un cribado inicial automático de currículums cargándolos en la carpeta RAG.
El coste de propiedad de este sistema es fijo. A diferencia de OpenAI, donde la factura crece proporcionalmente al número de tokens, por su chatgpt vps paga un alquiler fijo del servidor, independientemente de la intensidad de uso.
Conclusiones
Para crear un análogo corporativo seguro de ChatGPT, basta con alquilar un VPS con 16-32 GB de RAM y desplegar la combinación OpenWebUI + Ollama, lo que garantizará la total privacidad de los datos por unos $90/mes. Se recomienda utilizar el modelo Llama 3.1 8B para las tareas cotidianas y configurar obligatoriamente el acceso a través de VPN o Proxy Inverso con SSL para proteger la información corporativa.
¿Listo para elegir un servidor?
VPS y servidores dedicados en más de 72 países con activación instantánea y acceso root completo.
Empezar ahora →