Свой LLM на CPU VPS: Ollama + llama.cpp с моделями 7B-13B

Для запуска Ollama и моделей 7B-13B на CPU VPS оптимально использовать сервер с 32 ГБ RAM и 8 ядрами vCPU, что обеспечивает скорость генерации 5-15 токенов в секунду при стоимости аренды от $30-40 в месяц. Такой подход позволяет развернуть полноценный аналог ChatGPT для приватного использования, тестирования API или автоматизации задач без необходимости арендовать дорогостоящие GPU-инстансы.

Выбор аппаратной конфигурации для Ollama VPS

Эффективная работа ollama vps на классических процессорах зависит не столько от тактовой частоты, сколько от объема оперативной памяти и поддержки современных наборов инструкций процессором (AVX2, AVX-512). При выборе сервера для local llm hosting критически важно понимать, как модель взаимодействует с "железом". В отличие от видеокарт, где решает пропускная способность видеопамяти (VRAM), в случае с CPU основная нагрузка ложится на системную шину памяти и количество потоков. Для комфортной работы моделей уровня Mistral 7B или Llama 3 8B требуется минимум 16 ГБ оперативной памяти, однако 32 ГБ являются "золотым стандартом", так как позволяют загружать модели с меньшим коэффициентом квантования (например, Q8_0 вместо Q4_K_M), что напрямую влияет на качество ответов. Если ваша цель — свой gpt для работы с большими контекстными окнами (32k токенов и выше), объем RAM становится единственным лимитирующим фактором.

Минимальные и рекомендуемые характеристики сервера

Характеристика	Минимум (7B модели)	Оптимально (7B-13B модели)	High-end (30B+ модели)
Процессор (vCPU)	4 Cores (AVX2)	8 Cores (High Frequency)	16-32 Cores
Оперативная память (RAM)	16 GB	32 GB	64-128 GB
Тип диска	NVMe (обязательно)	NVMe Gen4	NVMe RAID
ОС	Ubuntu 22.04 LTS	Ubuntu 24.04 LTS	Debian 12
Ожидаемая скорость	3-5 токенов/сек	8-15 токенов/сек	1-3 токена/сек

При планировании бюджета учитывайте, что Cloudways → Valebyte: managed hosting альтернатива дешевле в 3 раза может помочь сэкономить на инфраструктуре, высвободив средства на более мощный процессор. Использование NVMe накопителей критично для скорости первичной загрузки весов модели в память. Обычные SSD могут заставить вас ждать 2-3 минуты при каждом перезапуске сервиса или смене модели.

Технология llama.cpp и магия квантования

В основе работы большинства современных решений для запуска нейросетей на процессорах лежит llama.cpp cpu оптимизация. Это проект на языке C++, который реализует эффективные алгоритмы матричного умножения, адаптированные под архитектуры x86 и ARM. Именно благодаря llama.cpp стало возможным запускать тяжелые модели на обычном серверном оборудовании. Ключевым понятием здесь является квантование (quantization). Исходные модели от Meta или Mistral AI поставляются в формате FP16 (16 бит на вес). Модель 7B в таком виде занимает около 14 ГБ. Квантование сжимает веса до 4 или 8 бит. Формат GGUF, который использует Ollama, позволяет хранить модель в одном файле, где веса уже оптимизированы для CPU.

Почему формат GGUF идеален для VPS

Экономия памяти: Модель mistral 7b vps в квантовании Q4_K_M занимает всего 4.1 ГБ RAM вместо 14 ГБ.
Скорость инференса: Чем меньше бит используется на вес, тем быстрее процессор может производить вычисления, хотя точность модели незначительно снижается.
Универсальность: Один и тот же файл работает и на Linux, и на macOS, и на Windows через обертку llama.cpp.

Для тех, кто планирует миграцию с Hetzner на Valebyte, важно убедиться, что новые инстансы поддерживают флаги процессора, необходимые для ускорения математических операций. Проверить это можно командой lscpu | grep Flags.

Ищете надёжный сервер для ваших проектов?

VPS от $10/мес и выделенные серверы от $9/мес с NVMe, DDoS-защитой и поддержкой 24/7.

Смотреть предложения →

Пошаговая установка Ollama на Linux VPS

Процесс установки Ollama максимально упрощен. Разработчики предоставляют скрипт, который автоматически определяет архитектуру системы и устанавливает необходимые зависимости. Мы рекомендуем использовать "чистую" Ubuntu 22.04 или 24.04.

curl -fsSL https://ollama.com/install.sh | sh

После завершения установки сервис автоматически запустится в фоновом режиме. Вы можете проверить статус командой systemctl status ollama. По умолчанию Ollama слушает порт 11434 на localhost. Если вы планируете обращаться к API извне, потребуется настройка переменных окружения.

Настройка удаленного доступа к API

По умолчанию Ollama блокирует внешние соединения в целях безопасности. Чтобы разрешить доступ, отредактируйте конфигурацию сервиса:

sudo systemctl edit ollama.service

Добавьте в секцию [Service] следующие строки:

[Service]
Environment="OLLAMA_HOST=0.0.0.0"
Environment="OLLAMA_ORIGINS=*"

Затем перезапустите демон и сервис:

sudo systemctl daemon-reload
sudo systemctl restart ollama

Теперь ваш ollama vps готов принимать запросы. Это полезно, если вы создаете VPS для VPN-бизнеса и хотите интегрировать ИИ-чат-бота для поддержки клиентов прямо в панель управления.

Запуск моделей Mistral 7B и Llama 3 8B

После установки можно приступать к загрузке моделей. Для CPU-серверов с 32 ГБ оперативной памяти лучшим выбором будут модели семейства Llama 3 (8B) и Mistral (7B). Они обладают отличным балансом между качеством логических рассуждений и скоростью генерации текста.

Команды для запуска популярных моделей

Llama 3 8B: ollama run llama3 — стандарт индустрии для общих задач.
Mistral 7B: ollama run mistral — лучше справляется с суммаризацией и написанием кода.
Mistral NeMo 12B: ollama run mistral-nemo — новая модель с увеличенным контекстом, требует около 12-14 ГБ RAM.
Phi-3 Mini: ollama run phi3 — сверхбыстрая модель от Microsoft, выдает 20+ токенов/сек даже на слабых CPU.

При первом запуске Ollama скачает веса модели (около 4-8 ГБ). Благодаря использованию NVMe на серверах Valebyte, процесс верификации и загрузки в память займет считанные секунды. Если вы ранее использовали зарубежные облака и столкнулись с проблемами оплаты, VLESS-Reality vs WireGuard решения помогут обеспечить стабильный доступ к вашему серверу из любой точки мира.

Развертывание OpenWebUI: графический интерфейс для вашего GPT

Работать с ИИ через терминал не всегда удобно. Чтобы получить интерфейс, идентичный ChatGPT, мы установим OpenWebUI (ранее известный как Ollama WebUI). Это мощное веб-приложение, которое поддерживает авторизацию пользователей, историю чатов, загрузку документов (RAG) и создание кастомных промптов.

Установка через Docker Compose

Самый простой способ развертывания — использование Docker. Создайте файл docker-compose.yml:

services:
  open-webui:
    image: ghcr.io/open-webui/open-webui:main
    container_name: open-webui
    ports:
      - "3000:8080"
    extra_hosts:
      - "host.docker.internal:host-gateway"
    volumes:
      - open-webui:/app/backend/data
    restart: always

volumes:
  open-webui:

Запустите контейнер командой docker compose up -d. Теперь по адресу http://ip-вашего-сервера:3000 доступен ваш персональный ИИ-ассистент. Первая регистрация станет административной. Внутри вы сможете выбрать установленные в Ollama модели и начать общение.

Оптимизация производительности: как выжать максимум из CPU

Запуск LLM на процессоре требует тонкой настройки операционной системы. По умолчанию Linux может пытаться экономить энергию или неправильно распределять ресурсы между ядрами, что приведет к "заиканию" вывода текста.

Сравнение стоимости: CPU VPS против GPU Cloud

Многие новички считают, что для ИИ обязательна видеокарта уровня NVIDIA A100 или H100. Это верно для обучения моделей, но для инференса (использования) 7B-13B моделей CPU VPS гораздо выгоднее.

Тип хостинга	Примерная цена в месяц	Плюсы	Минусы
GPU Cloud (A10)	$150 - $300	Очень высокая скорость (50+ t/s)	Дорого, оплата за простой
Valebyte CPU VPS (32GB)	$35 - $50	Фиксированная цена, много RAM	Средняя скорость (10 t/s)
Serverless AI API	$0.50 за 1M токенов	Нет нужды в настройке	Отсутствие приватности, цензура

Использование собственного сервера обеспечивает полную приватность данных. Ваши промпты и документы для RAG не уходят в OpenAI или Anthropic. Это критично для корпоративного сектора или разработчиков, работающих с конфиденциальным кодом.

Безопасность и мониторинг Ollama

Развертывание ollama vps требует внимания к безопасности, особенно если API доступен из интернета. Мы рекомендуем закрыть порт 11434 с помощью ufw и разрешить доступ только с вашего IP или через VPN-туннель. Для мониторинга нагрузки используйте утилиту htop или btop. Вы увидите, как при запросе все ядра vCPU загружаются на 100%, а потребление памяти остается стабильным — это специфика работы llama.cpp cpu. Если вы заметили, что процесс Ollama завершается с ошибкой "Out of Memory", значит, выбранная модель слишком велика для вашего объема RAM. В этом случае стоит попробовать версию с более сильным квантованием (например, Q3_K_S).

Выводы

Для запуска Ollama с моделями 7B-13B оптимально использовать VPS с 32 ГБ RAM и 8 ядрами vCPU, что обеспечит стабильные 10 токенов в секунду. Этого достаточно для большинства задач: от написания кода до анализа документов, при этом стоимость решения в 5-6 раз ниже аренды GPU-сервера.

Готовы выбрать сервер?

VPS и выделенные серверы в 72+ странах с мгновенной активацией и полным root-доступом.

Начать сейчас →