Свій LLM на CPU VPS: Ollama + llama.cpp з моделями 7B-13B

Для запуску Ollama та моделей 7B-13B на CPU VPS оптимально використовувати сервер з 32 ГБ RAM та 8 ядрами vCPU, що забезпечує швидкість генерації 5-15 токенів на секунду при вартості оренди від $30-40 на місяць. Такий підхід дозволяє розгорнути повноцінний аналог ChatGPT для приватного використання, тестування API або автоматизації завдань без необхідності орендувати дорогі GPU-інстанси.

Вибір апаратної конфігурації для Ollama VPS

Ефективна робота ollama vps на класичних процесорах залежить не стільки від тактової частоти, скільки від обсягу оперативної пам'яті та підтримки сучасних наборів інструкцій процесором (AVX2, AVX-512). При виборі сервера для local llm hosting критично важливо розуміти, як модель взаємодіє з "залізом". На відміну від відеокарт, де вирішує пропускна здатність відеопам'яті (VRAM), у випадку з CPU основне навантаження лягає на системну шину пам'яті та кількість потоків. Для комфортної роботи моделей рівня Mistral 7B або Llama 3 8B потрібно мінімум 16 ГБ оперативної пам'яті, проте 32 ГБ є "золотим стандартом", оскільки дозволяють завантажувати моделі з меншим коефіцієнтом квантування (наприклад, Q8_0 замість Q4_K_M), що безпосередньо впливає на якість відповідей. Якщо ваша мета — свій gpt для роботи з великими контекстними вікнами (32k токенів і вище), обсяг RAM стає єдиним лімітуючим фактором.

Мінімальні та рекомендовані характеристики сервера

Характеристика	Мінімум (7B моделі)	Оптимально (7B-13B моделі)	High-end (30B+ моделі)
Процесор (vCPU)	4 Cores (AVX2)	8 Cores (High Frequency)	16-32 Cores
Оперативна пам'ять (RAM)	16 GB	32 GB	64-128 GB
Тип диска	NVMe (обов'язково)	NVMe Gen4	NVMe RAID
ОС	Ubuntu 22.04 LTS	Ubuntu 24.04 LTS	Debian 12
Очікувана швидкість	3-5 токенів/сек	8-15 токенів/сек	1-3 токена/сек

При плануванні бюджету враховуйте, що Cloudways → Valebyte: managed hosting альтернатива дешевша в 3 рази може допомогти заощадити на інфраструктурі, вивільнивши кошти на більш потужний процесор. Використання NVMe накопичувачів критичне для швидкості первинного завантаження ваг моделі в пам'ять. Звичайні SSD можуть змусити вас чекати 2-3 хвилини при кожному перезапуску сервісу або зміні моделі.

Технологія llama.cpp та магія квантування

В основі роботи більшості сучасних рішень для запуску нейромереж на процесорах лежить llama.cpp cpu оптимізація. Це проект на мові C++, який реалізує ефективні алгоритми матричного множення, адаптовані під архітектури x86 та ARM. Саме завдяки llama.cpp стало можливим запускати важкі моделі на звичайному серверному обладнанні. Ключовим поняттям тут є квантування (quantization). Вихідні моделі від Meta або Mistral AI поставляються у форматі FP16 (16 біт на вагу). Модель 7B в такому вигляді займає близько 14 ГБ. Квантування стискає ваги до 4 або 8 біт. Формат GGUF, який використовує Ollama, дозволяє зберігати модель в одному файлі, де ваги вже оптимізовані для CPU.

Чому формат GGUF ідеальний для VPS

Економія пам'яті: Модель mistral 7b vps в квантуванні Q4_K_M займає всього 4.1 ГБ RAM замість 14 ГБ.
Швидкість інференсу: Чим менше біт використовується на вагу, тим швидше процесор може проводити обчислення, хоча точність моделі незначно знижується.
Універсальність: Один і той самий файл працює і на Linux, і на macOS, і на Windows через обгортку llama.cpp.

Для тих, хто планує міграцію з Hetzner на Valebyte, важливо переконатися, що нові інстанси підтримують флаги процесора, необхідні для прискорення математичних операцій. Перевірити це можна командою lscpu | grep Flags.

Шукаєте надійний сервер для ваших проєктів?

VPS від $10/міс та виділені сервери від $9/міс з NVMe, DDoS-захистом та підтримкою 24/7.

Дивитись пропозиції →

Покрокова установка Ollama на Linux VPS

Процес установки Ollama максимально спрощений. Розробники надають скрипт, який автоматично визначає архітектуру системи та встановлює необхідні залежності. Ми рекомендуємо використовувати "чисту" Ubuntu 22.04 або 24.04.

curl -fsSL https://ollama.com/install.sh | sh

Після завершення установки сервіс автоматично запуститься у фоновому режимі. Ви можете перевірити статус командою systemctl status ollama. За замовчуванням Ollama слухає порт 11434 на localhost. Якщо ви плануєте звертатися до API ззовні, потрібне налаштування змінних оточення.

Налаштування віддаленого доступу до API

За замовчуванням Ollama блокує зовнішні з'єднання з метою безпеки. Щоб дозволити доступ, відредагуйте конфігурацію сервісу:

sudo systemctl edit ollama.service

Додайте в секцію [Service] наступні рядки:

[Service]
Environment="OLLAMA_HOST=0.0.0.0"
Environment="OLLAMA_ORIGINS=*"

Потім перезапустіть демон та сервіс:

sudo systemctl daemon-reload
sudo systemctl restart ollama

Тепер ваш ollama vps готовий приймати запити. Це корисно, якщо ви створюєте VPS для VPN-бізнесу та хочете інтегрувати ІІ-чат-бота для підтримки клієнтів прямо в панель управління.

rocket_launch Швидкий вибір

Шукаєте сервер, який просто працює?

Valebyte VPS — NVMe, підтримка 24/7, розгортання за 60 секунд.

Переглянути тарифи VPS arrow_forward

Запуск моделей Mistral 7B та Llama 3 8B

Після установки можна приступати до завантаження моделей. Для CPU-серверів з 32 ГБ оперативної пам'яті найкращим вибором будуть моделі сімейства Llama 3 (8B) та Mistral (7B). Вони володіють відмінним балансом між якістю логічних міркувань та швидкістю генерації тексту.

Команди для запуску популярних моделей

Llama 3 8B: ollama run llama3 — стандарт індустрії для загальних завдань.
Mistral 7B: ollama run mistral — краще справляється з сумаризацією та написанням коду.
Mistral NeMo 12B: ollama run mistral-nemo — нова модель зі збільшеним контекстом, вимагає близько 12-14 ГБ RAM.
Phi-3 Mini: ollama run phi3 — надшвидка модель від Microsoft, видає 20+ токенів/сек навіть на слабких CPU.

При першому запуску Ollama завантажить ваги моделі (близько 4-8 ГБ). Завдяки використанню NVMe на серверах Valebyte, процес верифікації та завантаження в пам'ять займе лічені секунди. Якщо ви раніше використовували закордонні хмари і зіткнулися з проблемами оплати, VLESS-Reality vs WireGuard рішення допоможуть забезпечити стабільний доступ до вашого сервера з будь-якої точки світу.

Розгортання OpenWebUI: графічний інтерфейс для вашого GPT

Працювати з ШІ через термінал не завжди зручно. Щоб отримати інтерфейс, ідентичний ChatGPT, ми встановимо OpenWebUI (раніше відомий як Ollama WebUI). Це потужний веб-додаток, який підтримує авторизацію користувачів, історію чатів, завантаження документів (RAG) та створення кастомних промптів.

Встановлення через Docker Compose

Найпростіший спосіб розгортання — використання Docker. Створіть файл docker-compose.yml:

services:
  open-webui:
    image: ghcr.io/open-webui/open-webui:main
    container_name: open-webui
    ports:
      - "3000:8080"
    extra_hosts:
      - "host.docker.internal:host-gateway"
    volumes:
      - open-webui:/app/backend/data
    restart: always

volumes:
  open-webui:

Запустіть контейнер командою docker compose up -d. Тепер за адресою http://ip-вашого-сервера:3000 доступний ваш персональний ШІ-асистент. Перша реєстрація стане адміністративною. Всередині ви зможете вибрати встановлені в Ollama моделі і почати спілкування.

Оптимізація продуктивності: як вичавити максимум з CPU

Запуск LLM на процесорі вимагає тонкого налаштування операційної системи. За замовчуванням Linux може намагатися економити енергію або неправильно розподіляти ресурси між ядрами, що призведе до "заїкання" виведення тексту.

Порівняння вартості: CPU VPS проти GPU Cloud

Багато новачків вважають, що для ШІ обов'язкова відеокарта рівня NVIDIA A100 або H100. Це вірно для навчання моделей, але для інференсу (використання) 7B-13B моделей CPU VPS набагато вигідніше.

Тип хостингу	Приблизна ціна в місяць	Плюси	Мінуси
GPU Cloud (A10)	$150 - $300	Дуже висока швидкість (50+ t/s)	Дорого, оплата за простій
Valebyte CPU VPS (32GB)	$35 - $50	Фіксована ціна, багато RAM	Середня швидкість (10 t/s)
Serverless AI API	$0.50 за 1M токенів	Немає потреби в налаштуванні	Відсутність приватності, цензура

Використання власного сервера забезпечує повну приватність даних. Ваші промпти і документи для RAG не йдуть в OpenAI або Anthropic. Це критично для корпоративного сектора або розробників, що працюють з конфіденційним кодом.

Безпека та моніторинг Ollama

Розгортання ollama vps вимагає уваги до безпеки, особливо якщо API доступний з інтернету. Ми рекомендуємо закрити порт 11434 за допомогою ufw і дозволити доступ тільки з вашого IP або через VPN-тунель. Для моніторингу навантаження використовуйте утиліту htop або btop. Ви побачите, як при запиті всі ядра vCPU завантажуються на 100%, а споживання пам'яті залишається стабільним — це специфіка роботи llama.cpp cpu. Якщо ви помітили, що процес Ollama завершується з помилкою "Out of Memory", значить, обрана модель занадто велика для вашого обсягу RAM. В цьому випадку варто спробувати версію з більш сильним квантуванням (наприклад, Q3_K_S).

Висновки

Для запуску Ollama з моделями 7B-13B оптимально використовувати VPS з 32 ГБ RAM і 8 ядрами vCPU, що забезпечить стабільні 10 токенів в секунду. Цього достатньо для більшості завдань: від написання коду до аналізу документів, при цьому вартість рішення в 5-6 разів нижче оренди GPU-сервера.

Готові обрати сервер?

VPS та виділені сервери в 72+ країнах з миттєвою активацією та повним root-доступом.

Почати зараз →