Стан інференсу LLM у 2024 році
У сучасному ландшафті ШІ ефективність вашого стеку інференсу визначає користувацький досвід вашого продукту. Незалежно від того, чи розгортаєте ви чат-бота реального часу з використанням Llama 3, чи запускаєте пакетну обробку для вилучення даних, базова апаратна частина та інфраструктура хмарного провайдера відіграють ключову роль. Цей бенчмарк-аналіз досліджує, як різні рівні GPU — від корпоративного NVIDIA H100 до улюбленця споживачів RTX 4090 — показують себе на популярних хмарних платформах, таких як RunPod, Lambda Labs, Vast.ai та Vultr.
Методологія тестування: як ми вимірювали продуктивність
Щоб забезпечити справедливе порівняння, ми стандартизували наше середовище тестування для всіх провайдерів. Нашим основним показником є кількість токенів на секунду (TPS), яка вимірює швидкість генерації моделі. Ми також відстежували час до першого токена (TTFT) — критично важливий показник для сприйнятої затримки в інтерактивних додатках.
Конфігурація бенчмарка:
- Модель: Meta-Llama-3-70B-Instruct (квантована через AWQ) та Meta-Llama-3-8B-Instruct (FP16).
- Рушій інференсу: vLLM v0.4.2 (у Docker).
- Параметри: Макс. токенів: 512, Температура: 0.7, Розмір пакета (batch size): 1 (для затримки) та 32 (для пропускної здатності).
- Інфраструктура: Ubuntu 22.04, CUDA 12.1, драйвери NVIDIA 535+.
Претенденти: короткий огляд характеристик GPU
Перш ніж переходити до цифр, важливо зрозуміти апаратну частину. NVIDIA H100 (Hopper) оснащений прискоренням Transformer Engine, що робить його золотим стандартом для LLM. A100 (Ampere) залишається надійною робочою конячкою з високою пропускною здатністю пам'яті, в той час як RTX 4090 пропонує дивовижну продуктивність для невеликих моделей за частку вартості.
| Модель GPU | VRAM | Пропускна здатність пам'яті | Інтерконект | Типовий сценарій використання |
|---|
| NVIDIA H100 | 80GB HBM3 | 3.35 TB/s | NVLink (900 GB/s) | Високопродуктивний інференс LLM 70B+ |
| NVIDIA A100 | 80GB HBM2e | 1.93 TB/s | NVLink (600 GB/s) | Багатокористувацькі чат-боти, донавчання |
| NVIDIA RTX 4090 | 24GB GDDR6X | 1.01 TB/s | PCIe Gen4 | Llama 3 8B, Stable Diffusion XL |
Результати продуктивності: пропускна здатність та затримка
1. Llama 3 70B (AWQ) на чипах вищого класу
Для моделі 70B основним вузьким місцем є пропускна здатність пам'яті. Інстанси H100 на Lambda Labs та Vultr показали значну перевагу. На Lambda Labs H100 досяг в середньому 115 TPS для одного потоку. Навпаки, A100 80GB на RunPod показав в середньому близько 78 TPS. Швидша пам'ять HBM3 у H100 дозволяє завантажувати ваги моделі в обчислювальні блоки значно швидше, ніж у попередніх поколіннях.
2. Llama 3 8B (FP16) на чипах середнього та споживчого рівнів
З моделлю 8B ситуація інша. Оскільки модель досить мала, щоб поміститися в 24 ГБ відеопам'яті RTX 4090, розрив у продуктивності скорочується. На Vast.ai інстанс 4090 видав дивовижні 55 TPS. Хоча A100 швидший (близько 95 TPS), співвідношення ціни та продуктивності 4090 робить його привабливим вибором для стартапів та розробників, які працюють з навантаженнями з низькою конкурентністю.
Аналіз хмарних провайдерів: більше ніж просто GPU
Продуктивність — це не тільки кремній; це також оркестрація та мережеві затримки. Ось як розподілилися провайдери в ході нашого тестування:
Lambda Labs
Lambda Labs забезпечує високу продуктивність, близьку до bare-metal. Їхні кластери H100 оптимізовані для мереж з низькою затримкою. Ми виявили, що їхній TTFT був найбільш стабільним, з мінімальним джиттером. Однак доступність може бути проблемою, оскільки їхні H100 часто зарезервовані.
RunPod
RunPod виділяється своєю гнучкістю. Їхня «Secure Cloud» пропонує A100 та H100, які легко розгорнути за допомогою попередньо налаштованих шаблонів. Ми використовували їхній шаблон vLLM, який був готовий до роботи менш ніж за 2 хвилини. Продуктивність на RunPod була в межах 3% від Lambda Labs, що робить його чудовою альтернативою.
Vast.ai
Vast.ai — це маркетплейс, а отже, продуктивність може варіюватися в залежності від конкретного хоста. Однак для інстансів RTX 4090 Vast.ai неперевершений за ціною. Ми помітили, що введення-виведення диска (disk I/O) може бути вузьким місцем на деяких дешевших хостах, тому життєво важливо перевіряти показники надійності хоста перед розгортанням робочих контейнерів LLM.
Vultr
Vultr пропонує інфраструктуру корпоративного рівня з глобальною доступністю. Їхні інстанси H100 є частиною складної хмарної екосистеми, що робить їх ідеальними для компаній, яким необхідно інтегрувати інференс LLM з існуючими VPC та базами даних. Їхня продуктивність була ідентична Lambda Labs, але з кращою доступністю та підтримкою.
Аналіз економічної ефективності: метрика «Цінність»
Щоб визначити реальну цінність, ми розрахували вартість генерації 1 мільйона токенів. Хоча H100 має найвищу погодинну ставку ($3.00 - $5.00/год), його висока пропускна здатність означає, що він може обробляти більше запитів на годину, ніж A100 ($1.50 - $2.50/год).
- H100 (Lambda): ~$0.45 за 1 млн токенів (Llama 3 70B).
- A100 (RunPod): ~$0.62 за 1 млн токенів (Llama 3 70B).
- RTX 4090 (Vast.ai): ~$0.12 за 1 млн токенів (Llama 3 8B).
Для великомасштабних розгортань H100 фактично стає економічно вигіднішим завдяки своїй щільності та швидкості, незважаючи на вищу початкову погодинну вартість.
Практичні наслідки для ML-інженерів
Вибір провайдера передбачає баланс між часом холодного старту та масштабованістю. Якщо у вашому додатку спостерігається вибуховий трафік, серверлесс-пропозиції RunPod або переривчасті інстанси Vast.ai можуть заощадити вам гроші. Для стабільного виробничого трафіку зарезервовані інстанси на Lambda Labs або Vultr забезпечують стабільність, необхідну для SLA.
Крім того, використання vLLM та PagedAttention зробило революцію в інференсі. Незалежно від обраного вами GPU, використання оптимізованого рушія інференсу є обов'язковим. Ми спостерігали збільшення пропускної здатності в 2–4 рази при переході зі стандартних Hugging Face Transformers на vLLM на тому ж обладнанні.
Висновок та ключові висновки
Результати бенчмарків очевидні: NVIDIA H100 є беззаперечним королем інференсу LLM, особливо для моделей з понад 70 млрд параметрів. Однак для невеликих моделей або середовищ розробки RTX 4090 на маркетплейсах на кшталт Vast.ai пропонує неймовірну вигоду. При виборі хмарного провайдера враховуйте не тільки погодинну ціну, але й пропускну здатність (TPS) та простоту інтеграції у ваш існуючий стек.