bolt Valebyte VPS from $4/mo — NVMe, 60s deploy.

Get a VPS arrow_forward

Парсинг Wildberries/OZON/Avito на VPS: антибан, проксі, Selenium

calendar_month May 08, 2026 schedule 7 хв. читання visibility 1098 переглядів
person
Valebyte Team
Парсинг Wildberries/OZON/Avito на VPS: антибан, проксі, Selenium
summarize

TL;DR

  • Для малого парсингу (50к запитів) потрібен VPS з 2 vCPU та 4 ГБ RAM; для Selenium — від 8 ГБ RAM.
  • Браузерні рушії (Playwright/Chrome) споживають 150–400 МБ RAM на кожен відкритий потік.
  • Для обходу блокувань використовуйте резидентні проксі з ротацією та емуляцію TLS-відбитків.
  • Оптимальні локації VPS для маркетплейсів РФ — Москва, Петербург або Казахстан для низького пінгу.
  • При масштабі 5М+ запитів переходьте на розподілений Scrapy та сервери від 8 vCPU та 16 ГБ RAM.
Для ефективного парсингу Wildberries, OZON та Avito на VPS потрібен сервер мінімум з 2 vCPU, 4 ГБ RAM та використанням резидентних проксі з ротацією для обходу блокувань по IP та TLS-відбитках — вартість такої конфігурації починається від $10–15 на місяць, а при використанні браузерних движків (Selenium/Playwright) вимоги до пам'яті зростають до 8 ГБ і вище.

Вибір серверних потужностей для парсингу Wildberries VPS

Продуктивність скрапінгу напряму залежить від обраної архітектури та ресурсів сервера. Для парсингу Wildberries VPS повинен мати високу частоту процесора (від 2.5 ГГц), так як десеріалізація великих JSON-відповідей та робота headless-браузерів створюють значне навантаження на CPU. При виборі тарифу слід орієнтуватись на об'єм даних: для обробки 100 000 карток товарів на добу достатньо базового інстансу, але для моніторингу мільйонів позицій в реальному часі буде потрібен кластер з декількох VPS.

Технічні вимоги до сервера

Якщо ви плануєте використовувати бібліотеки на зразок requests або curl_cffi, споживання оперативної пам'яті буде мінімальним (близько 100-200 МБ на потік). Проте сучасні маркетплейси активно використовують динамічний рендеринг контенту та складні скрипти захисту, що змушує розробників запускати повноцінні браузери в режимі headless. В цьому випадку кожен процес Chrome або Firefox споживає від 150 до 400 МБ RAM.

Масштаб парсингу Рекомендований VPS Стек технологій Приблизна ціна
Малий (до 50к запитів/день) 2 vCPU, 4 GB RAM, 40 GB NVMe Python, curl_cffi, SQLite $10 - $15 / міс
Середній (500к запитів/день) 4 vCPU, 8 GB RAM, 80 GB NVMe Playwright, Redis, Postgres $25 - $40 / міс
Enterprise (5M+ запитів/день) 8+ vCPU, 16+ GB RAM, 160 GB NVMe Distributed Scrapy, Kubernetes від $70 / міс

Локація та мережева затримка

Для парсингу російських маркетплейсів (Wildberries, Ozon, Avito) оптимально обирати VPS в локаціях, близьких до їх основних дата-центрів (Москва, Санкт-Петербург, Казахстан) або в європейських регіонах з гарною зв'язністю. Мінімальний пінг дозволяє швидше встановлювати TCP-з'єднання, що критично при використанні тисяч коротких запитів. Якщо ви стикаєтесь з гео-блокуваннями, проблема вирішується не зміною локації VPS, а використанням якісних проксі.

Технологічний стек: Selenium проти Playwright та curl_cffi

Вибір інструменту визначає швидкість розробки та ймовірність отримання бану. Парсинг Ozon та Wildberries сьогодні практично неможливий через стандартну бібліотеку requests, так як вона не підтримує імітацію TLS-відбитків сучасних браузерів, що моментально детектується системами захисту на зразок Cloudflare або DataDome.

Чому Playwright витісняє Selenium

Playwright від Microsoft вважається стандартом індустрії для автоматизації браузерів. На відміну від Selenium, він працює через протокол CDP (Chrome DevTools Protocol), що забезпечує більш високу швидкість та стабільність. Playwright підтримує автоматичне очікування елементів, роботу з декількома контекстами (вкладками) в одному інстансі браузера та має вбудовані засоби для обходу детектування автоматизації.

  • Швидкість: Playwright швидший за рахунок асинхронності (бібліотека asyncio в Python).
  • Емуляція: Легке налаштування User-Agent, розширень екрану та геопозиції.
  • Стелс-режим: Існують плагіни (наприклад, playwright-stealth), які підміняють значення navigator.webdriver та інші параметри, що видають бота.

Використання curl_cffi для високошвидкісних запитів

Якщо маркетплейс дозволяє отримувати дані через API (хай і закрите), використання браузера надлишкове. Проте звичайні HTTP-клієнти видають себе на рівні TLS Handshake. Бібліотека curl_cffi дозволяє імітувати JA3-відбитки реальних браузерів (Chrome, Safari, Firefox), що критично для wildberries api. Це дозволяє виконувати тисячі запитів в секунду з одного VPS, споживаючи в 10-20 разів менше ресурсів, ніж Playwright.

Шукаєте надійний сервер для ваших проєктів?

VPS від $10/міс та виділені сервери від $9/міс з NVMe, DDoS-захистом та підтримкою 24/7.

Дивитись пропозиції →
from curl_cffi import requests

# Імітація запиту від Chrome 120 версії
response = requests.get(
    "https://card.wb.ru/cards/v1/detail?nm=12345678",
    impersonate="chrome120"
)
print(response.json())

Антибан парсер: стратегії обходу захисту маркетплейсів

Сучасний антибан парсер — це комплекс заходів, спрямованих на те, щоб сервер маркетплейсу не зміг відрізнити ваш скрипт від реального покупця з iPhone або MacBook. Системи захисту аналізують сотні параметрів: від IP-адреси до швидкості руху курсору миші та порядку завантаження шрифтів.

Ротація резидентних та мобільних проксі

Використання серверних (datacenter) IP для парсингу Wildberries або Avito — вірний шлях до капчі або вічного бану. Маркетплейси бачать, що запити йдуть з підмереж хостинг-провайдерів. Рішення — резидентні проксі (IP реальних домашніх користувачів) або мобільні проксі (IP стільникових операторів). При scraping avito vps мобільні проксі особливо ефективні, так як на одній IP-адресі оператора можуть одночасно знаходитись тисячі реальних людей, і бан такої адреси завдасть шкоди звичайним користувачам.

Для управління пулом проксі на VPS часто піднімають проміжний сервіс (наприклад, Privoxy або спеціалізовані ротатори на Python), який змінює вихідний IP для кожного нового запиту або сесії.

Управління Fingerprints та заголовками

Окрім IP, необхідно рандомізувати заголовки (Headers). Важливо дотримуватись логічної зв'язності: якщо в User-Agent вказано Windows, то в заголовку sec-ch-ua-platform також має бути Windows. Для зберігання та безпечного використання облікових даних від проксі-сервісів та API-ключів рекомендується використовувати Self-hosted Bitwarden / Vaultwarden, що виключає витік чутливої інформації з коду.

  1. Ротуйте User-Agent з актуального списку (не старше 2-3 місяців).
  2. Використовуйте правильний порядок заголовків (H2/H3 пріоритети).
  3. Емулюйте поведінку: робіть паузи між кліками, прокручуйте сторінку, не завантажуйте зображення для економії трафіку, якщо це не заважає рендерингу.
rocket_launch Quick pick

Looking for a server that just works?

Valebyte VPS — NVMe, 24/7 support, deploy in 60 seconds.

View VPS plans arrow_forward

Робота з Wildberries API та парсинг Ozon через приховані ендпоїнти

Багато розробників роблять помилку, намагаючись парсити фронтенд-частину сайту (HTML-код), яка постійно змінюється. Набагато стабільніше працювати з внутрішніми API, які використовують мобільні додатки або веб-інтерфейси для отримання даних. Вивчення вкладок Network в DevTools дозволяє знайти ендпоінти, що повертають чистий JSON.

Реверс-інжиніринг запитів Wildberries

Для wildberries api характерне використання безлічі піддоменів (card.wb.ru, catalog.wb.ru та ін.). Дані про ціни, залишки на складах і характеристики товару приходять в структурованому вигляді. Основна складність полягає у формуванні правильних параметрів запиту, таких як appType, curr і dest (регіональна прив'язка залишків).

При парсингу Ozon ситуація складніша: вони активно використовують обфускацію параметрів і динамічні токени. Часто доводиться комбінувати підходи: використовувати Playwright для отримання актуальних кукі і токенів, а потім передавати їх в швидкий curl_cffi для масового збору даних.

Специфіка Scraping Avito VPS

Avito — одна з найскладніших площадок для скрапінгу. Вони застосовують жорсткі ліміти на перегляд номерів телефонів і активно використовують поведінковий аналіз. При scraping avito vps критично важливо імітувати реальні сесії: залогінитися (якщо потрібен збір контактів), "побродити" по іншим категоріям, і тільки потім відкривати цільове оголошення. Для автоматизації таких складних сценаріїв і повідомлень про нові лоти можна розгорнути Self-hosted n8n, який зв'яже ваш парсер з Telegram-ботом або CRM.

Обробка та зберігання даних на VPS

Коли ваш парсер збирає мільйони рядків, запис в CSV-файли стає вузьким горлечком. Для ефективної роботи з даними на VPS потрібна реляційна база даних, оптимізована під запис (Write-Intensive).

PostgreSQL та оптимізація схеми

PostgreSQL — найкращий вибір для зберігання результатів парсингу. Для прискорення пошуку за характеристиками товарів (наприклад, пошук схожих моделей) можна використовувати розширення pgvector. Про те, як вибрати відповідне рішення, читайте в статті Vector DB на VPS: pgvector vs Qdrant vs Weaviate. Правильна індексація за артикулом (SKU) і часом парсингу дозволить швидко будувати графіки зміни цін.

Приклад структури таблиці для цін:

CREATE TABLE product_history (
    id SERIAL PRIMARY KEY,
    sku VARCHAR(20) NOT NULL,
    marketplace VARCHAR(20),
    price DECIMAL(10, 2),
    stock INTEGER,
    parsed_at TIMESTAMP DEFAULT CURRENT_TIMESTAMP
);
CREATE INDEX idx_sku_timestamp ON product_history(sku, parsed_at);

Черги задач і розподіл навантаження

Щоб парсинг не "падав" при помилці одного запиту, використовуйте черги задач (Celery, RQ або Redis Streams). VPS дозволяє запустити Redis в якості брокера повідомлень. Це дає можливість розподіляти завдання між різними воркерами: один воркер збирає посилання на товари, десять інших — скачують дані. Така архітектура забезпечує відмовостійкість: якщо маркетплейс тимчасово заблокував один IP, завдання просто повернеться в чергу і буде виконано іншим воркером через інший проксі.

Моніторинг та автоматизація процесів парсингу

Парсинг — це процес, який ламається завжди. Маркетплейси змінюють верстку, оновлюють алгоритми захисту, проксі-провайдери "відвалюються". Без системи моніторингу ви дізнаєтесь про зупинку збору даних тільки через кілька днів.

Відстеження помилок з Sentry

Замість того щоб вручну перевіряти логи на VPS, встановіть систему трекінгу помилок. Self-hosted Sentry дозволяє в реальному часі отримувати повідомлення про блокування, зміни в JSON-структурі Wildberries або падіння headless-браузерів. Це економить десятки годин налагодження.

Контейнеризація та CI/CD

Розгортання парсера через Docker спрощує управління залежностями. Вам не потрібно вручну встановлювати Chrome і драйвери на VPS — все упаковується в образ. Використання Docker Compose дозволяє однією командою підняти всю інфраструктуру: парсер, базу даних Postgres, Redis і панель моніторингу Grafana.

services:
  scraper:
    build: .
    depends_on:
      - postgres
      - redis
    environment:
      - DATABASE_URL=postgresql://user:pass@postgres/db
  postgres:
    image: postgres:15
    volumes:
      - pgdata:/var/lib/postgresql/data
volumes:
  pgdata:

Для довгострокових проектів важливо мати документацію і базу знань по архітектурі вашого скрапера. В цьому допоможе Self-hosted Outline / BookStack, де команда може фіксувати зміни в API маркетплейсів і налаштування антибан-систем.

rocket_launch Quick pick

Looking for a server that just works?

Valebyte VPS — NVMe, 24/7 support, deploy in 60 seconds.

View VPS plans arrow_forward

Висновки

Для стабільного парсингу Wildberries, Ozon і Avito вибирайте VPS з запасом по оперативній пам'яті (від 4-8 ГБ) і використовуйте сучасні бібліотеки на зразок Playwright або curl_cffi для обходу TLS-фінгерпринтингу. Обов'язково впроваджуйте ротацію резидентних проксі і систему моніторингу помилок, щоб мінімізувати ризик блокувань і простоїв в зборі даних.

Готові вибрати сервер?

VPS і виділені сервери в 72+ країнах з миттєвою активацією і повним root-доступом.

Почати зараз →
support_agent
Valebyte Support
Usually replies within minutes
Hi there!
Send us a message and we'll reply as soon as possible.