Парсинг Wildberries/OZON/Avito на VPS: антибан, прокси, Selenium

calendar_month 8 мая 2026 schedule 7 мин. чтения visibility 10 просмотров
person
Valebyte Team
Парсинг Wildberries/OZON/Avito на VPS: антибан, прокси, Selenium
Для эффективного парсинга Wildberries, OZON и Avito на VPS требуется сервер минимум с 2 vCPU, 4 ГБ RAM и использованием резидентных прокси с ротацией для обхода блокировок по IP и TLS-отпечаткам — стоимость такой конфигурации начинается от $10–15 в месяц, а при использовании браузерных движков (Selenium/Playwright) требования к памяти возрастают до 8 ГБ и выше.

Выбор серверных мощностей для парсинга Wildberries VPS

Производительность скрапинга напрямую зависит от выбранной архитектуры и ресурсов сервера. Для парсинга Wildberries VPS должен обладать высокой частотой процессора (от 2.5 ГГц), так как десериализация больших JSON-ответов и работа headless-браузеров создают значительную нагрузку на CPU. При выборе тарифа следует ориентироваться на объем данных: для обработки 100 000 карточек товаров в сутки достаточно базового инстанса, но для мониторинга миллионов позиций в реальном времени потребуется кластер из нескольких VPS.

Технические требования к серверу

Если вы планируете использовать библиотеки вроде requests или curl_cffi, потребление оперативной памяти будет минимальным (около 100-200 МБ на поток). Однако современные маркетплейсы активно используют динамический рендеринг контента и сложные скрипты защиты, что вынуждает разработчиков запускать полноценные браузеры в режиме headless. В этом случае каждый процесс Chrome или Firefox потребляет от 150 до 400 МБ RAM.

Масштаб парсинга Рекомендуемый VPS Стек технологий Приблизительная цена
Малый (до 50к запросов/день) 2 vCPU, 4 GB RAM, 40 GB NVMe Python, curl_cffi, SQLite $10 - $15 / мес
Средний (500к запросов/день) 4 vCPU, 8 GB RAM, 80 GB NVMe Playwright, Redis, Postgres $25 - $40 / мес
Enterprise (5M+ запросов/день) 8+ vCPU, 16+ GB RAM, 160 GB NVMe Distributed Scrapy, Kubernetes от $70 / мес

Локация и сетевая задержка

Для парсинга российских маркетплейсов (Wildberries, Ozon, Avito) оптимально выбирать VPS в локациях, близких к их основным дата-центрам (Москва, Санкт-Петербург, Казахстан) или в европейских регионах с хорошей связностью. Минимальный пинг позволяет быстрее устанавливать TCP-соединение, что критично при использовании тысяч коротких запросов. Если вы сталкиваетесь с гео-блокировками, проблема решается не сменой локации VPS, а использованием качественных прокси.

Технологический стек: Selenium против Playwright и curl_cffi

Выбор инструмента определяет скорость разработки и вероятность получения бана. Парсинг Ozon и Wildberries сегодня практически невозможен через стандартную библиотеку requests, так как она не поддерживает имитацию TLS-отпечатков современных браузеров, что моментально детектируется системами защиты вроде Cloudflare или DataDome.

Почему Playwright вытесняет Selenium

Playwright от Microsoft считается стандартом индустрии для автоматизации браузеров. В отличие от Selenium, он работает через протокол CDP (Chrome DevTools Protocol), что обеспечивает более высокую скорость и стабильность. Playwright поддерживает автоматическое ожидание элементов, работу с несколькими контекстами (вкладками) в одном инстансе браузера и имеет встроенные средства для обхода детектирования автоматизации.

  • Скорость: Playwright быстрее за счет асинхронности (библиотека asyncio в Python).
  • Эмуляция: Легкая настройка User-Agent, разрешений экрана и геопозиции.
  • Стелс-режим: Существуют плагины (например, playwright-stealth), которые подменяют значения navigator.webdriver и другие параметры, выдающие бота.

Использование curl_cffi для высокоскоростных запросов

Если маркетплейс позволяет получать данные через API (пусть и закрытое), использование браузера избыточно. Однако обычные HTTP-клиенты выдают себя на уровне TLS Handshake. Библиотека curl_cffi позволяет имитировать JA3-отпечатки реальных браузеров (Chrome, Safari, Firefox), что критично для wildberries api. Это позволяет выполнять тысячи запросов в секунду с одного VPS, потребляя в 10-20 раз меньше ресурсов, чем Playwright.

Ищете надёжный сервер для ваших проектов?

VPS от $10/мес и выделенные серверы от $9/мес с NVMe, DDoS-защитой и поддержкой 24/7.

Смотреть предложения →
from curl_cffi import requests

# Имитация запроса от Chrome 120 версии
response = requests.get(
    "https://card.wb.ru/cards/v1/detail?nm=12345678",
    impersonate="chrome120"
)
print(response.json())

Антибан парсер: стратегии обхода защиты маркетплейсов

Современный антибан парсер — это комплекс мер, направленных на то, чтобы сервер маркетплейса не смог отличить ваш скрипт от реального покупателя с iPhone или MacBook. Системы защиты анализируют сотни параметров: от IP-адреса до скорости движения курсора мыши и порядка загрузки шрифтов.

Ротация резидентных и мобильных прокси

Использование серверных (datacenter) IP для парсинга Wildberries или Avito — верный путь к капче или вечному бану. Маркетплейсы видят, что запросы идут из подсетей хостинг-провайдеров. Решение — резидентные прокси (IP реальных домашних пользователей) или мобильные прокси (IP сотовых операторов). При scraping avito vps мобильные прокси особенно эффективны, так как на одном IP-адресе оператора могут одновременно находиться тысячи реальных людей, и бан такого адреса нанесет ущерб обычным пользователям.

Для управления пулом прокси на VPS часто поднимают промежуточный сервис (например, Privoxy или специализированные ротаторы на Python), который меняет выходной IP для каждого нового запроса или сессии.

Управление Fingerprints и заголовками

Помимо IP, необходимо рандомизировать заголовки (Headers). Важно соблюдать логическую связность: если в User-Agent указан Windows, то в заголовке sec-ch-ua-platform также должен быть Windows. Для хранения и безопасного использования учетных данных от прокси-сервисов и API-ключей рекомендуется использовать Self-hosted Bitwarden / Vaultwarden, что исключает утечку чувствительной информации из кода.

  1. Ротируйте User-Agent из актуального списка (не старше 2-3 месяцев).
  2. Используйте правильный порядок заголовков (H2/H3 приоритеты).
  3. Эмулируйте поведение: делайте паузы между кликами, прокручивайте страницу, не загружайте изображения для экономии трафика, если это не мешает рендерингу.

Работа с Wildberries API и парсинг Ozon через скрытые эндпоинты

Многие разработчики совершают ошибку, пытаясь парсить фронтенд-часть сайта (HTML-код), которая постоянно меняется. Намного стабильнее работать с внутренними API, которые используют мобильные приложения или веб-интерфейсы для получения данных. Изучение вкладок Network в DevTools позволяет найти эндпоинты, возвращающие чистый JSON.

Реверс-инжиниринг запросов Wildberries

Для wildberries api характерно использование множества поддоменов (card.wb.ru, catalog.wb.ru и др.). Данные о ценах, остатках на складах и характеристиках товара приходят в структурированном виде. Основная сложность заключается в формировании правильных параметров запроса, таких как appType, curr и dest (региональная привязка остатков).

При парсинге Ozon ситуация сложнее: они активно используют обфускацию параметров и динамические токены. Часто приходится комбинировать подходы: использовать Playwright для получения актуальных куки и токенов, а затем передавать их в быстрый curl_cffi для массового сбора данных.

Специфика Scraping Avito VPS

Avito — одна из самых сложных площадок для скрапинга. Они применяют жесткие лимиты на просмотр номеров телефонов и активно используют поведенческий анализ. При scraping avito vps критически важно имитировать реальные сессии: залогиниться (если нужен сбор контактов), "побродить" по другим категориям, и только потом открывать целевое объявление. Для автоматизации таких сложных сценариев и уведомлений о новых лотах можно развернуть Self-hosted n8n, который свяжет ваш парсер с Telegram-ботом или CRM.

Обработка и хранение данных на VPS

Когда ваш парсер собирает миллионы строк, запись в CSV-файлы становится узким горлышком. Для эффективной работы с данными на VPS требуется реляционная база данных, оптимизированная под запись (Write-Intensive).

PostgreSQL и оптимизация схемы

PostgreSQL — лучший выбор для хранения результатов парсинга. Для ускорения поиска по характеристикам товаров (например, поиск похожих моделей) можно использовать расширение pgvector. О том, как выбрать подходящее решение, читайте в статье Vector DB на VPS: pgvector vs Qdrant vs Weaviate. Правильная индексация по артикулу (SKU) и времени парсинга позволит быстро строить графики изменения цен.

Пример структуры таблицы для цен:

CREATE TABLE product_history (
    id SERIAL PRIMARY KEY,
    sku VARCHAR(20) NOT NULL,
    marketplace VARCHAR(20),
    price DECIMAL(10, 2),
    stock INTEGER,
    parsed_at TIMESTAMP DEFAULT CURRENT_TIMESTAMP
);
CREATE INDEX idx_sku_timestamp ON product_history(sku, parsed_at);

Очереди задач и распределение нагрузки

Чтобы парсинг не "падал" при ошибке одного запроса, используйте очереди задач (Celery, RQ или Redis Streams). VPS позволяет запустить Redis в качестве брокера сообщений. Это дает возможность распределять задачи между разными воркерами: один воркер собирает ссылки на товары, десять других — скачивают данные. Такая архитектура обеспечивает отказоустойчивость: если маркетплейс временно заблокировал один IP, задача просто вернется в очередь и будет выполнена другим воркером через другой прокси.

Мониторинг и автоматизация процессов парсинга

Парсинг — это процесс, который ломается всегда. Маркетплейсы меняют верстку, обновляют алгоритмы защиты, прокси-провайдеры "отваливаются". Без системы мониторинга вы узнаете об остановке сбора данных только спустя несколько дней.

Отслеживание ошибок с Sentry

Вместо того чтобы вручную проверять логи на VPS, установите систему трекинга ошибок. Self-hosted Sentry позволяет в реальном времени получать уведомления о блокировках, изменениях в JSON-структуре Wildberries или падениях headless-браузеров. Это экономит десятки часов отладки.

Контейнеризация и CI/CD

Развертывание парсера через Docker упрощает управление зависимостями. Вам не нужно вручную устанавливать Chrome и драйверы на VPS — всё упаковывается в образ. Использование Docker Compose позволяет одной командой поднять всю инфраструктуру: парсер, базу данных Postgres, Redis и панель мониторинга Grafana.

services:
  scraper:
    build: .
    depends_on:
      - postgres
      - redis
    environment:
      - DATABASE_URL=postgresql://user:pass@postgres/db
  postgres:
    image: postgres:15
    volumes:
      - pgdata:/var/lib/postgresql/data
volumes:
  pgdata:

Для долгосрочных проектов важно иметь документацию и базу знаний по архитектуре вашего скрапера. В этом поможет Self-hosted Outline / BookStack, где команда может фиксировать изменения в API маркетплейсов и настройки антибан-систем.

Выводы

Для стабильного парсинга Wildberries, Ozon и Avito выбирайте VPS с запасом по оперативной памяти (от 4-8 ГБ) и используйте современные библиотеки вроде Playwright или curl_cffi для обхода TLS-фингерпринтинга. Обязательно внедряйте ротацию резидентных прокси и систему мониторинга ошибок, чтобы минимизировать риск блокировок и простоев в сборе данных.

Готовы выбрать сервер?

VPS и выделенные серверы в 72+ странах с мгновенной активацией и полным root-доступом.

Начать сейчас →

Share this post:

support_agent
Valebyte Support
Usually replies within minutes
Hi there!
Send us a message and we'll reply as soon as possible.