Parsing de Wildberries/OZON/Avito en VPS: antibaneo, proxies, Selenium

calendar_month 8 de mayo de 2026 schedule 9 min de lectura visibility 13 vistas
person
Valebyte Team
Parsing de Wildberries/OZON/Avito en VPS: antibaneo, proxies, Selenium
Para un scraping eficiente de Wildberries, OZON y Avito en un VPS, se requiere un servidor con al menos 2 vCPU, 4 GB de RAM y el uso de proxies residenciales con rotación para evadir bloqueos por IP y fingerprints de TLS; el coste de esta configuración comienza entre $10–15 al mes, y al utilizar motores de navegador (Selenium/Playwright), los requisitos de memoria aumentan a 8 GB o más.

Elección de potencia de servidor para el scraping de Wildberries en VPS

El rendimiento del scraping depende directamente de la arquitectura elegida y de los recursos del servidor. Para el scraping de Wildberries en VPS, el servidor debe contar con una alta frecuencia de procesador (desde 2.5 GHz), ya que la deserialización de grandes respuestas JSON y el funcionamiento de navegadores headless generan una carga significativa en la CPU. Al elegir un plan, debe orientarse por el volumen de datos: para procesar 100,000 fichas de productos al día basta con una instancia básica, pero para el monitoreo de millones de posiciones en tiempo real se requerirá un clúster de varios VPS.

Requisitos técnicos del servidor

Si planea utilizar librerías como requests o curl_cffi, el consumo de memoria RAM será mínimo (alrededor de 100-200 MB por hilo). Sin embargo, los marketplaces modernos utilizan activamente el renderizado dinámico de contenido y scripts de protección complejos, lo que obliga a los desarrolladores a ejecutar navegadores completos en modo headless. En este caso, cada proceso de Chrome o Firefox consume entre 150 y 400 MB de RAM.

Escala de scraping VPS recomendado Stack tecnológico Precio aproximado
Pequeña (hasta 50k peticiones/día) 2 vCPU, 4 GB RAM, 40 GB NVMe Python, curl_cffi, SQLite $10 - $15 / mes
Media (500k peticiones/día) 4 vCPU, 8 GB RAM, 80 GB NVMe Playwright, Redis, Postgres $25 - $40 / mes
Enterprise (5M+ peticiones/día) 8+ vCPU, 16+ GB RAM, 160 GB NVMe Distributed Scrapy, Kubernetes desde $70 / mes

Ubicación y latencia de red

Para el scraping de marketplaces rusos (Wildberries, Ozon, Avito), lo óptimo es elegir un VPS en ubicaciones cercanas a sus centros de datos principales (Moscú, San Petersburgo, Kazajistán) o en regiones europeas con buena conectividad. Un ping mínimo permite establecer conexiones TCP más rápido, lo cual es crítico cuando se utilizan miles de peticiones cortas. Si se enfrenta a bloqueos geográficos, el problema no se resuelve cambiando la ubicación del VPS, sino utilizando proxies de calidad.

Stack tecnológico: Selenium frente a Playwright y curl_cffi

La elección de la herramienta determina la velocidad de desarrollo y la probabilidad de ser baneado. El scraping de Ozon y Wildberries hoy en día es prácticamente imposible a través de la librería estándar requests, ya que no soporta la imitación de fingerprints TLS de los navegadores modernos, lo cual es detectado instantáneamente por sistemas de protección como Cloudflare o DataDome.

Por qué Playwright está desplazando a Selenium

Playwright de Microsoft se considera el estándar de la industria para la automatización de navegadores. A diferencia de Selenium, funciona a través del protocolo CDP (Chrome DevTools Protocol), lo que garantiza una mayor velocidad y estabilidad. Playwright soporta la espera automática de elementos, el trabajo con múltiples contextos (pestañas) en una sola instancia del navegador y cuenta con herramientas integradas para evadir la detección de automatización.

  • Velocidad: Playwright es más rápido gracias a la asincronía (librería asyncio en Python).
  • Emulación: Configuración sencilla de User-Agent, resoluciones de pantalla y geolocalización.
  • Modo Stealth: Existen plugins (por ejemplo, playwright-stealth) que modifican los valores de navigator.webdriver y otros parámetros que delatan al bot.

Uso de curl_cffi para peticiones de alta velocidad

Si el marketplace permite obtener datos a través de una API (aunque sea privada), el uso de un navegador es excesivo. Sin embargo, los clientes HTTP convencionales se delatan en el nivel de TLS Handshake. La librería curl_cffi permite imitar los fingerprints JA3 de navegadores reales (Chrome, Safari, Firefox), lo cual es crítico para la API de Wildberries. Esto permite realizar miles de peticiones por segundo desde un solo VPS, consumiendo entre 10 y 20 veces menos recursos que Playwright.

¿Busca un servidor confiable para sus proyectos?

VPS desde $10/mes y servidores dedicados desde $9/mes con NVMe, protección DDoS y soporte 24/7.

Ver ofertas →
from curl_cffi import requests

# Imitación de una petición desde Chrome versión 120
response = requests.get(
    "https://card.wb.ru/cards/v1/detail?nm=12345678",
    impersonate="chrome120"
)
print(response.json())

Parser antiban: estrategias para evadir la protección de los marketplaces

Un parser antiban moderno es un conjunto de medidas destinadas a que el servidor del marketplace no pueda distinguir su script de un comprador real con un iPhone o un MacBook. Los sistemas de protección analizan cientos de parámetros: desde la dirección IP hasta la velocidad de movimiento del cursor y el orden de carga de las fuentes.

Rotación de proxies residenciales y móviles

El uso de IPs de centros de datos (datacenter) para el scraping de Wildberries o Avito es el camino seguro hacia un captcha o un baneo permanente. Los marketplaces detectan que las peticiones provienen de subredes de proveedores de hosting. La solución son los proxies residenciales (IPs de usuarios domésticos reales) o proxies móviles (IPs de operadores de telefonía). En el scraping de Avito en VPS, los proxies móviles son especialmente efectivos, ya que miles de personas reales pueden compartir una misma dirección IP del operador, y banear dicha dirección perjudicaría a usuarios legítimos.

Para gestionar el pool de proxies en un VPS, a menudo se levanta un servicio intermedio (como Privoxy o rotadores especializados en Python) que cambia la IP de salida para cada nueva petición o sesión.

Gestión de Fingerprints y encabezados

Además de la IP, es necesario aleatorizar los encabezados (Headers). Es importante mantener la coherencia lógica: si en el User-Agent se indica Windows, en el encabezado sec-ch-ua-platform también debe figurar Windows. Para almacenar y utilizar de forma segura las credenciales de servicios de proxy y claves de API, se recomienda utilizar Self-hosted Bitwarden / Vaultwarden, lo que evita la filtración de información sensible desde el código.

  1. Rote el User-Agent desde una lista actualizada (no más antigua de 2-3 meses).
  2. Utilice el orden correcto de encabezados (prioridades H2/H3).
  3. Emule el comportamiento: realice pausas entre clics, desplace la página, no cargue imágenes para ahorrar tráfico si esto no interfiere con el renderizado.

Trabajando con la API de Wildberries y scraping de Ozon a través de endpoints ocultos

Muchos desarrolladores cometen el error de intentar scrapear la parte frontend del sitio (código HTML), que cambia constantemente. Es mucho más estable trabajar con las API internas que utilizan las aplicaciones móviles o las interfaces web para obtener datos. El estudio de las pestañas de Network en DevTools permite encontrar endpoints que devuelven JSON limpio.

Ingeniería inversa de las peticiones de Wildberries

La API de Wildberries se caracteriza por el uso de múltiples subdominios (card.wb.ru, catalog.wb.ru, etc.). Los datos sobre precios, existencias en almacenes y características del producto llegan de forma estructurada. La principal dificultad radica en la formación de los parámetros correctos de la petición, tales como appType, curr y dest (vinculación regional de existencias).

En el caso del scraping de Ozon, la situación es más compleja: utilizan activamente la ofuscación de parámetros y tokens dinámicos. A menudo hay que combinar enfoques: usar Playwright para obtener cookies y tokens actualizados, y luego pasarlos a un curl_cffi rápido para la recolección masiva de datos.

Especificidades del Scraping de Avito en VPS

Avito es una de las plataformas más difíciles de scrapear. Aplican límites estrictos para ver números de teléfono y utilizan activamente el análisis de comportamiento. En el scraping de Avito en VPS, es críticamente importante imitar sesiones reales: iniciar sesión (si se requiere recolectar contactos), "navegar" por otras categorías y solo después abrir el anuncio objetivo. Para automatizar estos escenarios complejos y recibir notificaciones de nuevos anuncios, se puede desplegar Self-hosted n8n, que conectará su parser con un bot de Telegram o un CRM.

Procesamiento y almacenamiento de datos en VPS

Cuando su parser recolecta millones de líneas, la escritura en archivos CSV se convierte en un cuello de botella. Para un trabajo eficiente con datos en un VPS, se requiere una base de datos relacional optimizada para la escritura (Write-Intensive).

PostgreSQL y optimización del esquema

PostgreSQL es la mejor opción para almacenar los resultados del scraping. Para acelerar la búsqueda por características de productos (por ejemplo, buscar modelos similares), se puede utilizar la extensión pgvector. Para saber cómo elegir la solución adecuada, lea el artículo Vector DB en VPS: pgvector vs Qdrant vs Weaviate. Una indexación correcta por SKU y tiempo de scraping permitirá construir rápidamente gráficos de variación de precios.

Ejemplo de estructura de tabla para precios:

CREATE TABLE product_history (
    id SERIAL PRIMARY KEY,
    sku VARCHAR(20) NOT NULL,
    marketplace VARCHAR(20),
    price DECIMAL(10, 2),
    stock INTEGER,
    parsed_at TIMESTAMP DEFAULT CURRENT_TIMESTAMP
);
CREATE INDEX idx_sku_timestamp ON product_history(sku, parsed_at);

Colas de tareas y distribución de carga

Para que el scraping no se detenga ante el error de una sola petición, utilice colas de tareas (Celery, RQ o Redis Streams). Un VPS permite ejecutar Redis como bróker de mensajes. Esto da la posibilidad de distribuir tareas entre diferentes workers: un worker recolecta enlaces de productos, otros diez descargan los datos. Esta arquitectura garantiza la tolerancia a fallos: si el marketplace bloquea temporalmente una IP, la tarea simplemente volverá a la cola y será ejecutada por otro worker a través de un proxy diferente.

Monitoreo y automatización de procesos de scraping

El scraping es un proceso que siempre tiende a fallar. Los marketplaces cambian el diseño, actualizan algoritmos de protección, los proveedores de proxy fallan. Sin un sistema de monitoreo, solo se enterará de la interrupción de la recolección de datos varios días después.

Seguimiento de errores con Sentry

En lugar de revisar manualmente los logs en el VPS, instale un sistema de seguimiento de errores. Self-hosted Sentry permite recibir notificaciones en tiempo real sobre bloqueos, cambios en la estructura JSON de Wildberries o caídas de navegadores headless. Esto ahorra decenas de horas de depuración.

Contenerización y CI/CD

El despliegue del parser a través de Docker simplifica la gestión de dependencias. No necesita instalar manualmente Chrome y los drivers en el VPS; todo se empaqueta en una imagen. El uso de Docker Compose permite levantar toda la infraestructura con un solo comando: el parser, la base de datos Postgres, Redis y el panel de monitoreo Grafana.

services:
  scraper:
    build: .
    depends_on:
      - postgres
      - redis
    environment:
      - DATABASE_URL=postgresql://user:pass@postgres/db
  postgres:
    image: postgres:15
    volumes:
      - pgdata:/var/lib/postgresql/data
volumes:
  pgdata:

Para proyectos a largo plazo, es importante contar con documentación y una base de conocimientos sobre la arquitectura de su scraper. En esto ayudará Self-hosted Outline / BookStack, donde el equipo puede registrar cambios en las API de los marketplaces y configuraciones de los sistemas antiban.

Conclusiones

Para un scraping estable de Wildberries, Ozon y Avito, elija un VPS con margen de memoria RAM (desde 4-8 GB) y utilice librerías modernas como Playwright o curl_cffi para evadir el fingerprinting TLS. Asegúrese de implementar la rotación de proxies residenciales y un sistema de monitoreo de errores para minimizar el riesgo de bloqueos y tiempos de inactividad en la recolección de datos.

¿Listo para elegir un servidor?

VPS y servidores dedicados en más de 72 países con activación instantánea y acceso root completo.

Empezar ahora →

Share this post:

support_agent
Valebyte Support
Usually replies within minutes
Hi there!
Send us a message and we'll reply as soon as possible.