¿Es legal scrapear Zillow o Rightmove?

Los TOS de Zillow y Rightmove prohíben el scraping, pero la legalidad depende de la jurisdicción, el tipo de datos y el método. Scrapear datos factuals públicos (precios, superficies) es diferente a extraer contenido creativo (descripciones, fotos con copyright). Evalúa primero alternativas legales como feeds IDX o APIs oficiales, y consulta siempre con tu equipo legal antes de lanzar un pipeline de scraping.

¿Por qué necesito proxies residenciales para scrapear portales inmobiliarios?

Zillow, Rightmove e ImmoScout24 bloquean agresivamente las IPs de datacenter. Mantienen bases de datos de rangos de IP de proveedores cloud (AWS, Azure, etc.) y las bloquean o someten a challenges interactivos. Los proxies residenciales enrutan el tráfico a través de IPs de hogares reales, haciendo que las requests parezcan tráfico orgánico. Las tasas de éxito pasan del 10-30% con datacenter al 90%+ con residenciales.

¿Qué datos puedo extraer de los portales inmobiliarios?

Los datos accesibles varían por portal, pero típicamente incluyen: metadatos del listing (dirección, superficie, habitaciones), precio actual e historial de reducciones, ratings de escuelas (Zillow), walk/transit scores (Redfin), fotos, datos de agentes, y tiempo en mercado. Algunos portales como Redfin ofrecen historial de precios muy rico; otros como LeBonCoin permiten acceso a contactos de vendedores particulares.

¿Cómo manejo la deduplicación de listings entre múltiples portales?

El mismo inmueble aparece en múltiples portales. Usa una librería de normalización de direcciones (como libpostal) para parsear y estandarizar ubicaciones, luego aplica matching fuzzy comparando dirección + superficie + tipo de propiedad. Asigna un ID canónico interno por inmueble, no por listing. Esto te permite consolidar datos de Zillow, Realtor.com y Redfin sin duplicados.

¿Cuánto cuesta construir un pipeline de scraping inmobiliario?

Un MVP robusto requiere 3-4 meses de desarrollo con un equipo de 2-3 engineers ($120K-$240K). El coste ongoing de proxies residenciales varía desde $3K/año para mercados locales hasta $8K+/año para cobertura nacional. Infraestructura cloud añade $6K-$15K/año. El punto de equilibrio vs APIs de terceros suele estar en el año 2, pero el build interno da acceso a datos diferenciadores que ningún proveedor ofrece.

Scrapear portales inmobiliarios con proxies | ProxyHat

Por qué los datos inmobiliarios son el petróleo del PropTech

Los equipos de analítica inmobiliaria compiten por la misma materia prima: datos de listings frescos, completos y geográficamente relevantes. Sin ellos, los modelos de pricing se quedan ciegos, los algoritmos de deal-finding pierden señal y las plataformas de market analytics entregan insights desactualizados a sus clientes.

El problema no es la escasez de datos — los portales inmobiliarios publican millones de anuncios — sino cómo acceder a ellos de forma sistemática, fiable y legal. Sitios como Zillow, Rightmove e ImmoScout24 invierten fuertemente en anti-bot, y un solo bloqueo puede invalidar horas de crawling. Esta guía ofrece un marco estratégico para que tu equipo diseñe, construya y escale un pipeline de extracción inmobiliaria que funcione.

Portales objetivo por región y su dificultad

No todos los portales son iguales. Su dificultad anti-bot, la riqueza de sus datos y su relevancia varían drásticamente por mercado. Aquí tienes el panorama global que todo equipo PropTech necesita conocer.

Estados Unidos: Zillow, Realtor.com, Redfin

El mercado estadounidense es el más competitivo y el más protegido. Zillow es el portal con mayor volumen y también con las defensas anti-bot más agresivas: fingerprinting de navegador, rate-limiting por IP, y detección de patrones de datacenter. Realtor.com (propiedad de Move Inc.) comparte infraestructura anti-bot con el ecosistema MLS y bloquea IPs de datacenter con rapidez. Redfin ofrece datos muy ricos — incluyendo días en mercado y historial de precios — pero su API interna está ofuscada y cambian endpoints con frecuencia.

Reino Unido: Rightmove y Zoopla

Rightmove domina el mercado británico con >80% de cuota. Su protección es legendaria: Cloudflare Enterprise con challenges JavaScript, rotación de tokens CSRF, y bloqueo agresivo de IPs no residenciales. Zoopla es algo más accesible técnicamente, pero su volumen de listings es menor y también ha endurecido sus defensas en 2024-2025.

Alemania: ImmoScout24

El portal dominante del mercado alemán. Protegido por Akamai Bot Manager, con challenges criptográficos que requieren navegadores headless muy bien configurados. Los datos de precio histórico y tendencias de barrio son especialmente valiosos para modelos de pricing en el DACH.

Francia: LeBonCoin (sección inmobiliaria)

LeBonCoin es un clasificado general, pero su sección inmobiliaria es la más grande de Francia. Su anti-bot es menos sofisticado que el de Rightmove o Zillow, pero el rate-limiting por IP es estricto. Los datos de contacto de particulares (vendedores directos) son el activo más codiciado.

Portal	Región	Dificultad anti-bot	Datos destacados	Protección principal
Zillow	US	Alta	Zestimate, price history, school ratings	Fingerprint + rate limit
Realtor.com	US	Alta	MLS data, days on market	Cloudflare Enterprise
Redfin	US	Media-Alta	Price history, agent data, tours	Ofuscación de API
Rightmove	UK	Muy alta	Listing metadata, floor plans	Cloudflare Enterprise
Zoopla	UK	Media	Price estimates, area stats	Rate limiting por IP
ImmoScout24	DE	Alta	Price trends, energy ratings	Akamai Bot Manager
LeBonCoin	FR	Media	Private seller contacts, photos	Rate limiting + captcha

Qué datos puedes extraer y su valor estratégico

Cada portal expone diferentes capas de información. Entender qué hay disponible te permite priorizar lo que realmente mueve el needle de tu negocio.

Metadatos del listing

Dirección (a veces parcial), tipo de propiedad, superficie, número de habitaciones, baño, año de construcción. Son la base de cualquier base de datos inmobiliaria y relativamente fáciles de extraer.

Precio y historial de precios

El precio actual es obvio, pero el historial de reducciones de precio — disponible en Zillow y Redfin — es oro para modelos de negociación. Rightmove muestra cambios de precio en listings activos, pero no un historial completo como Redfin.

Ratings de escuelas y datos de barrio

Zillow integra datos de GreatSchools. Redfin muestra walk scores y transit scores. Estos datos son cruciales para modelos de valoración hedónica que predicen precios basándose en amenities del barrio.

Fotos y assets multimedia

Las fotos no son solo contenido visual: permiten análisis de condición de propiedad con CV, identificación de renovaciones, y clasificación automática de tipo de cocina/baño. Almacenar y procesar fotos a escala requiere infraestructura significativa.

Datos de agentes

Nombres, agencias, teléfonos, historial de listings. Valiosos para plataformas de lead generation y para entender qué agentes dominan qué segmentos.

Tiempo en mercado (days on market)

Quizás el dato más estratégico para inversores: propiedades que llevan mucho tiempo en mercado son candidatos a oferta baja. Redfin lo muestra explícitamente; en otros portales hay que calcularlo tracking el primer día de aparición.

Por qué los proxies residenciales son esenciales

Los portales inmobiliarios han evolucionado sus defensas. Lo que en 2020 se podía scrapear con un script de Python y una lista de proxies de datacenter, hoy requiere una infraestructura más sofisticada.

El problema con las IPs de datacenter

Zillow y Rightmove mantienen bases de datos actualizadas de rangos de IP de datacenter. Cuando detectan una IP de AWS, Azure o DigitalOcean, la bloquean o la someten a challenges interactivos que los scrapers no pueden resolver. La tasa de éxito con proxies de datacenter en estos portales ronda el 10-30% y cae aún más durante picos de tráfico.

Proxies residenciales: la solución

Los proxies residenciales enrutan tu tráfico a través de IPs de dispositivos de usuarios reales — hogares, móviles. Para el portal, tu request parece tráfico orgánico. Las tasas de éxito suben al 90%+ en la mayoría de portales.

Para PropTech, la elección no es si usar proxies residenciales, sino cómo configurarlos para maximizar la relación coste/datos.

Estrategia de rotación de IPs

Rotación por request: cada HTTP request usa una IP diferente. Ideal para scraping masivo de search results. Máximo anonimato, pero no mantiene sesión.
Sesiones sticky: la IP se mantiene durante 10-30 minutos. Necesario para navegar dentro de un listing, paginar resultados, o completar flujos multi-paso. Esencial para Zillow y Rightmove.
Geo-targeting: si scrapeas Rightmove desde una IP de EE.UU., tu tasa de bloqueo se dispara. Necesitas IPs británicas. Con ProxyHat, puedes especificar el país en el username.

Ejemplo de configuración con geo-targeting para el mercado británico:

# Rightmove crawling con sesión sticky y geo-targeting UK
# Formato: http://user-country-GB-session-{id}:pass@gate.proxyhat.com:8080

import requests

proxies = {
    "http": "http://prophtech-country-GB-session-rm42:kT9x!Wp2@gate.proxyhat.com:8080",
    "https": "http://prophtech-country-GB-session-rm42:kT9x!Wp2@gate.proxyhat.com:8080",
}

response = requests.get(
    "https://www.rightmove.co.uk/property-for-sale/find.html?locationIdentifier=REGION^61274",
    proxies=proxies,
    headers={"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36"}
)

Arquitectura de crawling: un framework operativo

Scrapear un portal es el principio. Construir un pipeline que alimente modelos de ML, dashboards de analítica y alertas de inversión requiere una arquitectura pensada para escala, deduplicación y resiliencia.

Capa 1: Orquestación geo-distribuida

Cada mercado tiene su propia ventana de actualización de listings. Zillow se actualiza varias veces al día; Rightmove lo hace cada 15 minutos durante horas de oficina. Tu crawler debe:

Ejecutarse en regiones cloud cercanas al portal (US-East para Zillow, EU-West para Rightmove).
Usar proxies residenciales del país objetivo para cada portal.
Implementar backoff adaptativo: si la tasa de error supera el 15%, reduce frecuencia automáticamente.

Capa 2: Deduplicación de listings

Los mismos listings aparecen en múltiples portales. Un apartamento en Manhattan listado en Zillow, Realtor.com y Redfin es el mismo inmueble. Necesitas:

Normalización de direcciones: usa una librería como libpostal para parsear y normalizar.
Matching fuzzy: compara dirección + superficie + tipo para determinar si dos listings son el mismo inmueble.
IDs canónicos: asigna un ID interno único por inmueble, no por listing.

Capa 3: Tracking de historial de precios

El valor real no está en el precio actual, sino en cómo cambia. Diseña tu schema para capturar snapshots:

Cada ejecución del crawler guarda el precio y la fecha como un evento.
Un proceso downstream calcula reducciones de precio, tiempo entre cambios, y precio final vs inicial.
Esto alimenta directamente modelos de deal-finding y pricing para iBuyers.

Capa 4: Almacenamiento de fotos

Las fotos de listings son assets pesados (un listing medio tiene 20-40 fotos). Estrategia recomendada:

Descarga asíncrona a almacenamiento de objetos (S3, GCS).
Metadatos en base de datos relacional; blobs en almacenamiento de objetos.
Procesamiento con CV pipelines para extracción de features (condición de cocina, tipo de suelo, presencia de piscina).
Presupuesta ~2 TB/mes para un crawl nacional de US con fotos.

Capa 5: Monitorización y alertas

Un pipeline de scraping sin monitorización es una bomba de relojería. Implementa dashboards que trackean:

Tasa de éxito por portal y por tipo de proxy.
Latencia p95 y p99.
Número de listings nuevos vs actualizados vs eliminados por ejecución.
Alertas automáticas cuando un portal cambia su estructura HTML o añade nuevos challenges.

Marco legal: scraping vs feeds sindicados

Este es el tema que todo equipo legal quiere discutir y que los equipos de datos tienden a evitar. Vamos a ser precisos.

Los datos MLS y los feeds sindicados

En EE.UU., la mayoría de listings se originan en el MLS (Multiple Listing Service) local. Zillow, Realtor.com y Redfin obtienen sus datos a través de acuerdos de sindicación con estos MLS. Esto significa que:

Los datos de listings no son propiedad exclusiva del portal — son datos del agente/broker que los creó.
Algunos MLS ofrecen acceso directo a datos vía APIs o IDX feeds, que es la vía legal más limpia.
Scrapear Zillow no es lo mismo que scrapear el MLS directamente; el portal añade datos propietarios (Zestimate, fotos procesadas) que sí tienen copyright.

Los Términos de Servicio de cada portal

Todos los portales importantes prohíben el scraping en sus TOS. Esto es un hecho. La pregunta relevante es: ¿qué riesgo asumes y cómo lo mitigas?

Zillow: TOS prohíbe scraping explícitamente. Han enviado cease-and-desist a empresas conocidas. Riesgo: alto perfil, recurso legal significativo.
Rightmove: TOS muy restrictivo. Han bloqueado cuentas y amenazado con acciones legales. Riesgo: activo en defender sus datos.
ImmoScout24: Prohíbe scraping. En Alemania, la jurisprudencia (caso BGH sobre scraping) es más matizada de lo que parece.
LeBonCoin: TOS prohíbe scraping, pero la aplicación práctica es menos agresiva que en US/UK.

Un marco de decisión legal

No somos abogados y esto no es asesoría legal. Pero sí ofrecemos un marco práctico:

Evalúa alternativas legales primero: ¿Puedes obtener los datos vía API oficial, IDX feed, o partnership? Si sí, empieza ahí.
Scrapea solo datos públicos y factuals: precios, superficies, ubicación. No extraigas contenido creativo (descripciones literales, fotos con watermark).
Respeta robots.txt: aunque no sea vinculante legalmente en todas las jurisdicciones, demuestra buena fe.
Rate-limita responsablemente: no satures los servidores del portal. Un crawl educado es menos probable que genere acciones legales.
Consulta con tu abogado: especialmente si operas en múltiples jurisdicciones. El CFAA en EE.UU., el GDPR en Europa, y las leyes locales de competencia desleal son relevantes.

Casos de uso: del dato al negocio

1. Deal-finding para inversores

Un fondo de inversión quiere identificar propiedades infravaloradas en mercados secundarios estadounidenses. El pipeline:

Crawlea Zillow y Redfin diariamente para 50 mercados objetivo.
Filtra por propiedades con >90 días en mercado y al menos una reducción de precio del 10%+.
Cruza con datos de crimen, escuelas y walkability para generar un score de oportunidad.
Envía alertas al equipo de adquisiciones.

Números concretos: con un crawl de 500K listings/semana, el pipeline identifica típicamente 200-400 propiedades candidatas. De esas, el equipo de adquisición evalúa 50-80, hace ofertas en 20-30, y cierra 5-10. Con un margen medio de $15K-$30K por flip, el ROI del pipeline de datos es masivo comparado con su coste.

2. Market analytics para plataformas SaaS

Una plataforma de analytics inmobiliaria necesita datos de listings para alimentar dashboards de tendencias de mercado. Necesitan:

Volume de listings nuevos por código postal/semana.
Tendencias de precios medios por tipo de propiedad.
Tiempo medio en mercado como indicador de liquidez.
Ratio de list-price vs sale-price (requiere cruzar con datos de registros públicos).

Este caso de uso requiere consistencia y cobertura más que velocidad. Un crawl completo semanal es suficiente, pero no puedes permitirte gaps en la cobertura.

3. Price modeling para iBuyers

Los iBuyers (como Opendoor o modelos europeos emergentes) necesitan modelos de pricing ultra-precisos. Los datos de listings son input clave:

Features del listing → modelo hedónico que predice precio de mercado.
Historial de reducciones → ajuste por tiempo en mercado.
Fotos procesadas con CV → score de condición que ajusta el modelo.
Datos comparables → propiedades similares vendidas recientemente.

La precisión del modelo directamente impacta el P&L: un error del 2% en un mercado de $400K de precio medio se traduce en $8K por transacción. Datos frescos y completos no son un lujo; son una necesidad existencial.

Build vs. Buy: decisiones de infraestructura

Una de las decisiones más importantes para un equipo PropTech es si construir el stack de scraping internamente o usar soluciones existentes.

Construir internamente

Ventajas: control total, customización, sin dependencia de terceros, coste marginal bajo a escala.

Desventajas: tiempo de desarrollo significativo (3-6 meses para MVP robusto), mantenimiento continuo (los portales cambian cada 2-4 semanas), necesidad de expertise en anti-bot.

Usar datos de terceros

Proveedores como Property Data, Estated, o Attom Data ofrecen APIs con datos inmobiliarios ya procesados.

Ventajas: time-to-market inmediato, datos limpios y normalizados.

Desventajas: coste recurrente alto ($5K-$50K/mes dependiendo del volumen), datos que pueden estar desactualizados, dependencia de un solo proveedor, y limitaciones en qué campos están disponibles.

Modelo híbrido (recomendado)

La mayoría de equipos PropTech exitosos usan un modelo híbrido:

Datos base vía API de terceros: para el core del mercado (listings activos, precios, datos de registros).
Scraping propio para datos diferenciadores: historial de precios en tiempo real, fotos para CV, datos de agentes, métricas de tiempo en mercado que los proveedores no ofrecen.
Proxies residenciales como infraestructura base: tanto si construyes como si complementas, necesitas proxies residenciales para acceder a los portales. Es el coste de entrada, no un opcional.

Cálculo de ROI

Veamos un ejemplo concreto para un equipo de 3 data engineers construyendo un pipeline de scraping para el mercado US+UK:

Concepto	Build interno	API terceros (anual)
Desarrollo inicial (3 eng × 4 meses)	$180K-$240K	$0
Mantenimiento (0.5 eng ongoing)	$60K-$80K/año	$0
Proxies residenciales (ProxyHat)	$3K-$8K/año	Incluido
Infraestructura cloud	$6K-$15K/año	$1K-$3K/año
Licencia API terceros	$0	$60K-$200K/año
Total año 1	$249K-$343K	$61K-$203K
Total año 2+	$69K-$103K/año	$61K-$203K/año

El punto de equilibrio está en el año 2. Pero el factor diferenciador es que el build interno te da acceso a datos que ningún proveedor ofrece — historial de precios en tiempo real, fotos para CV, datos de agentes — y eso puede valer más que el ahorro.

Conclusiones clave

Key Takeaways

Los portales inmobiliarios principales (Zillow, Rightmove, ImmoScout24) bloquean agresivamente IPs de datacenter. Los proxies residenciales no son un lujo — son un requisito.

Diseña tu arquitectura para deduplicación, tracking de historial de precios y resiliencia ante cambios en la estructura de los portales.

El marco legal es complejo: evalúa feeds sindicados primero, scrapea solo datos factuals, y consulta con tu equipo legal.

El modelo híbrido (API de terceros + scraping propio) ofrece el mejor balance de velocidad y diferenciación.

El ROI se justifica cuando los datos alimentan modelos de pricing o pipelines de deal-finding que generan valor directo por transacción.

Configura geo-targeting por país en tus proxies — scrapear Rightmove desde una IP de EE.UU. es garantía de bloqueo.

Si tu equipo PropTech necesita escalar la extracción de datos inmobiliarios, la infraestructura de proxies es el cimiento sobre el que se construye todo lo demás. ProxyHat ofrece proxies residenciales con geo-targeting por país y ciudad, sesiones sticky para navegación multi-página, y una red que cubre los mercados donde operan Zillow, Rightmove, ImmoScout24 y LeBonCoin. Puedes explorar las opciones en nuestra página de precios o consultar las ubicaciones disponibles.

Para una inmersión más profunda en las técnicas de web scraping con proxies, consulta nuestra guía sobre cómo hacer web scraping con proxies y nuestro caso de uso sobre web scraping a escala.

Cómo scrapear portales inmobiliarios con proxies residenciales: guía estratégica para equipos PropTech

Por qué los datos inmobiliarios son el petróleo del PropTech

Portales objetivo por región y su dificultad