Est-il légal de scraper Zillow ou Rightmove ?

Le scraping de données publiquement accessibles n'est pas illégal en soi, mais les conditions d'utilisation de Zillow et Rightmove l'interdisent explicitement. Le risque juridique dépend de votre juridiction, du volume scrapé et de l'usage final. L'approche la plus sûre : combinez des flux licenciés (API MLS, data brokers) avec du scraping limité de complément, et consultez un avocat spécialisé.

Pourquoi les proxies résidentiels sont-ils indispensables pour le scraping immobilier ?

Les portails immobiliiers comme Zillow et Rightmove bloquent les adresses IP issues de datacenters (AWS, GCP, Azure, OVH) dès les premières requêtes. Les proxies résidentiels routent le trafic via des IPs de FAIs réels (Comcast, Orange, BT), rendant les requêtes indiscernables de la navigation humaine normale. Sans proxy résidentiel, le taux de succès sur Zillow tombe sous 5%.

Quelles données peut-on extraire des sites immobiliers ?

Les données accessibles publiquement incluent : prix courant et historique, caractéristiques du bien (surface, pièces, DPE), photos, évaluations scolaires, données agent/agence, temps sur le marché (DOM), et statut de l'annonce. Les données détaillées comme l'historique complet des ventes ou les estimations AVM sont plus difficiles à obtenir et peuvent nécessiter une authentification.

Comment configurer le ciblage géographique avec ProxyHat pour le scraping immobilier ?

ProxyHat permet de cibler un pays, une région ou une ville directement dans le nom d'utilisateur. Par exemple, pour scraper des annonces au Texas : user-country-US-state-tx. Pour le Royaume-Uni : user-country-GB. Pour Berlin : user-country-DE-city-berlin. Ce ciblage garantit que vous voyez les mêmes résultats qu'un utilisateur local, ce qui est crucial pour les annonces sponsorisées et les prix régionaux.

Quel est le coût typique d'un pipeline de scraping immobilier ?

Pour un pipeline collectant ~150 000 annonces/jour sur 5+ portails, le coût des proxies résidentiels se situe entre 500 et 3 000 €/mois selon le volume et le ciblage géographique. L'infrastructure de stockage et de traitement ajoute 200-500 €/mois. Le ratio données/revenu pour un SaaS PropTech est typiquement de 5-8%, ce qui en fait un investissement très rentable comparé aux API licenciées qui coûtent 2 000-10 000 €/mois pour une couverture partielle.

Scraping immobilier : proxies et architecture | ProxyHat

L'immobilier est l'un des secteurs les plus data-intensive au monde — et l'un des plus fermés. Les portails comme Zillow, Rightmove ou ImmoScout24 agrègent des millions d'annonces, mais verrouillent l'accès programmatique. Pour les équipes PropTech, scrape Zillow et consorts n'est pas un cap technique : c'est un impératif business. Sans données fraîches, pas de modélisation de prix, pas de détection d'opportunités, pas d'avantage concurrentiel.

Ce guide détaille les sources par région, les données accessibles, l'architecture de collecte, le cadre juridique et les cas d'usage concrets — avec chiffrage.

Les sites immobiliers par région : cartographie des sources

Chaque marché dispose de ses propres portails dominants. Avant de concevoir votre pipeline, il faut identifier les sources pertinentes et leurs spécificités techniques.

Région	Portails principaux	Volume estimé d'annonces	Difficulté anti-bot
États-Unis	Zillow, Realtor.com, Redfin	~3 M actives	Élevée
Royaume-Uni	Rightmove, Zoopla	~1 M actives	Élevée
Allemagne	ImmoScout24	~800 K actives	Moyenne à élevée
France	LeBonCoin (immobilier), SeLoger	~1,2 M actives	Moyenne
International	Immoweb (BE), Funda (NL), Idealista (IT/ES)	Variable	Variable

Zillow utilise Cloudflare et Akamai, avec fingerprinting navigateur avancé. Rightmove bloque les plages d'IPs datacenter connues et limite agressivement le taux de requêtes. LeBonCoin combine rate-limiting et CAPTCHA sur les patterns de navigation suspects. ImmoScout24 restreint l'accès aux données détaillées aux utilisateurs authentifiés.

Quelles données sont accessibles sur les annonces immobilières

Tous les portails ne exposent pas les mêmes champs. Voici ce que vous pouvez réellement extraire, classé par catégorie :

Métadonnées de l'annonce

Identifiant unique du listing (ZPID chez Zillow, listing ID chez Rightmove)
URL canonique, date de publication, date de dernière mise à jour
Statut (active, under contract, sold, rented)
Type de bien (house, apartment, land, commercial)

Prix et historique de prix

Prix courant et prix d'origine (si modifié)
Historique des baisses de prix (Zillow expose les price cuts)
Prix de vente final (sold data, disponible sur Realtor.com)
Estimations automatiques (Zestimate, automated valuation models)

Caractéristiques du bien

Surface, nombre de pièces, chambres, salles de bain
Année de construction, type de chauffage, DPE (en France)
Évaluations scolaires (school ratings — Zillow via GreatSchools)
Score de marche et de transit (walk score, transit score)

Photos et médias

URLs des photos (résolution variable, souvent watermarked)
Visites virtuelles 3D (liens Matterport, tours interactifs)
Vidéos de présentation

Données agent / agence

Nom, téléphone, email (quand exposé publiquement)
Agence affiliée, volume de listings actifs
Note et avis clients (Zillow agent reviews)

Temps sur le marché

Days on Market (DOM) — métrique clé pour l'analyse de liquidité
Historique de re-listing (withdrawn puis re-publié)

Les données de prix historique et de temps sur le marché sont les plus précieuses pour la modélisation — et les plus difficiles à obtenir de manière fiable. Elles nécessitent un suivi longitudinal, pas un snapshot unique.

Pourquoi les proxies résidentiels sont indispensables

Les portails immobiliers investissent massivement dans la détection de bots. Leurs systèmes identifient trois signaux principaux :

L'adresse IP : les datacenter IPs sont cataloguées. Zillow et Rightmove bloquent directement les plages AWS, GCP, Azure et OVH.
Le comportement de navigation : patterns de requêtes trop réguliers, navigation sans JavaScript rendering, absence d'interaction humaine.
L'empreinte navigateur : user-agent incohérent, headers TLS anormaux, WebGL fingerprint manquante.

Les real estate scraping proxies résidentiels résolvent le premier problème de manière fondamentale : vos requêtes proviennent d'IPs associées à des FAIs réels, pas à des serveurs cloud. Cela signifie que Zillow voit une connexion Comcast, Verizon, BT ou Orange — pas un serveur DigitalOcean.

Pourquoi c'est critique :

Zillow bloque les datacenter IPs dès les premières requêtes. Sans proxy résidentiel, le taux de succès tombe sous 5%.
Rightmove applique un rate-limiting différencié : les IPs résidentielles obtiennent ~100 req/min, les datacenter IPs sont bloquées immédiatement.
LeBonCoin sert des CAPTCHAs systématiques aux IPs datacenter, rendant le scraping sans proxy résidentiel économiquement non viable.

Les proxies mobiles ajoutent une couche supplémentaire de légitimité — les IPs mobiles sont les plus difficiles à bloquer car les opérateurs les font tourner naturellement.

Architecture de crawling géo-distribué : le cadre stratégique

Un pipeline immobilier robuste ne se résume pas à un script Python. C'est une architecture avec quatre composantes critiques.

1. Collecte géo-distribuée

Chaque portail sert du contenu localisé. Un listing Zillow vu depuis une IP texane peut différer subtilement de celui vu depuis une IP new-yorkaise (prix locaux, annonces sponsorisées). Votre architecture doit :

Cibler les IPs résidentielles dans la même région que les annonces scrapées
Maintenir des sessions sticky pour les séquences de navigation multi-pages
Gérer la rotation d'IPs entre les requêtes pour les crawls de masse

Avec ProxyHat, le ciblage géographique se configure directement dans le nom d'utilisateur :

# Crawler configuré pour les annonces texanes avec session persistante
import requests

proxy = "http://user-country-US-state-tx-session-listing42:pass@gate.proxyhat.com:8080"

response = requests.get(
    "https://www.zillow.com/homes/for_sale/Austin-TX/",
    proxies={"http": proxy, "https": proxy},
    headers={"User-Agent": "Mozilla/5.0 ..."}
)

La session sticky (session-listing42) garantit que la même IP est utilisée pour toute la séquence de navigation sur un listing donné — crucial pour les sites qui détectent les changements d'IP en milieu de session.

2. Déduplication des annonces

Les mêmes biens apparaissent sur plusieurs portails avec des identifiants différents. Votre système doit :

Normaliser les adresses (geocoding vers lat/lng standardisées)
Créer un identifiant canonique basé sur l'adresse + surface + type
Détecter les re-listings (même bien retiré puis republié avec un nouvel ID)

3. Suivi de l'historique de prix

La valeur réelle du scraping immobilier réside dans les séries temporelles, pas dans les snapshots. Chaque run de crawling doit :

Enregistrer le prix courant avec un timestamp
Détecter les changements de prix (baisses = signal de négociation)
Tracker le statut (active → under contract → sold) avec dates

4. Stockage des assets photo

Les photos ne sont pas optionnelles pour les modèles de computer vision ou les AVMs. Concevez votre stockage pour :

Télécharger les images en parallèle (CDN des portails, pas de rate-limiting)
Stocker avec métadonnées : listing_id, position, date de capture
Prévoir ~10-30 photos par listing, soit 50-150 KB chacune

Pour un pipeline traitant 100 000 listings/jour avec 20 photos chacun, le stockage photo atteint ~100-300 GB/jour. Un bucket S3 avec lifecycle policies est le standard de l'industrie.

Cadre juridique : données publiques vs. conditions d'utilisation

Le scraping immobilier se situe dans une zone grise juridique. Voici les éléments de cadrage essentiels.

Données publiques MLS via flux syndiqués

Les données MLS (Multiple Listing Service) sont la source primaire aux États-Unis. Certains MLS proposent des flux licenciés (RETS, RESO Web API). Cependant :

L'accès nécessite souvent une licence d'agent immobilier
Les données sont retardées de 24-72h par rapport au site public
Le coût peut atteindre des milliers de dollars par mois par marché

Conditions d'utilisation de chaque portail

Portail	Position ToS sur le scraping	Risque juridique
Zillow	Interdit explicitement le scraping dans ses ToS	Élevé — équipe juridique active
Realtor.com	Interdit, propriété de NAR avec enforcement	Élevé
Redfin	Interdit, mais API publique limitée existe	Moyen
Rightmove	Interdit, actions légales documentées	Élevé
Zoopla	Interdit dans les ToS	Moyen
ImmoScout24	Interdit, API partenaire disponible	Moyen à élevé
LeBonCoin	Interdit, enforcement technique (CAPTCHA)	Moyen

Principes directeurs pour minimiser les risques

Ne scrapez que les données publiquement accessibles — pas de bypass d'authentification, pas d'accès à des pages réservées aux agents.
Respectez robots.txt — même si l'absence de robots.txt ne signifie pas consentement, sa présence indique les préférences du site.
Limitez le taux de requêtes — 1-2 req/sec par IP résidentielle est un maximum raisonnable.
Conformité RGPD / CCPA — les données personnelles (agents, vendeurs) sont soumises aux réglementations de protection des données. Ne stockez pas d'informations personnelles identifiables sans base légale.
Consultez un avocat — ce guide est informatif, pas juridique. Chaque juridiction a ses nuances.

L'approche la plus prudente : combinez des flux licenciés (quand disponibles et économiquement viables) avec du scraping de complément pour les données non couvertes par les API.

Cas d'usage concrets avec chiffrage

1. Détection d'opportunités pour investisseurs (Deal-Finding)

Un fonds d'investissement cherche des biens sous-évalués dans 20 marchés US. Le pipeline :

Scraping quotidien de Zillow + Realtor.com sur 20 villes cibles
Croisement avec les données de prix historique pour détecter les baisses
Scoring automatique : écart entre prix listing et estimation AVM, jours sur le marché, ratio prix/sqft vs. quartier

Chiffrage : ~150 000 listings scrapés/jour × 30 jours = 4,5 M requêtes/mois. Coût proxies résidentiels ProxyHat : ~500-800 €/mois. Valeur : identification de ~50-200 opportunités/mois avec un potentiel de gain de 15-30% par transaction.

2. Analytique de marché pour SaaS PropTech

Une startup PropTech construit un tableau de bord de tendances immobilières :

Collecte multi-source (Zillow + Redfin pour les US, Rightmove pour le UK, LeBonCoin pour la France)
Normalisation et déduplication cross-portail
Métriques : prix médian par quartier, évolution YoY, DOM moyen, ratio offre/demande

ROI : les données agrégées alimentent un SaaS à 200 €/mois par utilisateur. Avec 200 clients, le revenu mensuel atteint 40 000 €. Le coût d'acquisition des données (proxies + infrastructure) : 2 000-3 000 €/mois. Ratio données/revenu : ~6% — très compétitif.

3. Modélisation iBuyer (Instant Buyers)

Les iBuyers comme Opendoor et Zillow Offers (fermé) modélisent la valeur des biens en temps réel. Le pipeline nécessaire :

Scraping continu des listings actifs + sold data pour l'entraînement du modèle
Photos pour les modèles de computer vision (qualité du bien, rénovation needed)
Données scolaires et de quartier comme features

Enjeu : la précision du modèle dépend directement de la fraîcheur et de la couverture des données. Un retard de 48h sur les sold comparables peut fausser une estimation de dizaines de milliers d'euros.

Build vs. Buy : décider de votre stratégie d'acquisition de données

Avant de lancer un pipeline de scraping immobilier, évaluez honnêtement les alternatives :

Approche	Coût mensuel	Délai de mise en route	Couverture	Fraîcheur
API licenciées (MLS)	2 000-10 000 €	2-4 semaines	Partielle (par marché)	24-72h de retard
Data brokers (Zillow API, etc.)	1 000-5 000 €	1-2 semaines	Limitée par licence	Variable
Scraping interne + proxies	500-3 000 €	4-8 semaines	Complète	Temps réel
Scraping externalisé	1 500-5 000 €	1-2 semaines	Complète	Quotidien

Le scraping interne offre le meilleur rapport coût/fraîcheur/couverture, mais requiert une expertise en infrastructure de crawling et en gestion de proxies. C'est là qu'un fournisseur comme ProxyHat simplifie l'équation : des proxies résidentiels et mobiles géo-ciblés, avec rotation intégrée et sessions persistantes.

Points clés à retenir

Les portails immobiliers bloquent agressivement les IPs datacenter. Les proxies résidentiels (et mobiles pour les cas les plus difficiles) sont non-négociables pour le scraping Zillow, Rightmove et LeBonCoin.
La valeur est dans les séries temporelles. Un snapshot ne sert à rien — construisez pour le suivi longitudinal des prix et des statuts.
La déduplication cross-portail est un problème non-trivial. Investissez dans le geocoding et la normalisation d'adresses dès le départ.
Le cadre juridique est flou. Combinez données licenciées et scraping de complément, respectez robots.txt, limitez les taux, et consultez un avocat.
Le ROI est mesurable. Avec un ratio données/revenu de 5-8%, le scraping immobilier est l'un des investissements data les plus rentables pour un PropTech.
Le ciblage géographique via proxies est essentiel pour obtenir des données cohérentes — utilisez des IPs locales au marché que vous scrapez.

Prêt à construire votre pipeline immobilier ? Découvrez les offres ProxyHat et commencez à collecter des données dès aujourd'hui. Pour des architectures de scraping avancées, consultez notre guide de web scraping.

Scraping immobilier : guide complet pour les équipes PropTech

Les sites immobiliers par région : cartographie des sources