L'immobilier est l'un des secteurs les plus data-intensive au monde — et l'un des plus fermés. Les portails comme Zillow, Rightmove ou ImmoScout24 agrègent des millions d'annonces, mais verrouillent l'accès programmatique. Pour les équipes PropTech, scrape Zillow et consorts n'est pas un cap technique : c'est un impératif business. Sans données fraîches, pas de modélisation de prix, pas de détection d'opportunités, pas d'avantage concurrentiel.
Ce guide détaille les sources par région, les données accessibles, l'architecture de collecte, le cadre juridique et les cas d'usage concrets — avec chiffrage.
Les sites immobiliers par région : cartographie des sources
Chaque marché dispose de ses propres portails dominants. Avant de concevoir votre pipeline, il faut identifier les sources pertinentes et leurs spécificités techniques.
| Région | Portails principaux | Volume estimé d'annonces | Difficulté anti-bot |
|---|---|---|---|
| États-Unis | Zillow, Realtor.com, Redfin | ~3 M actives | Élevée |
| Royaume-Uni | Rightmove, Zoopla | ~1 M actives | Élevée |
| Allemagne | ImmoScout24 | ~800 K actives | Moyenne à élevée |
| France | LeBonCoin (immobilier), SeLoger | ~1,2 M actives | Moyenne |
| International | Immoweb (BE), Funda (NL), Idealista (IT/ES) | Variable | Variable |
Zillow utilise Cloudflare et Akamai, avec fingerprinting navigateur avancé. Rightmove bloque les plages d'IPs datacenter connues et limite agressivement le taux de requêtes. LeBonCoin combine rate-limiting et CAPTCHA sur les patterns de navigation suspects. ImmoScout24 restreint l'accès aux données détaillées aux utilisateurs authentifiés.
Quelles données sont accessibles sur les annonces immobilières
Tous les portails ne exposent pas les mêmes champs. Voici ce que vous pouvez réellement extraire, classé par catégorie :
Métadonnées de l'annonce
- Identifiant unique du listing (ZPID chez Zillow, listing ID chez Rightmove)
- URL canonique, date de publication, date de dernière mise à jour
- Statut (active, under contract, sold, rented)
- Type de bien (house, apartment, land, commercial)
Prix et historique de prix
- Prix courant et prix d'origine (si modifié)
- Historique des baisses de prix (Zillow expose les price cuts)
- Prix de vente final (sold data, disponible sur Realtor.com)
- Estimations automatiques (Zestimate, automated valuation models)
Caractéristiques du bien
- Surface, nombre de pièces, chambres, salles de bain
- Année de construction, type de chauffage, DPE (en France)
- Évaluations scolaires (school ratings — Zillow via GreatSchools)
- Score de marche et de transit (walk score, transit score)
Photos et médias
- URLs des photos (résolution variable, souvent watermarked)
- Visites virtuelles 3D (liens Matterport, tours interactifs)
- Vidéos de présentation
Données agent / agence
- Nom, téléphone, email (quand exposé publiquement)
- Agence affiliée, volume de listings actifs
- Note et avis clients (Zillow agent reviews)
Temps sur le marché
- Days on Market (DOM) — métrique clé pour l'analyse de liquidité
- Historique de re-listing (withdrawn puis re-publié)
Les données de prix historique et de temps sur le marché sont les plus précieuses pour la modélisation — et les plus difficiles à obtenir de manière fiable. Elles nécessitent un suivi longitudinal, pas un snapshot unique.
Pourquoi les proxies résidentiels sont indispensables
Les portails immobiliers investissent massivement dans la détection de bots. Leurs systèmes identifient trois signaux principaux :
- L'adresse IP : les datacenter IPs sont cataloguées. Zillow et Rightmove bloquent directement les plages AWS, GCP, Azure et OVH.
- Le comportement de navigation : patterns de requêtes trop réguliers, navigation sans JavaScript rendering, absence d'interaction humaine.
- L'empreinte navigateur : user-agent incohérent, headers TLS anormaux, WebGL fingerprint manquante.
Les real estate scraping proxies résidentiels résolvent le premier problème de manière fondamentale : vos requêtes proviennent d'IPs associées à des FAIs réels, pas à des serveurs cloud. Cela signifie que Zillow voit une connexion Comcast, Verizon, BT ou Orange — pas un serveur DigitalOcean.
Pourquoi c'est critique :
- Zillow bloque les datacenter IPs dès les premières requêtes. Sans proxy résidentiel, le taux de succès tombe sous 5%.
- Rightmove applique un rate-limiting différencié : les IPs résidentielles obtiennent ~100 req/min, les datacenter IPs sont bloquées immédiatement.
- LeBonCoin sert des CAPTCHAs systématiques aux IPs datacenter, rendant le scraping sans proxy résidentiel économiquement non viable.
Les proxies mobiles ajoutent une couche supplémentaire de légitimité — les IPs mobiles sont les plus difficiles à bloquer car les opérateurs les font tourner naturellement.
Architecture de crawling géo-distribué : le cadre stratégique
Un pipeline immobilier robuste ne se résume pas à un script Python. C'est une architecture avec quatre composantes critiques.
1. Collecte géo-distribuée
Chaque portail sert du contenu localisé. Un listing Zillow vu depuis une IP texane peut différer subtilement de celui vu depuis une IP new-yorkaise (prix locaux, annonces sponsorisées). Votre architecture doit :
- Cibler les IPs résidentielles dans la même région que les annonces scrapées
- Maintenir des sessions sticky pour les séquences de navigation multi-pages
- Gérer la rotation d'IPs entre les requêtes pour les crawls de masse
Avec ProxyHat, le ciblage géographique se configure directement dans le nom d'utilisateur :
# Crawler configuré pour les annonces texanes avec session persistante
import requests
proxy = "http://user-country-US-state-tx-session-listing42:pass@gate.proxyhat.com:8080"
response = requests.get(
"https://www.zillow.com/homes/for_sale/Austin-TX/",
proxies={"http": proxy, "https": proxy},
headers={"User-Agent": "Mozilla/5.0 ..."}
)
La session sticky (session-listing42) garantit que la même IP est utilisée pour toute la séquence de navigation sur un listing donné — crucial pour les sites qui détectent les changements d'IP en milieu de session.
2. Déduplication des annonces
Les mêmes biens apparaissent sur plusieurs portails avec des identifiants différents. Votre système doit :
- Normaliser les adresses (geocoding vers lat/lng standardisées)
- Créer un identifiant canonique basé sur l'adresse + surface + type
- Détecter les re-listings (même bien retiré puis republié avec un nouvel ID)
3. Suivi de l'historique de prix
La valeur réelle du scraping immobilier réside dans les séries temporelles, pas dans les snapshots. Chaque run de crawling doit :
- Enregistrer le prix courant avec un timestamp
- Détecter les changements de prix (baisses = signal de négociation)
- Tracker le statut (active → under contract → sold) avec dates
4. Stockage des assets photo
Les photos ne sont pas optionnelles pour les modèles de computer vision ou les AVMs. Concevez votre stockage pour :
- Télécharger les images en parallèle (CDN des portails, pas de rate-limiting)
- Stocker avec métadonnées : listing_id, position, date de capture
- Prévoir ~10-30 photos par listing, soit 50-150 KB chacune
Pour un pipeline traitant 100 000 listings/jour avec 20 photos chacun, le stockage photo atteint ~100-300 GB/jour. Un bucket S3 avec lifecycle policies est le standard de l'industrie.
Cadre juridique : données publiques vs. conditions d'utilisation
Le scraping immobilier se situe dans une zone grise juridique. Voici les éléments de cadrage essentiels.
Données publiques MLS via flux syndiqués
Les données MLS (Multiple Listing Service) sont la source primaire aux États-Unis. Certains MLS proposent des flux licenciés (RETS, RESO Web API). Cependant :
- L'accès nécessite souvent une licence d'agent immobilier
- Les données sont retardées de 24-72h par rapport au site public
- Le coût peut atteindre des milliers de dollars par mois par marché
Conditions d'utilisation de chaque portail
| Portail | Position ToS sur le scraping | Risque juridique |
|---|---|---|
| Zillow | Interdit explicitement le scraping dans ses ToS | Élevé — équipe juridique active |
| Realtor.com | Interdit, propriété de NAR avec enforcement | Élevé |
| Redfin | Interdit, mais API publique limitée existe | Moyen |
| Rightmove | Interdit, actions légales documentées | Élevé |
| Zoopla | Interdit dans les ToS | Moyen |
| ImmoScout24 | Interdit, API partenaire disponible | Moyen à élevé |
| LeBonCoin | Interdit, enforcement technique (CAPTCHA) | Moyen |
Principes directeurs pour minimiser les risques
- Ne scrapez que les données publiquement accessibles — pas de bypass d'authentification, pas d'accès à des pages réservées aux agents.
- Respectez robots.txt — même si l'absence de robots.txt ne signifie pas consentement, sa présence indique les préférences du site.
- Limitez le taux de requêtes — 1-2 req/sec par IP résidentielle est un maximum raisonnable.
- Conformité RGPD / CCPA — les données personnelles (agents, vendeurs) sont soumises aux réglementations de protection des données. Ne stockez pas d'informations personnelles identifiables sans base légale.
- Consultez un avocat — ce guide est informatif, pas juridique. Chaque juridiction a ses nuances.
L'approche la plus prudente : combinez des flux licenciés (quand disponibles et économiquement viables) avec du scraping de complément pour les données non couvertes par les API.
Cas d'usage concrets avec chiffrage
1. Détection d'opportunités pour investisseurs (Deal-Finding)
Un fonds d'investissement cherche des biens sous-évalués dans 20 marchés US. Le pipeline :
- Scraping quotidien de Zillow + Realtor.com sur 20 villes cibles
- Croisement avec les données de prix historique pour détecter les baisses
- Scoring automatique : écart entre prix listing et estimation AVM, jours sur le marché, ratio prix/sqft vs. quartier
Chiffrage : ~150 000 listings scrapés/jour × 30 jours = 4,5 M requêtes/mois. Coût proxies résidentiels ProxyHat : ~500-800 €/mois. Valeur : identification de ~50-200 opportunités/mois avec un potentiel de gain de 15-30% par transaction.
2. Analytique de marché pour SaaS PropTech
Une startup PropTech construit un tableau de bord de tendances immobilières :
- Collecte multi-source (Zillow + Redfin pour les US, Rightmove pour le UK, LeBonCoin pour la France)
- Normalisation et déduplication cross-portail
- Métriques : prix médian par quartier, évolution YoY, DOM moyen, ratio offre/demande
ROI : les données agrégées alimentent un SaaS à 200 €/mois par utilisateur. Avec 200 clients, le revenu mensuel atteint 40 000 €. Le coût d'acquisition des données (proxies + infrastructure) : 2 000-3 000 €/mois. Ratio données/revenu : ~6% — très compétitif.
3. Modélisation iBuyer (Instant Buyers)
Les iBuyers comme Opendoor et Zillow Offers (fermé) modélisent la valeur des biens en temps réel. Le pipeline nécessaire :
- Scraping continu des listings actifs + sold data pour l'entraînement du modèle
- Photos pour les modèles de computer vision (qualité du bien, rénovation needed)
- Données scolaires et de quartier comme features
Enjeu : la précision du modèle dépend directement de la fraîcheur et de la couverture des données. Un retard de 48h sur les sold comparables peut fausser une estimation de dizaines de milliers d'euros.
Build vs. Buy : décider de votre stratégie d'acquisition de données
Avant de lancer un pipeline de scraping immobilier, évaluez honnêtement les alternatives :
| Approche | Coût mensuel | Délai de mise en route | Couverture | Fraîcheur |
|---|---|---|---|---|
| API licenciées (MLS) | 2 000-10 000 € | 2-4 semaines | Partielle (par marché) | 24-72h de retard |
| Data brokers (Zillow API, etc.) | 1 000-5 000 € | 1-2 semaines | Limitée par licence | Variable |
| Scraping interne + proxies | 500-3 000 € | 4-8 semaines | Complète | Temps réel |
| Scraping externalisé | 1 500-5 000 € | 1-2 semaines | Complète | Quotidien |
Le scraping interne offre le meilleur rapport coût/fraîcheur/couverture, mais requiert une expertise en infrastructure de crawling et en gestion de proxies. C'est là qu'un fournisseur comme ProxyHat simplifie l'équation : des proxies résidentiels et mobiles géo-ciblés, avec rotation intégrée et sessions persistantes.
Points clés à retenir
- Les portails immobiliers bloquent agressivement les IPs datacenter. Les proxies résidentiels (et mobiles pour les cas les plus difficiles) sont non-négociables pour le scraping Zillow, Rightmove et LeBonCoin.
- La valeur est dans les séries temporelles. Un snapshot ne sert à rien — construisez pour le suivi longitudinal des prix et des statuts.
- La déduplication cross-portail est un problème non-trivial. Investissez dans le geocoding et la normalisation d'adresses dès le départ.
- Le cadre juridique est flou. Combinez données licenciées et scraping de complément, respectez robots.txt, limitez les taux, et consultez un avocat.
- Le ROI est mesurable. Avec un ratio données/revenu de 5-8%, le scraping immobilier est l'un des investissements data les plus rentables pour un PropTech.
- Le ciblage géographique via proxies est essentiel pour obtenir des données cohérentes — utilisez des IPs locales au marché que vous scrapez.
Prêt à construire votre pipeline immobilier ? Découvrez les offres ProxyHat et commencez à collecter des données dès aujourd'hui. Pour des architectures de scraping avancées, consultez notre guide de web scraping.






