Warum Immobilien-Scraping für PropTechs zur Pflicht wird
Der weltweite Immobilienmarkt generiert jährlich Daten im Petabyte-Bereich — Preisentwicklungen, Verweildauern, Angebotsdichten, Schulnoten und Maklernetzwerke. Wer diese Daten nicht systematisch erfasst, trifft Entscheidungen auf der Grundlage von Stichproben statt von Volkszählungen. Für PropTech-Startups, iBuyer-Plattformen und Immobilienanalysten bedeutet das: Wer nicht scrapet, sieht nur einen Bruchteil des Marktes.
Das Problem? Die großen Portale wissen, dass ihre Daten wertvoll sind. Zillow blockiert datacenter IPs innerhalb weniger Requests. Rightmove setzt aggressive Rate-Limiting und CAPTCHA-Systeme ein. ImmoScout24 hat sein Anti-Bot-Framework 2023 deutlich verschärft. Wer mit naiven Ansätzen scrapen will, scheitert an der Infrastruktur — nicht an der Datenmenge.
Dieser Leitfaden zeigt Ihnen, welche Portale welche Daten bieten, wie Sie eine rechtssichere und technische robuste Crawling-Architektur aufbauen und wie Sie den ROI Ihres Daten-Investments berechnen.
Portale nach Region: Wer hat welche Daten?
Die Qualität und Tiefe der verfügbaren Daten variiert stark zwischen den Plattformen und Regionen. Die folgende Übersicht zeigt die wichtigsten Portale und ihre Datenfelder:
| Portal | Region | Listings/Monat (geschätzt) | Anti-Bot-Stärke | Datentiefe |
|---|---|---|---|---|
| Zillow | US | ~35 Mio. | Sehr hoch | Sehr hoch (Zestimate, Preisverlauf, Schulnoten) |
| Realtor.com | US | ~20 Mio. | Hoch | Hoch (MLS-syndiziert) |
| Redfin | US | ~8 Mio. | Mittel-hoch | Hoch (Zeitstempel, Historie) |
| Rightmove | UK | ~12 Mio. | Sehr hoch | Mittel-hoch |
| Zoopla | UK | ~6 Mio. | Mittel | Mittel |
| ImmoScout24 | DE/AT/CH | ~4 Mio. | Hoch | Hoch (Energetik, Maklerdaten) |
| LeBonCoin | FR | ~2 Mio. | Mittel | Mittel (keine Preis-Historie) |
US-Markt: Zillow, Realtor.com, Redfin
Zillow bietet die reichhaltigsten Daten: den Zestimate (automatisierte Schätzung), vollständige Preisverläufe, Schulnoten von GreatSchools, Walk-Scores und Verkaufs-Historien. Realtor.com profitiert von direkten MLS-Feeds und bietet oft aktuellere Listings. Redfin glänzt mit präzisen Zeitstempeln — wann ein Listing online ging, wann der Preis geändert wurde, wann es verkauft wurde.
Alle drei Portale setzen Cloudflare, Akamai oder proprietäre Bot-Defense-Lösungen ein. Datacenter-IPs werden in der Regel innerhalb von 5–20 Requests blockiert.
UK-Markt: Rightmove und Zoopla
Rightmove dominiert den britischen Markt mit über 80 % Marktanteil. Die Datenstruktur ist konsistent, aber das Portal blockiert aggressiv — IP-basiertes Rate-Limiting, JavaScript-Challenges und Fingerprinting gehören zum Standard. Zoopla ist leichter zu scrapen, bietet aber weniger historische Daten.
DACH-Markt: ImmoScout24
ImmoScout24 ist der Gatekeeper für den deutschsprachigen Immobilienmarkt. Das Portal bietet detaillierte Energieausweise, Miet- und Kaufpreise, Maklerinformationen und Immobilienbeschreibungen. Seit 2023 setzt ImmoScout24 auf ein verschärftes Anti-Scraping-Framework, das Headless-Browser erkennt und IP-Reputationsscores nutzt.
Frankreich: LeBonCoin
LeBonCoin ist Frankreichs größtes Kleinanzeigenportal mit einer bedeutenden Immobilien-Sparte. Die Datentiefe ist moderat — Preisverläufe fehlen weitgehend, aber aktuelle Listings, Beschreibungen und Fotos sind vollständig verfügbar. Die Anti-Bot-Maßnahmen sind im Vergleich zu Zillow oder Rightmove moderat.
Welche Datenfelder sind zugänglich?
Nicht jedes Feld ist auf jedem Portal verfügbar. Hier eine Übersicht der strategisch wichtigsten Datenpunkte:
- Listing-Metadaten: Adresse, Quadratmeter, Zimmer, Baujahr, Zustand — auf allen Portalen verfügbar.
- Preis und Preisverlauf: Aktueller Preis plus historische Preisänderungen — verfügbar auf Zillow, Redfin, Realtor.com und ImmoScout24. Fehlt auf LeBonCoin.
- Schulnoten: GreatSchools-Ratings direkt in Zillow-Listings eingebettet. Für UK-Portale separat über Ofsted-Datenbanken ermittelbar.
- Fotos: Hochauflösende Bilder auf allen Portalen, aber CDN-URLs ändern sich häufig. Deduplizierung über Hash-Werte empfohlen.
- Maklerdaten: Name, Telefon, Büro-Zugehörigkeit — auf den meisten Portalen, aber oft hinter Login-Walls oder dynamisch geladen.
- Time-on-Market: Verweildauer auf dem Markt — direkt auf Redfin, über Zeitstempel auf Zillow ableitbar, auf ImmoScout24 über Erstellt-Datum ermittelbar.
Warum residential Proxys unverzichtbar sind
Wenn Sie Zillow mit einer datacenter IP ansprechen, erhalten Sie nach wenigen Requests einen 403-Fehler oder ein CAPTCHA. Dasselbe gilt für Rightmove und zunehmend für ImmoScout24. Der Grund ist einfach: Diese Portale klassifizieren datacenter IPs als Bot-Traffic.
Residential Proxys lösen dieses Problem, weil sie echte ISP-IP-Adressen verwenden. Der Traffic sieht aus wie normaler Nutzer-Traffic — weil er aus echten Wohn- und Mobilfunknetzen kommt. Das bedeutet:
- Keine IP-basierten Blocks — Ihre Requests werden wie regulärer Traffic behandelt.
- Geo-Targeting — Sie können gezielt IPs aus den USA, UK, Deutschland oder Frankreich verwenden, um länderspezifische Inhalte zu erhalten.
- Rotierende IPs — Jeder Request kann von einer anderen IP kommen, was Rate-Limiting umgeht.
- Sticky Sessions — Für Login-basierte Scraping-Sessions können Sie eine IP für bis zu 30 Minuten halten.
Praxis-Tipp: Starten Sie mit rotierenden residential Proxys für Listing-Discovery (Suchergebnisseiten) und nutzen Sie sticky Sessions für Detailseiten, die mehrere Requests benötigen.
Hier ein minimales Beispiel für Zillow-Scraping mit ProxyHat residential Proxys in Python:
import requests
proxies = {
"http": "http://user-country-US:PASSWORD@gate.proxyhat.com:8080",
"https": "http://user-country-US:PASSWORD@gate.proxyhat.com:8080",
}
headers = {
"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36",
"Accept-Language": "en-US,en;q=0.9",
}
resp = requests.get(
"https://www.zillow.com/new-york-ny/",
headers=headers,
proxies=proxies,
timeout=30,
)
print(resp.status_code, len(resp.text))
Für Rightmove ersetzen Sie country-US durch country-GB, für ImmoScout24 durch country-DE:
# Rightmove mit UK-IP
proxies = {
"http": "http://user-country-GB:PASSWORD@gate.proxyhat.com:8080",
"https": "http://user-country-GB:PASSWORD@gate.proxyhat.com:8080",
}
Architektur: Eine skalierbare Immobilien-Datenpipeline
Eine produktionsreife Architektur für Immobilien-Scraping besteht aus fünf Kernkomponenten. Jede Komponente muss eigenständig skalierbar sein, weil das Volumen schnell wächst — ein einzelner Zillow-Crawl kann Millionen von Listings umfassen.
1. Geo-verteiltes Crawling
Verteilen Sie Ihre Crawler über mehrere Regionen. Nutzen Sie US-IPs für Zillow, UK-IPs für Rightmove, DE-IPs für ImmoScout24. Das verhindert nicht nur Blocks, sondern stellt auch sicher, dass Sie länderspezifische Inhalte erhalten — manche Portale zeigen regionale Preise oder lokalisierte Beschreibungen nur für inländische IPs an.
ProxyHat ermöglicht Stadt-Level-Targeting:
user-country-US-city-newyork— New Yorker IP für Zillow NYC-Datenuser-country-GB-city-london— Londoner IP für Rightmoveuser-country-DE-city-berlin— Berliner IP für ImmoScout24
2. Listing-Deduplizierung
Doppelte Listings sind das größte Datenqualitätsproblem. Ein Listing kann auf Zillow, Realtor.com und Redfin gleichzeitig erscheinen — mit leicht unterschiedlichen Daten. Strategie:
- Primärschlüssel: Kombinieren Sie Adresse (normalisiert) + Quadratmeter + Listing-Typ als eindeutigen Schlüssel.
- Quell-Tracking: Speichern Sie die Portal-ID und das Quell-Portal für jedes Listing.
- Konfliktlösung: Bei abweichenden Preisen den aktuellsten Timestamp bevorzugen.
3. Preisverlauf-Tracking
Preisänderungen sind für iBuyer-Modelle und Marktanalysen essenziell. Scrapen Sie nicht nur den aktuellen Preis, sondern tracken Sie jede Änderung:
- Tägliches Polling der Detailseiten für aktive Listings.
- Speicherung von (listing_id, alter_preis, neuer_preis, timestamp) in einer Zeitreihen-DB.
- Alert bei Preisänderungen > 5 % für Deal-Finding.
4>Photo-Asset-Storage
Immobilienfotos sind wertvoll für ML-Modelle (Zustandsbewertung, Renovierungsbedarf), aber speicherintensiv. Empfohlene Architektur:
- Download in einen Object Store (S3, GCS).
- Deduplizierung über perceptual Hashing (pHash).
- Metadaten-DB verknüpft Foto-URLs mit Listing-IDs und Download-Timestamps.
- Erwartetes Volumen: ~20 Fotos pro Listing × 5 Mio. Listings = 100 Mio. Fotos = ~50 TB.
5. Monitoring und Alerting
Tracken Sie für jedes Portal: Erfolgsrate, durchschnittliche Latenz, CAPTCHA-Rate und Block-Rate. Wenn die Erfolgsrate unter 85 % fällt, alarmieren Sie — und passen Sie die Request-Rate oder Proxy-Strategie an.
Rechtlicher Rahmen: Was ist erlaubt?
Rechtliches Compliance ist kein Optional — es ist ein existenzielles Risiko für jeden PropTech. Hier die Kernpunkte:
Öffentliche Daten vs. ToS
In den USA hat hiQ Labs vs. LinkedIn (9th Circuit, 2022) bestätigt, dass das Scraping öffentlich zugänglicher Daten nicht gegen den CFAA verstößt. Aber: Die AGB (Terms of Service) der Portale verbieten Scraping ausdrücklich. Das bedeutet:
- Zillow ToS: Ausdrückliches Verbot von Scraping. Zillow hat in der Vergangenheit rechtlich gegen Scraper vorgegangen.
- Rightmove ToS: Kommerzielles Scraping untersagt. Rightmove hat 2022 einen Scraping-Fall gegen ein PropTech gewonnen.
- ImmoScout24 ToS: Automatisierte Datenerhebung untersagt. Zugangserschwerungsgesetz (Deutschland) kann bei Umgehung von Schutzmaßnahmen gelten.
- LeBonCoin ToS: Scraping untersagt, aber Durchsetzung weniger aggressiv.
MLS-Daten über syndizierte Feeds
Eine rechtlich sicherere Alternative: MLS-Daten über offizielle Feeds beziehen. Viele MLS-Verbände bieten Datenfeeds für lizenzierte Broker an. Die Einschränkung: Sie benötigen eine Broker-Lizenz oder einen Datenvertrag. Der Vorteil: Rechtlich saubere, strukturierte Daten ohne Scraping-Risiko.
GDPR und DSGVO
Für europäische Portale gilt die DSGVO. Personenbezogene Daten (Makler-Telefonnummern, Namen) unterliegen strengen Regeln:
- Rechtsgrundlage: Berechtigtes Interesse (Art. 6 Abs. 1 lit. f DSGVO) für marktweite Analysen möglich, aber Einzelfallprüfung nötig.
- Datenminimierung: Nur Daten erheben, die für den Zweck erforderlich sind.
- Löschpflicht: Auf Anforderung Daten löschen.
Empfehlung: Konsultieren Sie einen datenschutzrechtlichen Berater, bevor Sie europäische Portale scrapen. Die rechtlichen Risiken sind real — Rightmove hat Präzedenzfälle geschaffen.
Use Cases mit ROI-Berechnung
Use Case 1: Investor Deal-Finding
Ein US-Immobilieninvestor sucht unterbewertete Properties in 50 Märkten. Manuelle Recherche: 40 Stunden/Woche für 2 Analysten = ~160.000 €/Jahr.
Automatisierte Lösung:
- Tägliches Scraping von Zillow + Realtor.com für 50 Märkte.
- ~200.000 Listings/Tag, davon 5 % Preisänderungen = 10.000 relevante Updates.
- Proxy-Kosten: ~800 €/Monat für residential Proxys.
- Infrastruktur: ~500 €/Monat (Server, DB, Monitoring).
- Gesamtkosten: ~15.600 €/Jahr.
- Einsparung: ~144.400 €/Jahr — plus die Tatsache, dass maschinelles Scraping 100 % des Marktes abdeckt, während manuelle Recherche ~5 % erfasst.
Use Case 2: Markt-Analytics-Plattform
Ein PropTech baut eine SaaS-Plattform für Immobilienmarkt-Analysen in Deutschland. Datenquellen: ImmoScout24 + LeBonCoin (für grenznahe Gebiete) + öffentliche Bodenrichtwerte.
- ~500.000 aktive Listings im monatlichen Crawl-Zyklus.
- Preisverlauf-Tracking für 200.000 Listings.
- Proxy-Kosten: ~1.200 €/Monat (DE + FR residential IPs).
- SaaS-Einnahmen: 50 Kunden × 200 €/Monat = 10.000 €/Monat.
- ROI nach 3 Monaten: 8,3x — die Proxy-Kosten sind vernachlässigbar gegenüber dem Datenwert.
Use Case 3: iBuyer-Preismodellierung
iBuyer-Unternehmen benötigen hochfrequente Preisdaten, um Kaufangebote innerhalb von 24 Stunden zu erstellen. Jedes Prozentpunkt Fehlermarge kostet Millionen.
- Tägliches Scraping von Zillow, Redfin, Realtor.com für Zielmärkte.
- Preisverlauf + Time-on-Market + Schulnoten + Fotos als Features.
- ~2 Mio. Requests/Tag über residential Proxys.
- Proxy-Kosten: ~3.000 €/Monat.
- Ein einziger vermiedener Fehlkauf spart > 50.000 €.
Build vs. Buy: Die Infrastruktur-Entscheidung
Viele Teams verschwenden Monate damit, eine Proxy-Infrastruktur selbst aufzubauen. Die Realität:
| Kriterium | Selbst aufgebaut | ProxyHat |
|---|---|---|
| Time-to-Production | 3–6 Monate | 1–2 Tage |
| IP-Pool-Größe | 10.000–100.000 (fragil) | 10 Mio+ residential IPs |
| Geo-Targeting | Aufwendig, fehleranfällig | Land + Stadt-Level |
| IP-Rotation | Selbst implementieren | Per-Request oder sticky |
| Wartungsaufwand | Kontinuierlich (IP-Churn, Blocks) | Keiner (ProxyHat managed) |
| Kosten (monatlich) | 2.000–10.000 € (Personal + Infra) | Skaliert mit Nutzung |
Die Entscheidung ist klar: Kaufen Sie die Proxy-Infrastruktur und bauen Sie das, was Ihren Wettbewerbsvorteil ausmacht — Ihre Datenmodelle, Ihre Analysen, Ihre Produkterfahrung.
Key Takeaways
- Residential Proxys sind nicht optional — Zillow, Rightmove und ImmoScout24 blockieren datacenter IPs aggressiv. Ohne residential IPs kein skalierbares Scraping.
- Geo-Targeting ist entscheidend — Nutzen Sie länderspezifische IPs, um länderspezifische Inhalte zu erhalten und Blocks zu vermeiden.
- Deduplizierung und Preisverlauf-Tracking sind die wertvollsten Datenpipelines — nicht das aktuelle Listing, sondern die Veränderung über Zeit.
- Rechtliches Compliance ist ein Business-Risk — die ToS der Portale verbieten Scraping. MLS-Feeds sind die rechtssichere Alternative, wenn verfügbar.
- Der ROI ist messbar — Proxy-Kosten von 800–3.000 €/Monat stehen Einsparungen von 100.000+ €/Jahr gegenüber.
- Build vs. Buy — Proxy-Infrastruktur kaufen (z. B. ProxyHat), Datenmodelle selbst bauen.
Nächste Schritte
Wenn Sie eine Immobilien-Datenpipeline aufbauen wollen, starten Sie mit einem Pilot: ein Portal, eine Region, 1.000 Listings. Validieren Sie die Datenqualität, messen Sie die Erfolgsrate und berechnen Sie den ROI. ProxyHat bietet residential Proxys mit Land- und Stadt-Level-Targeting — starten Sie jetzt.
Weiterführende Ressourcen:
- Web Scraping Best Practices — technische Grundlagen
- Web Scraping Use Cases — Branchenübersicht
- Proxy-Standorte — verfügbare Länder und Städte






