Immobilien-Scraping: Der strategische Leitfaden für PropTech-Teams

Zillow, Rightmove und ImmoScout24 aktiv blockieren — erfahren Sie, wie PropTech-Teams mit residential Proxys skalierbare Datenpipelines aufbauen, rechtssicher bleiben und den ROI maximieren.

Immobilien-Scraping: Der strategische Leitfaden für PropTech-Teams

Warum Immobilien-Scraping für PropTechs zur Pflicht wird

Der weltweite Immobilienmarkt generiert jährlich Daten im Petabyte-Bereich — Preisentwicklungen, Verweildauern, Angebotsdichten, Schulnoten und Maklernetzwerke. Wer diese Daten nicht systematisch erfasst, trifft Entscheidungen auf der Grundlage von Stichproben statt von Volkszählungen. Für PropTech-Startups, iBuyer-Plattformen und Immobilienanalysten bedeutet das: Wer nicht scrapet, sieht nur einen Bruchteil des Marktes.

Das Problem? Die großen Portale wissen, dass ihre Daten wertvoll sind. Zillow blockiert datacenter IPs innerhalb weniger Requests. Rightmove setzt aggressive Rate-Limiting und CAPTCHA-Systeme ein. ImmoScout24 hat sein Anti-Bot-Framework 2023 deutlich verschärft. Wer mit naiven Ansätzen scrapen will, scheitert an der Infrastruktur — nicht an der Datenmenge.

Dieser Leitfaden zeigt Ihnen, welche Portale welche Daten bieten, wie Sie eine rechtssichere und technische robuste Crawling-Architektur aufbauen und wie Sie den ROI Ihres Daten-Investments berechnen.

Portale nach Region: Wer hat welche Daten?

Die Qualität und Tiefe der verfügbaren Daten variiert stark zwischen den Plattformen und Regionen. Die folgende Übersicht zeigt die wichtigsten Portale und ihre Datenfelder:

Portal Region Listings/Monat (geschätzt) Anti-Bot-Stärke Datentiefe
ZillowUS~35 Mio.Sehr hochSehr hoch (Zestimate, Preisverlauf, Schulnoten)
Realtor.comUS~20 Mio.HochHoch (MLS-syndiziert)
RedfinUS~8 Mio.Mittel-hochHoch (Zeitstempel, Historie)
RightmoveUK~12 Mio.Sehr hochMittel-hoch
ZooplaUK~6 Mio.MittelMittel
ImmoScout24DE/AT/CH~4 Mio.HochHoch (Energetik, Maklerdaten)
LeBonCoinFR~2 Mio.MittelMittel (keine Preis-Historie)

US-Markt: Zillow, Realtor.com, Redfin

Zillow bietet die reichhaltigsten Daten: den Zestimate (automatisierte Schätzung), vollständige Preisverläufe, Schulnoten von GreatSchools, Walk-Scores und Verkaufs-Historien. Realtor.com profitiert von direkten MLS-Feeds und bietet oft aktuellere Listings. Redfin glänzt mit präzisen Zeitstempeln — wann ein Listing online ging, wann der Preis geändert wurde, wann es verkauft wurde.

Alle drei Portale setzen Cloudflare, Akamai oder proprietäre Bot-Defense-Lösungen ein. Datacenter-IPs werden in der Regel innerhalb von 5–20 Requests blockiert.

UK-Markt: Rightmove und Zoopla

Rightmove dominiert den britischen Markt mit über 80 % Marktanteil. Die Datenstruktur ist konsistent, aber das Portal blockiert aggressiv — IP-basiertes Rate-Limiting, JavaScript-Challenges und Fingerprinting gehören zum Standard. Zoopla ist leichter zu scrapen, bietet aber weniger historische Daten.

DACH-Markt: ImmoScout24

ImmoScout24 ist der Gatekeeper für den deutschsprachigen Immobilienmarkt. Das Portal bietet detaillierte Energieausweise, Miet- und Kaufpreise, Maklerinformationen und Immobilienbeschreibungen. Seit 2023 setzt ImmoScout24 auf ein verschärftes Anti-Scraping-Framework, das Headless-Browser erkennt und IP-Reputationsscores nutzt.

Frankreich: LeBonCoin

LeBonCoin ist Frankreichs größtes Kleinanzeigenportal mit einer bedeutenden Immobilien-Sparte. Die Datentiefe ist moderat — Preisverläufe fehlen weitgehend, aber aktuelle Listings, Beschreibungen und Fotos sind vollständig verfügbar. Die Anti-Bot-Maßnahmen sind im Vergleich zu Zillow oder Rightmove moderat.

Welche Datenfelder sind zugänglich?

Nicht jedes Feld ist auf jedem Portal verfügbar. Hier eine Übersicht der strategisch wichtigsten Datenpunkte:

  • Listing-Metadaten: Adresse, Quadratmeter, Zimmer, Baujahr, Zustand — auf allen Portalen verfügbar.
  • Preis und Preisverlauf: Aktueller Preis plus historische Preisänderungen — verfügbar auf Zillow, Redfin, Realtor.com und ImmoScout24. Fehlt auf LeBonCoin.
  • Schulnoten: GreatSchools-Ratings direkt in Zillow-Listings eingebettet. Für UK-Portale separat über Ofsted-Datenbanken ermittelbar.
  • Fotos: Hochauflösende Bilder auf allen Portalen, aber CDN-URLs ändern sich häufig. Deduplizierung über Hash-Werte empfohlen.
  • Maklerdaten: Name, Telefon, Büro-Zugehörigkeit — auf den meisten Portalen, aber oft hinter Login-Walls oder dynamisch geladen.
  • Time-on-Market: Verweildauer auf dem Markt — direkt auf Redfin, über Zeitstempel auf Zillow ableitbar, auf ImmoScout24 über Erstellt-Datum ermittelbar.

Warum residential Proxys unverzichtbar sind

Wenn Sie Zillow mit einer datacenter IP ansprechen, erhalten Sie nach wenigen Requests einen 403-Fehler oder ein CAPTCHA. Dasselbe gilt für Rightmove und zunehmend für ImmoScout24. Der Grund ist einfach: Diese Portale klassifizieren datacenter IPs als Bot-Traffic.

Residential Proxys lösen dieses Problem, weil sie echte ISP-IP-Adressen verwenden. Der Traffic sieht aus wie normaler Nutzer-Traffic — weil er aus echten Wohn- und Mobilfunknetzen kommt. Das bedeutet:

  • Keine IP-basierten Blocks — Ihre Requests werden wie regulärer Traffic behandelt.
  • Geo-Targeting — Sie können gezielt IPs aus den USA, UK, Deutschland oder Frankreich verwenden, um länderspezifische Inhalte zu erhalten.
  • Rotierende IPs — Jeder Request kann von einer anderen IP kommen, was Rate-Limiting umgeht.
  • Sticky Sessions — Für Login-basierte Scraping-Sessions können Sie eine IP für bis zu 30 Minuten halten.
Praxis-Tipp: Starten Sie mit rotierenden residential Proxys für Listing-Discovery (Suchergebnisseiten) und nutzen Sie sticky Sessions für Detailseiten, die mehrere Requests benötigen.

Hier ein minimales Beispiel für Zillow-Scraping mit ProxyHat residential Proxys in Python:

import requests

proxies = {
    "http": "http://user-country-US:PASSWORD@gate.proxyhat.com:8080",
    "https": "http://user-country-US:PASSWORD@gate.proxyhat.com:8080",
}

headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36",
    "Accept-Language": "en-US,en;q=0.9",
}

resp = requests.get(
    "https://www.zillow.com/new-york-ny/",
    headers=headers,
    proxies=proxies,
    timeout=30,
)
print(resp.status_code, len(resp.text))

Für Rightmove ersetzen Sie country-US durch country-GB, für ImmoScout24 durch country-DE:

# Rightmove mit UK-IP
proxies = {
    "http": "http://user-country-GB:PASSWORD@gate.proxyhat.com:8080",
    "https": "http://user-country-GB:PASSWORD@gate.proxyhat.com:8080",
}

Architektur: Eine skalierbare Immobilien-Datenpipeline

Eine produktionsreife Architektur für Immobilien-Scraping besteht aus fünf Kernkomponenten. Jede Komponente muss eigenständig skalierbar sein, weil das Volumen schnell wächst — ein einzelner Zillow-Crawl kann Millionen von Listings umfassen.

1. Geo-verteiltes Crawling

Verteilen Sie Ihre Crawler über mehrere Regionen. Nutzen Sie US-IPs für Zillow, UK-IPs für Rightmove, DE-IPs für ImmoScout24. Das verhindert nicht nur Blocks, sondern stellt auch sicher, dass Sie länderspezifische Inhalte erhalten — manche Portale zeigen regionale Preise oder lokalisierte Beschreibungen nur für inländische IPs an.

ProxyHat ermöglicht Stadt-Level-Targeting:

  • user-country-US-city-newyork — New Yorker IP für Zillow NYC-Daten
  • user-country-GB-city-london — Londoner IP für Rightmove
  • user-country-DE-city-berlin — Berliner IP für ImmoScout24

2. Listing-Deduplizierung

Doppelte Listings sind das größte Datenqualitätsproblem. Ein Listing kann auf Zillow, Realtor.com und Redfin gleichzeitig erscheinen — mit leicht unterschiedlichen Daten. Strategie:

  • Primärschlüssel: Kombinieren Sie Adresse (normalisiert) + Quadratmeter + Listing-Typ als eindeutigen Schlüssel.
  • Quell-Tracking: Speichern Sie die Portal-ID und das Quell-Portal für jedes Listing.
  • Konfliktlösung: Bei abweichenden Preisen den aktuellsten Timestamp bevorzugen.

3. Preisverlauf-Tracking

Preisänderungen sind für iBuyer-Modelle und Marktanalysen essenziell. Scrapen Sie nicht nur den aktuellen Preis, sondern tracken Sie jede Änderung:

  • Tägliches Polling der Detailseiten für aktive Listings.
  • Speicherung von (listing_id, alter_preis, neuer_preis, timestamp) in einer Zeitreihen-DB.
  • Alert bei Preisänderungen > 5 % für Deal-Finding.

4>Photo-Asset-Storage

Immobilienfotos sind wertvoll für ML-Modelle (Zustandsbewertung, Renovierungsbedarf), aber speicherintensiv. Empfohlene Architektur:

  • Download in einen Object Store (S3, GCS).
  • Deduplizierung über perceptual Hashing (pHash).
  • Metadaten-DB verknüpft Foto-URLs mit Listing-IDs und Download-Timestamps.
  • Erwartetes Volumen: ~20 Fotos pro Listing × 5 Mio. Listings = 100 Mio. Fotos = ~50 TB.

5. Monitoring und Alerting

Tracken Sie für jedes Portal: Erfolgsrate, durchschnittliche Latenz, CAPTCHA-Rate und Block-Rate. Wenn die Erfolgsrate unter 85 % fällt, alarmieren Sie — und passen Sie die Request-Rate oder Proxy-Strategie an.

Rechtlicher Rahmen: Was ist erlaubt?

Rechtliches Compliance ist kein Optional — es ist ein existenzielles Risiko für jeden PropTech. Hier die Kernpunkte:

Öffentliche Daten vs. ToS

In den USA hat hiQ Labs vs. LinkedIn (9th Circuit, 2022) bestätigt, dass das Scraping öffentlich zugänglicher Daten nicht gegen den CFAA verstößt. Aber: Die AGB (Terms of Service) der Portale verbieten Scraping ausdrücklich. Das bedeutet:

  • Zillow ToS: Ausdrückliches Verbot von Scraping. Zillow hat in der Vergangenheit rechtlich gegen Scraper vorgegangen.
  • Rightmove ToS: Kommerzielles Scraping untersagt. Rightmove hat 2022 einen Scraping-Fall gegen ein PropTech gewonnen.
  • ImmoScout24 ToS: Automatisierte Datenerhebung untersagt. Zugangserschwerungsgesetz (Deutschland) kann bei Umgehung von Schutzmaßnahmen gelten.
  • LeBonCoin ToS: Scraping untersagt, aber Durchsetzung weniger aggressiv.

MLS-Daten über syndizierte Feeds

Eine rechtlich sicherere Alternative: MLS-Daten über offizielle Feeds beziehen. Viele MLS-Verbände bieten Datenfeeds für lizenzierte Broker an. Die Einschränkung: Sie benötigen eine Broker-Lizenz oder einen Datenvertrag. Der Vorteil: Rechtlich saubere, strukturierte Daten ohne Scraping-Risiko.

GDPR und DSGVO

Für europäische Portale gilt die DSGVO. Personenbezogene Daten (Makler-Telefonnummern, Namen) unterliegen strengen Regeln:

  • Rechtsgrundlage: Berechtigtes Interesse (Art. 6 Abs. 1 lit. f DSGVO) für marktweite Analysen möglich, aber Einzelfallprüfung nötig.
  • Datenminimierung: Nur Daten erheben, die für den Zweck erforderlich sind.
  • Löschpflicht: Auf Anforderung Daten löschen.
Empfehlung: Konsultieren Sie einen datenschutzrechtlichen Berater, bevor Sie europäische Portale scrapen. Die rechtlichen Risiken sind real — Rightmove hat Präzedenzfälle geschaffen.

Use Cases mit ROI-Berechnung

Use Case 1: Investor Deal-Finding

Ein US-Immobilieninvestor sucht unterbewertete Properties in 50 Märkten. Manuelle Recherche: 40 Stunden/Woche für 2 Analysten = ~160.000 €/Jahr.

Automatisierte Lösung:

  • Tägliches Scraping von Zillow + Realtor.com für 50 Märkte.
  • ~200.000 Listings/Tag, davon 5 % Preisänderungen = 10.000 relevante Updates.
  • Proxy-Kosten: ~800 €/Monat für residential Proxys.
  • Infrastruktur: ~500 €/Monat (Server, DB, Monitoring).
  • Gesamtkosten: ~15.600 €/Jahr.
  • Einsparung: ~144.400 €/Jahr — plus die Tatsache, dass maschinelles Scraping 100 % des Marktes abdeckt, während manuelle Recherche ~5 % erfasst.

Use Case 2: Markt-Analytics-Plattform

Ein PropTech baut eine SaaS-Plattform für Immobilienmarkt-Analysen in Deutschland. Datenquellen: ImmoScout24 + LeBonCoin (für grenznahe Gebiete) + öffentliche Bodenrichtwerte.

  • ~500.000 aktive Listings im monatlichen Crawl-Zyklus.
  • Preisverlauf-Tracking für 200.000 Listings.
  • Proxy-Kosten: ~1.200 €/Monat (DE + FR residential IPs).
  • SaaS-Einnahmen: 50 Kunden × 200 €/Monat = 10.000 €/Monat.
  • ROI nach 3 Monaten: 8,3x — die Proxy-Kosten sind vernachlässigbar gegenüber dem Datenwert.

Use Case 3: iBuyer-Preismodellierung

iBuyer-Unternehmen benötigen hochfrequente Preisdaten, um Kaufangebote innerhalb von 24 Stunden zu erstellen. Jedes Prozentpunkt Fehlermarge kostet Millionen.

  • Tägliches Scraping von Zillow, Redfin, Realtor.com für Zielmärkte.
  • Preisverlauf + Time-on-Market + Schulnoten + Fotos als Features.
  • ~2 Mio. Requests/Tag über residential Proxys.
  • Proxy-Kosten: ~3.000 €/Monat.
  • Ein einziger vermiedener Fehlkauf spart > 50.000 €.

Build vs. Buy: Die Infrastruktur-Entscheidung

Viele Teams verschwenden Monate damit, eine Proxy-Infrastruktur selbst aufzubauen. Die Realität:

Kriterium Selbst aufgebaut ProxyHat
Time-to-Production3–6 Monate1–2 Tage
IP-Pool-Größe10.000–100.000 (fragil)10 Mio+ residential IPs
Geo-TargetingAufwendig, fehleranfälligLand + Stadt-Level
IP-RotationSelbst implementierenPer-Request oder sticky
WartungsaufwandKontinuierlich (IP-Churn, Blocks)Keiner (ProxyHat managed)
Kosten (monatlich)2.000–10.000 € (Personal + Infra)Skaliert mit Nutzung

Die Entscheidung ist klar: Kaufen Sie die Proxy-Infrastruktur und bauen Sie das, was Ihren Wettbewerbsvorteil ausmacht — Ihre Datenmodelle, Ihre Analysen, Ihre Produkterfahrung.

Key Takeaways

  • Residential Proxys sind nicht optional — Zillow, Rightmove und ImmoScout24 blockieren datacenter IPs aggressiv. Ohne residential IPs kein skalierbares Scraping.
  • Geo-Targeting ist entscheidend — Nutzen Sie länderspezifische IPs, um länderspezifische Inhalte zu erhalten und Blocks zu vermeiden.
  • Deduplizierung und Preisverlauf-Tracking sind die wertvollsten Datenpipelines — nicht das aktuelle Listing, sondern die Veränderung über Zeit.
  • Rechtliches Compliance ist ein Business-Risk — die ToS der Portale verbieten Scraping. MLS-Feeds sind die rechtssichere Alternative, wenn verfügbar.
  • Der ROI ist messbar — Proxy-Kosten von 800–3.000 €/Monat stehen Einsparungen von 100.000+ €/Jahr gegenüber.
  • Build vs. Buy — Proxy-Infrastruktur kaufen (z. B. ProxyHat), Datenmodelle selbst bauen.

Nächste Schritte

Wenn Sie eine Immobilien-Datenpipeline aufbauen wollen, starten Sie mit einem Pilot: ein Portal, eine Region, 1.000 Listings. Validieren Sie die Datenqualität, messen Sie die Erfolgsrate und berechnen Sie den ROI. ProxyHat bietet residential Proxys mit Land- und Stadt-Level-Targeting — starten Sie jetzt.

Weiterführende Ressourcen:

Bereit loszulegen?

Zugang zu über 50 Mio. Residential-IPs in über 148 Ländern mit KI-gesteuerter Filterung.

Preise ansehenResidential Proxies
← Zurück zum Blog