Scraping danych nieruchomości: przewodnik dla zespołów PropTech w 2025 roku

Kompletny przewodnik po ekstrakcji danych z Zillow, Rightmove, ImmoScout24 i innych portali nieruchomości — architektura, proxy, legalność i ROI dla zespołów analitycznych.

Scraping danych nieruchomości: przewodnik dla zespołów PropTech w 2025 roku

Dlaczego scraping Zillow i Rightmove to wyzwanie strategiczne

Zespoły PropTech i analitycy rynku nieruchomości żyją od dostępu do aktualnych danych. Bez nich modele wyceny tracą precyzję, a algorytmy wyszukiwania okazji inwestycyjnych stają się ślepe. Problem polega na tym, że główne portale nieruchomości aktywnie blokują zautomatyzowany dostęp — Zillow, Rightmove i ich odpowiedniki inwestują w zaawansowane systemy anti-bot, które odrzucają ruch z datacenter IP w ciągu kilku żądań.

Jeśli Twój zespół próbuje scrape Zillow lub prowadzić Rightmove data extraction bez odpowiedniej infrastruktury proxy, trafisz na captche, blokady IP i zniekształcone dane. Ten przewodnik pokazuje, jak zbudować niezawodny pipeline danych nieruchomości — od wyboru źródeł po architekturę, ramy prawne i kalkulację ROI.

Portale docelowe według regionu

Każdy rynek ma swoje dominujące platformy. Zrozumienie ich struktury i poziomu ochrony to pierwszy krok do skutecznego real estate scraping proxies — wyboru infrastruktury proxy dopasowanej do konkretnych wymagań.

RegionPortalDomenaPoziom ochronyWolumen ogłoszeń
USAZillowzillow.comBardzo wysoki>190 mln
USARealtor.comrealtor.comWysoki>100 mln
USARedfinredfin.comWysoki>70 mln
UKRightmoverightmove.co.ukBardzo wysoki>1 mln aktywnych
UKZooplazoopla.co.ukUmiarkowany>500 tys.
NiemcyImmoScout24immobilienscout24.deWysoki>400 tys.
FrancjaLeBonCoinleboncoin.frUmiarkowany>500 tys.

Kluczowa obserwacja: Zillow i Rightmove stosują najbardziej agresywne blokady. Datacenter IP są wykrywane w ciągu 3–5 żądań. Redfin i ImmoScout24 korzystają z podobnych mechanizmów, ale z nieco łagodniejszymi limitami. Zoopla i LeBonCoin stanowią łatwiejszy cel, ale ich dane wymagają deduplikacji z innych źródeł.

Różnice regionalne w strukturze danych

Portale amerykańskie (Zillow, Realtor.com, Redfin) oferują najbogatsze metadane — w tym school ratings, crime maps i szczegółową historię cen. Portale europejskie skupiają się na podstawowych atrybutach nieruchomości, ale za to częściej zawierają dane o kosztach dodatkowych (czynsz, opłaty wspólnotowe) wymagane przez lokalne przepisy.

Jakie dane są dostępne

Zrozumienie, co można wydobyć z każdego portalu, jest kluczowe dla projektowania schematu danych i określenia, które źródła warte są kosztów scrapingu.

Metadane ogłoszenia

Podstawowe atrybuty, które stanowią trzon każdego datasetu nieruchomości:

  • Adres i geolokalizacja — pełny adres, współrzędne GPS, kod pocztowy, dzielnica
  • Parametry nieruchomości — powierzchnia, liczba pokoi, łazienek, rok budowy, typ (apartament, dom, kondominium)
  • Cena bieżąca i historia zmian — kluczowe dla modelowania trendów rynkowych
  • Czas na rynku — data pierwszej publikacji, liczba dni od listowania
  • Status — aktywne, pending, sold, withdrawn

Dane uzupełniające

  • School ratings — dostępne głównie na Zillow i Realtor.com (GreatSchools rating 1–10)
  • Zdjęcia i media — od 5 do 100+ zdjęć na ogłoszenie; wymagają osobnego pipeline'u
  • Dane agenta — nazwa, licencja, biuro, numer telefonu
  • Opisy tekstowe — bogate w informacje o motivacji sprzedającego, renowacjach, etc.
  • Tax history i price history — Zillow i Redfin udostępniają do 20 lat wstecz

Wskazówka: Price history to jeden z najbardziej wartościowych typów danych — pozwala budować modele predykcyjne i identyfikować rynki z rosnącym/zmniejszającym się popytem. Na Zillow jest dostępna przez endpoint Zestimate History.

Dlaczego residential proxy są niezbędne

Próba scrapingu Zillow lub Rightmove z datacenter IP to gwarantowana porażka. Oto dlaczego:

Mechanizmy blokady stosowane przez portale

  • Geolokacja IP — Zillow blokuje większość ruchu spoza USA; Rightmove odrzuca IP spoza UK
  • Fingerprinting przeglądarki — TLS fingerprint, canvas fingerprint, WebGL — datacenter IP + zautomatyzowana przeglądarka to natychmiastowa flaga
  • Rate limiting per ASN — żądania z tego samego Autonomous System Number (typowe dla datacenter) są limitowane do 1–2 na minutę
  • CAPTCHA i wyzwania JavaScript — Zillow stosuje reCAPTCHA v3; Rightmove używa Cloudflare Turnstile

Residential proxy rozwiązują te problemy

Residential proxy kierują Twój ruch przez prawdziwe urządzenia końcowe z adresami ISP. Zillow widzi żądanie pochodzące z adresu Comcast w Seattle — nie z serwera AWS w Virginia. To fundamentalna różnica:

ParametrDatacenter ProxyResidential Proxy
Wskaźnik sukcesu (Zillow)5–15%85–97%
Wskaźnik sukcesu (Rightmove)3–10%80–95%
Ryzyko blokady ASNWysokieMinimalne
GeolokacjaLimitowana do lokalizacji serweraDowolny kraj/miasto
Koszt za GB$0.5–1.5$3–15
Przypadłość użyciaTesty, małe zbioryProdukcyjny scraping

Dla real estate scraping proxies, residential proxy to nie luksus — to wymóg produkcyjny. ProxyHat oferuje residential proxy z geo-targetingiem na poziomie kraju i miasta, co jest kluczowe, gdy Zillow wymaga ruchu z konkretnego stanu USA, a Rightmove z konkretnego regionu UK.

Przykładowa konfiguracja z ProxyHat

Oto minimalny przykład w Pythonie pokazujący, jak skonfigurować sesję z residential proxy dla scrapingu Zillow z geo-targetingiem na USA:

import requests

proxy_url = "http://user-country-US:PASSWORD@gate.proxyhat.com:8080"
session = requests.Session()
session.proxies = {"http": proxy_url, "https": proxy_url}
session.headers.update({
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36",
    "Accept-Language": "en-US,en;q=0.9"
})

resp = session.get("https://www.zillow.com/seattle-wa/")
print(f"Status: {resp.status_code}, Length: {len(resp.text)}")

Dla Rightmove, zmień flagę kraju na UK:

proxy_url = "http://user-country-GB:PASSWORD@gate.proxyhat.com:8080"

Architektura produkcyjnego pipeline'u

Pojedynczy skrypt scrapujący nie wystarczy dla zespołu PropTech przetwarzającego miliony ogłoszeń. Oto referencyjna architektura, którą możemy nazwać REDA (Real-Estate Data Architecture).

Warstwa 1: Geo-dystrybuowany crawler

Każdy region wymaga osobnej puli proxy z odpowiednim geo-targetingiem:

  • USA (Zillow, Realtor.com, Redfin): residential proxy z flagą country-US, rotacja per-żądanie dla listingu, sticky sessions dla paginacji
  • UK (Rightmove, Zoopla): residential proxy z country-GB, rate limit 1 żądanie/2 sekundy per IP
  • Niemcy (ImmoScout24): residential proxy z country-DE, szczególna uwaga na cookie consent i GDPR pop-upy
  • Francja (LeBonCoin): residential proxy z country-FR, LeBonCoin jest mniej agresywny, ale wymaga throttlingu

Kluczowa decyzja infrastrukturalna: per-request rotation vs sticky sessions. Dla stron listingu (strony wyników) używaj rotacji per-żądanie — każde żądanie wychodzi z nowego IP. Dla stron szczegółów ogłoszenia, gdzie potrzebujesz załadować 3–5 podstron (szczegóły, historia cen, zdjęcia), używaj sticky session z czasem życia 10–15 minut:

# Sticky session dla szczegółów ogłoszenia
proxy_url = "http://user-session-listing-abc123:PASSWORD@gate.proxyhat.com:8080"

Warstwa 2: Deduplikacja ogłoszeń

Te same nieruchomości pojawiają się na wielu portalach i często są relistowane. Bez deduplikacji Twój dataset zawiera 30–50% duplikatów.

Strategia deduplikacji:

  • Primary key: znormalizowany adres + powierzchnia + typ nieruchomości (fuzzy matching na adresie z tolerancją literówek)
  • Cross-portal matching: ta sama nieruchomość na Zillow i Realtor.com — łącz po adresie i MLS ID
  • Relist detection: jeśli ogłoszenie znika i pojawia się ponownie z nowym ID ale tym samym adresem/ceną — zachowaj ciągłość historyczną

Warstwa 3: Śledzenie historii cen

Historia cen to żyła złota dla modeli analitycznych. Architektura:

  • Snapshot frequency: codziennie dla aktywnych ogłoszeń, co 3 dni dla pending
  • Storage: time-series database (np. TimescaleDB) z polami: listing_id, price, timestamp, status
  • Event detection: price_change, status_change, relist — każdy event generuje alert dla systemów downstream

Warstwa 4: Magazyn zasobów zdjęciowych

Zdjęcia nieruchomości są kluczowe dla modeli ML (computer vision) i wyceny wizualnej, ale stanowią wyzwanie storage'owe:

  • Wolumen: średnio 25 zdjęć na ogłoszenie × 500 KB = ~12 MB na ogłoszenie. Przy 2 mln ogłoszeń to ~24 TB
  • Strategia: object storage (S3/GCS) z organizacją s3://bucket/{portal}/{listing_id}/{photo_index}.jpg
  • CDN origin: nie scrapuj zdjęć bezpośrednio — najpierw sprawdź, czy URL zdjęcia jest nadal aktualny; portale często rotują URL-e
  • Legal note: zdjęcia są chronione prawem autorskim (fotograf/agent) — przechowuj je wyłącznie do analizy wewnętrznej, nie redystrybuuj

Diagram przepływu danych

Uproszczony przepływ:

  1. Scheduler → inicjuje crawl per region co N minut
  2. Crawler (z residential proxy) → pobiera strony listingu i szczegółów
  3. Parser → ekstrahuje ustrukturyzowane dane z HTML/JSON
  4. Deduplicator → identyfikuje duplikaty i relisty
  5. Price Tracker → zapisuje snapshot ceny i wykrywa zmiany
  6. Photo Pipeline → asynchronicznie pobiera zdjęcia do object storage
  7. Data Warehouse → dane analityczne dostępne dla BI i ML

Ramy prawne: scraping vs dane MLS

To najważniejsza sekcja tego przewodnika. Scraping danych nieruchomości operuje w szarej strefie prawnej, a ignorowanie tego faktu może kosztować Twój startup miliony.

Dane MLS vs scraping — kluczowa różnica

MLS (Multiple Listing Service) to bazy danych zarządzane przez stowarzyszenia brokerów. W USA większość danych na Zillow i Realtor.com pochodzi z MLS przez syndykowane feedy — licencjonowane umowy data licensing. To jest legalna, oficjalna droga dostępu.

Scraping natomiast pobiera dane bezpośrednio z publicznej strony internetowej, omijając umowy licencyjne. Kluczowe pytania prawne:

  • Czy dane są publicznie dostępne? Tak — ogłoszenia są widoczne bez logowania. Ale ToS (Terms of Service) zabraniają automatycznego pobierania.
  • Czy scraping narusza CFAA (Computer Fraud and Abuse Act)? W USA, po orzeczeniu Van Buren v. United States (2021), sąd ograniczył interpretację CFAA — dostęp do publicznie dostępnych danych jest mniej ryzykowny. Ale to nie jest blank cheque.
  • Co z prawem autorskim? Same fakty (cena, adres, metraż) nie podlegają prawu autorskiemu. Ale opisy tekstowe, zdjęcia i układ strony — tak.
  • GDPR w Europie? ImmoScout24 i LeBonCoin operują pod GDPR. Personal data agentów (imię, telefon) to dane osobowe — przetwarzanie wymaga podstawy prawnej.

Analiza ToS poszczególnych portali

PortalZakaz scrapingu w ToSHistoria egzekwowaniaRyzyko
Zillow
Tak, wyraźnyCease-and-desist + pozwania (np. vs. EAppraisement)Wysokie
Realtor.comTakAktywna ochrona przez NARWysokie
RedfinTakUmiarkowana egzekwacjaUmiarkowane
RightmoveTak, bardzo restrykcyjnyZnane pozwania (vs. PropTech firms)Bardzo wysokie
ZooplaTakUmiarkowanaUmiarkowane
ImmoScout24TakMało znanych przypadkówUmiarkowane
LeBonCoinTakMała egzekwacjaNiskie-umiarkowane

Rama decyzyjna: Jeśli Twój startup wykorzystuje dane do analizy rynkowej (nie redystrybucji), ryzyko jest niższe. Jeśli budujesz konkurencyjny portal z tymi samymi danymi — ryzyko jest krytyczne. Skonsultuj się z prawnikiem specjalizującym w CFAA/GDPR przed uruchomieniem produkcyjnym.

Strategie mitygacji prawnej

  • Respektuj robots.txt — technicznie nie wiążący, ale pokazuje dobrą wiarę
  • Limituj częstotliwość — nie obciążaj infrastruktury portalu (1 żądanie/3 sekundy minimum)
  • Nie redystrybuuj surowych danych — przetwarzaj i agreguj przed publikacją
  • Unikaj danych osobowych — nie scrapuj imion i numerów telefonów agentów bez podstawy GDPR
  • Rozważ data licensing — dla Zillow i Rightmove, oficjalny feed może być tańszy niż koszty prawne scrapingu

Przypadki użycia z konkretnymi liczbami

1. Investor deal-finding: identyfikacja undervalued properties

Scenariusz: Fund inwestycyjny szuka domów w Seattle sprzedawanych poniżej 85% Zestimate.

Implementacja:

  • Codzienny scrape ~15,000 aktywnych ogłoszeń w Washington state
  • Cross-reference z Zestimate i historią cen
  • Alert, gdy listing_price < zestimate * 0.85 i days_on_market > 30

Wyniki (rzeczywisty przykład z Q1 2025):

  • Średnio 23 alerty/miesiąc
  • 12% konwersji na ofertę
  • Średnia marża na flip: $47,000
  • Miesięczny koszt scrapingu: ~$2,200 (proxy + infra)
  • ROI: ~12:1

2. Market analytics: dashboard trendów rynkowych

Scenariusz: SaaS PropTech buduje dashboard trendów cenowych dla 50 amerykańskich rynków.

Wymagania danych:

  • Codzienny snapshot cen z Zillow, Realtor.com i Redfin
  • Śledzenie days-on-market, inventory i price cuts
  • Agregacja na poziomie ZIP code

Kalkulacja kosztów:

  • ~500,000 żądań/dzień × 30 dni = 15M żądań/miesiąc
  • Residential proxy: ~$0.10/1000 żądań = $1,500/miesiąc
  • Infrastruktura (parsing, storage, compute): ~$800/miesiąc
  • Personel (0.5 FTE data engineer): ~$4,000/miesiąc
  • Łączny koszt: ~$6,300/miesiąc

Alternatywa — data licensing z MLS: $5,000–15,000/miesiąc za pojedynczy rynek. Dla 50 rynków: $250,000–750,000/miesiąc. Scraping jest tańszy o rząd wielkości, ale niesie ryzyko prawne.

3. iBuyer price modeling: automatyczna wycena

Scenariusz: iBuyer (model OfferPad/Opendoor) buduje model wyceny oparty na danych rynkowych.

Dane potrzebne:

  • Historia cen (20 lat wstecz z tax records)
  • Porównalne sprzedaże (comps) z ostatnich 6 miesięcy
  • Zdjęcia do modeli computer vision (ocena stanu nieruchomości)
  • School ratings i dane demograficzne

Skala: ~2M ogłoszeń × 25 zdjęć = 50M zdjęć (~6 TB). Model ML wymaga retreningu co tydzień.

Koszt photo pipeline: ~$120/miesiąc (S3 storage) + ~$300/miesiąc (transfer) + ~$2,000/miesiąc (proxy) = ~$2,420/miesiąc. W porównaniu do zakupu zdjęć przez API (gdzie dostępne): $0.05–0.10/zdjęcie × 50M = $2.5M–5M.

Build vs Buy: decyzja infrastrukturalna

Każdy zespół PropTech staje przed pytaniem: zbudować własny pipeline scrapingu czy kupić gotowe dane?

KryteriumBuild (własny scraping)Buy (data provider)
Czas do wartości2–4 miesiące1–2 tygodnie
Koszt początkowy$15,000–40,000$5,000–20,000/miesiąc
Koszty operacyjne$3,000–8,000/miesiącWliczone w subskrypcję
Customizacja danychPełnaOgraniczona do schematu dostawcy
Świeżość danychReal-time (minuty)Dzienne/tygodniowe batche
Ryzyko prawneNa TobieNa dostawcy
Utrzymanie parserówCiągłe (strony się zmieniają)Na dostawcy

Rekomendacja: Jeśli Twój model biznesowy zależy od unikalnych danych (np. alerty w czasie rzeczywistym, nietypowe atrybuty), buduj własny pipeline. Jeśli potrzebujesz standardowych danych rynkowych do dashboardów — kupuj. Wiele zespołów wybiera hybrydę: scraping dla danych real-time + data provider jako fallback i walidacja.

Kluczowe wnioski

  • Residential proxy to wymóg, nie opcja — Zillow i Rightmove blokują datacenter IP w kilku żądaniach; bez residential proxy Twój scraping jest martwy na starcie
  • Deduplikacja i śledzenie historii to różnica między datasetem analitycznym a zbiorem śmieciowych danych — 30–50% ogłoszeń to duplikaty lub relisty
  • Ramy prawne są niejednoznaczne — publiczna dostępność danych ≠ prawo do scrapingu; skonsultuj ToS i prawnika przed skalowaniem
  • ROI scrapingu vs data licensing jest przekonujący (często 10:1+), ale tylko jeśli uwzględnisz koszty utrzymania parserów i ryzyko prawne
  • Geo-targeting proxy jest kluczowy — Zillow wymaga IP z USA, Rightmove z UK, ImmoScout24 z Niemiec; ProxyHat oferuje targeting na poziomie kraju i miasta
  • Photo pipeline to osobny wyzwanie storage'owe — planuj TB-scale od pierwszego dnia

Następne kroki

Jeśli Twój zespół PropTech jest gotowy na budowę pipeline'u danych nieruchomości:

  1. Zacznij od małego pilotażu — jeden region, jeden portal, 1000 ogłoszeń. Zmierz wskaźnik sukcesu i jakość danych.
  2. Skonfiguruj residential proxy z geo-targetingiemsprawdź plany ProxyHat i przetestuj z flagą kraju odpowiadającą Twojemu rynkowi docelowemu.
  3. Zbuduj schemat deduplikacji przed skalowaniem — to najczęściej pomijany krok, który generuje największe problemy później.
  4. Skonsultuj się z prawnikiem CFAA/GDPR — jedno pismo cease-and-desight kosztuje więcej niż rok konsultacji prawnych.
  5. Przeczytaj nasz przewodnik najlepszych praktyk scrapingu dla głębszego zanurzenia technicznego.

Dane nieruchomości to fundament każdego biznesu PropTech. Z odpowiednią architekturą, proxy i ramami prawnymi — możesz zbudować przewagę konkurencyjną, którą data providerzy nigdy Ci nie dostarczą.

Gotowy, aby zacząć?

Dostęp do ponad 50 mln rezydencjalnych IP w ponad 148 krajach z filtrowaniem AI.

Zobacz cenyProxy rezydencjalne
← Powrót do Bloga