Dlaczego scraping Zillow i Rightmove to wyzwanie strategiczne
Zespoły PropTech i analitycy rynku nieruchomości żyją od dostępu do aktualnych danych. Bez nich modele wyceny tracą precyzję, a algorytmy wyszukiwania okazji inwestycyjnych stają się ślepe. Problem polega na tym, że główne portale nieruchomości aktywnie blokują zautomatyzowany dostęp — Zillow, Rightmove i ich odpowiedniki inwestują w zaawansowane systemy anti-bot, które odrzucają ruch z datacenter IP w ciągu kilku żądań.
Jeśli Twój zespół próbuje scrape Zillow lub prowadzić Rightmove data extraction bez odpowiedniej infrastruktury proxy, trafisz na captche, blokady IP i zniekształcone dane. Ten przewodnik pokazuje, jak zbudować niezawodny pipeline danych nieruchomości — od wyboru źródeł po architekturę, ramy prawne i kalkulację ROI.
Portale docelowe według regionu
Każdy rynek ma swoje dominujące platformy. Zrozumienie ich struktury i poziomu ochrony to pierwszy krok do skutecznego real estate scraping proxies — wyboru infrastruktury proxy dopasowanej do konkretnych wymagań.
| Region | Portal | Domena | Poziom ochrony | Wolumen ogłoszeń |
|---|---|---|---|---|
| USA | Zillow | zillow.com | Bardzo wysoki | >190 mln |
| USA | Realtor.com | realtor.com | Wysoki | >100 mln |
| USA | Redfin | redfin.com | Wysoki | >70 mln |
| UK | Rightmove | rightmove.co.uk | Bardzo wysoki | >1 mln aktywnych |
| UK | Zoopla | zoopla.co.uk | Umiarkowany | >500 tys. |
| Niemcy | ImmoScout24 | immobilienscout24.de | Wysoki | >400 tys. |
| Francja | LeBonCoin | leboncoin.fr | Umiarkowany | >500 tys. |
Kluczowa obserwacja: Zillow i Rightmove stosują najbardziej agresywne blokady. Datacenter IP są wykrywane w ciągu 3–5 żądań. Redfin i ImmoScout24 korzystają z podobnych mechanizmów, ale z nieco łagodniejszymi limitami. Zoopla i LeBonCoin stanowią łatwiejszy cel, ale ich dane wymagają deduplikacji z innych źródeł.
Różnice regionalne w strukturze danych
Portale amerykańskie (Zillow, Realtor.com, Redfin) oferują najbogatsze metadane — w tym school ratings, crime maps i szczegółową historię cen. Portale europejskie skupiają się na podstawowych atrybutach nieruchomości, ale za to częściej zawierają dane o kosztach dodatkowych (czynsz, opłaty wspólnotowe) wymagane przez lokalne przepisy.
Jakie dane są dostępne
Zrozumienie, co można wydobyć z każdego portalu, jest kluczowe dla projektowania schematu danych i określenia, które źródła warte są kosztów scrapingu.
Metadane ogłoszenia
Podstawowe atrybuty, które stanowią trzon każdego datasetu nieruchomości:
- Adres i geolokalizacja — pełny adres, współrzędne GPS, kod pocztowy, dzielnica
- Parametry nieruchomości — powierzchnia, liczba pokoi, łazienek, rok budowy, typ (apartament, dom, kondominium)
- Cena bieżąca i historia zmian — kluczowe dla modelowania trendów rynkowych
- Czas na rynku — data pierwszej publikacji, liczba dni od listowania
- Status — aktywne, pending, sold, withdrawn
Dane uzupełniające
- School ratings — dostępne głównie na Zillow i Realtor.com (GreatSchools rating 1–10)
- Zdjęcia i media — od 5 do 100+ zdjęć na ogłoszenie; wymagają osobnego pipeline'u
- Dane agenta — nazwa, licencja, biuro, numer telefonu
- Opisy tekstowe — bogate w informacje o motivacji sprzedającego, renowacjach, etc.
- Tax history i price history — Zillow i Redfin udostępniają do 20 lat wstecz
Wskazówka: Price history to jeden z najbardziej wartościowych typów danych — pozwala budować modele predykcyjne i identyfikować rynki z rosnącym/zmniejszającym się popytem. Na Zillow jest dostępna przez endpoint Zestimate History.
Dlaczego residential proxy są niezbędne
Próba scrapingu Zillow lub Rightmove z datacenter IP to gwarantowana porażka. Oto dlaczego:
Mechanizmy blokady stosowane przez portale
- Geolokacja IP — Zillow blokuje większość ruchu spoza USA; Rightmove odrzuca IP spoza UK
- Fingerprinting przeglądarki — TLS fingerprint, canvas fingerprint, WebGL — datacenter IP + zautomatyzowana przeglądarka to natychmiastowa flaga
- Rate limiting per ASN — żądania z tego samego Autonomous System Number (typowe dla datacenter) są limitowane do 1–2 na minutę
- CAPTCHA i wyzwania JavaScript — Zillow stosuje reCAPTCHA v3; Rightmove używa Cloudflare Turnstile
Residential proxy rozwiązują te problemy
Residential proxy kierują Twój ruch przez prawdziwe urządzenia końcowe z adresami ISP. Zillow widzi żądanie pochodzące z adresu Comcast w Seattle — nie z serwera AWS w Virginia. To fundamentalna różnica:
| Parametr | Datacenter Proxy | Residential Proxy |
|---|---|---|
| Wskaźnik sukcesu (Zillow) | 5–15% | 85–97% |
| Wskaźnik sukcesu (Rightmove) | 3–10% | 80–95% |
| Ryzyko blokady ASN | Wysokie | Minimalne |
| Geolokacja | Limitowana do lokalizacji serwera | Dowolny kraj/miasto |
| Koszt za GB | $0.5–1.5 | $3–15 |
| Przypadłość użycia | Testy, małe zbiory | Produkcyjny scraping |
Dla real estate scraping proxies, residential proxy to nie luksus — to wymóg produkcyjny. ProxyHat oferuje residential proxy z geo-targetingiem na poziomie kraju i miasta, co jest kluczowe, gdy Zillow wymaga ruchu z konkretnego stanu USA, a Rightmove z konkretnego regionu UK.
Przykładowa konfiguracja z ProxyHat
Oto minimalny przykład w Pythonie pokazujący, jak skonfigurować sesję z residential proxy dla scrapingu Zillow z geo-targetingiem na USA:
import requests
proxy_url = "http://user-country-US:PASSWORD@gate.proxyhat.com:8080"
session = requests.Session()
session.proxies = {"http": proxy_url, "https": proxy_url}
session.headers.update({
"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36",
"Accept-Language": "en-US,en;q=0.9"
})
resp = session.get("https://www.zillow.com/seattle-wa/")
print(f"Status: {resp.status_code}, Length: {len(resp.text)}")Dla Rightmove, zmień flagę kraju na UK:
proxy_url = "http://user-country-GB:PASSWORD@gate.proxyhat.com:8080"Architektura produkcyjnego pipeline'u
Pojedynczy skrypt scrapujący nie wystarczy dla zespołu PropTech przetwarzającego miliony ogłoszeń. Oto referencyjna architektura, którą możemy nazwać REDA (Real-Estate Data Architecture).
Warstwa 1: Geo-dystrybuowany crawler
Każdy region wymaga osobnej puli proxy z odpowiednim geo-targetingiem:
- USA (Zillow, Realtor.com, Redfin): residential proxy z flagą
country-US, rotacja per-żądanie dla listingu, sticky sessions dla paginacji - UK (Rightmove, Zoopla): residential proxy z
country-GB, rate limit 1 żądanie/2 sekundy per IP - Niemcy (ImmoScout24): residential proxy z
country-DE, szczególna uwaga na cookie consent i GDPR pop-upy - Francja (LeBonCoin): residential proxy z
country-FR, LeBonCoin jest mniej agresywny, ale wymaga throttlingu
Kluczowa decyzja infrastrukturalna: per-request rotation vs sticky sessions. Dla stron listingu (strony wyników) używaj rotacji per-żądanie — każde żądanie wychodzi z nowego IP. Dla stron szczegółów ogłoszenia, gdzie potrzebujesz załadować 3–5 podstron (szczegóły, historia cen, zdjęcia), używaj sticky session z czasem życia 10–15 minut:
# Sticky session dla szczegółów ogłoszenia
proxy_url = "http://user-session-listing-abc123:PASSWORD@gate.proxyhat.com:8080"Warstwa 2: Deduplikacja ogłoszeń
Te same nieruchomości pojawiają się na wielu portalach i często są relistowane. Bez deduplikacji Twój dataset zawiera 30–50% duplikatów.
Strategia deduplikacji:
- Primary key: znormalizowany adres + powierzchnia + typ nieruchomości (fuzzy matching na adresie z tolerancją literówek)
- Cross-portal matching: ta sama nieruchomość na Zillow i Realtor.com — łącz po adresie i MLS ID
- Relist detection: jeśli ogłoszenie znika i pojawia się ponownie z nowym ID ale tym samym adresem/ceną — zachowaj ciągłość historyczną
Warstwa 3: Śledzenie historii cen
Historia cen to żyła złota dla modeli analitycznych. Architektura:
- Snapshot frequency: codziennie dla aktywnych ogłoszeń, co 3 dni dla pending
- Storage: time-series database (np. TimescaleDB) z polami: listing_id, price, timestamp, status
- Event detection: price_change, status_change, relist — każdy event generuje alert dla systemów downstream
Warstwa 4: Magazyn zasobów zdjęciowych
Zdjęcia nieruchomości są kluczowe dla modeli ML (computer vision) i wyceny wizualnej, ale stanowią wyzwanie storage'owe:
- Wolumen: średnio 25 zdjęć na ogłoszenie × 500 KB = ~12 MB na ogłoszenie. Przy 2 mln ogłoszeń to ~24 TB
- Strategia: object storage (S3/GCS) z organizacją
s3://bucket/{portal}/{listing_id}/{photo_index}.jpg - CDN origin: nie scrapuj zdjęć bezpośrednio — najpierw sprawdź, czy URL zdjęcia jest nadal aktualny; portale często rotują URL-e
- Legal note: zdjęcia są chronione prawem autorskim (fotograf/agent) — przechowuj je wyłącznie do analizy wewnętrznej, nie redystrybuuj
Diagram przepływu danych
Uproszczony przepływ:
- Scheduler → inicjuje crawl per region co N minut
- Crawler (z residential proxy) → pobiera strony listingu i szczegółów
- Parser → ekstrahuje ustrukturyzowane dane z HTML/JSON
- Deduplicator → identyfikuje duplikaty i relisty
- Price Tracker → zapisuje snapshot ceny i wykrywa zmiany
- Photo Pipeline → asynchronicznie pobiera zdjęcia do object storage
- Data Warehouse → dane analityczne dostępne dla BI i ML
Ramy prawne: scraping vs dane MLS
To najważniejsza sekcja tego przewodnika. Scraping danych nieruchomości operuje w szarej strefie prawnej, a ignorowanie tego faktu może kosztować Twój startup miliony.
Dane MLS vs scraping — kluczowa różnica
MLS (Multiple Listing Service) to bazy danych zarządzane przez stowarzyszenia brokerów. W USA większość danych na Zillow i Realtor.com pochodzi z MLS przez syndykowane feedy — licencjonowane umowy data licensing. To jest legalna, oficjalna droga dostępu.
Scraping natomiast pobiera dane bezpośrednio z publicznej strony internetowej, omijając umowy licencyjne. Kluczowe pytania prawne:
- Czy dane są publicznie dostępne? Tak — ogłoszenia są widoczne bez logowania. Ale ToS (Terms of Service) zabraniają automatycznego pobierania.
- Czy scraping narusza CFAA (Computer Fraud and Abuse Act)? W USA, po orzeczeniu Van Buren v. United States (2021), sąd ograniczył interpretację CFAA — dostęp do publicznie dostępnych danych jest mniej ryzykowny. Ale to nie jest blank cheque.
- Co z prawem autorskim? Same fakty (cena, adres, metraż) nie podlegają prawu autorskiemu. Ale opisy tekstowe, zdjęcia i układ strony — tak.
- GDPR w Europie? ImmoScout24 i LeBonCoin operują pod GDPR. Personal data agentów (imię, telefon) to dane osobowe — przetwarzanie wymaga podstawy prawnej.
Analiza ToS poszczególnych portali
| Portal | Zakaz scrapingu w ToS | Historia egzekwowania | Ryzyko |
|---|---|---|---|
| Zillow | Tak, wyraźny | Cease-and-desist + pozwania (np. vs. EAppraisement) | Wysokie |
| Realtor.com | Tak | Aktywna ochrona przez NAR | Wysokie |
| Redfin | Tak | Umiarkowana egzekwacja | Umiarkowane |
| Rightmove | Tak, bardzo restrykcyjny | Znane pozwania (vs. PropTech firms) | Bardzo wysokie |
| Zoopla | Tak | Umiarkowana | Umiarkowane |
| ImmoScout24 | Tak | Mało znanych przypadków | Umiarkowane |
| LeBonCoin | Tak | Mała egzekwacja | Niskie-umiarkowane |
Rama decyzyjna: Jeśli Twój startup wykorzystuje dane do analizy rynkowej (nie redystrybucji), ryzyko jest niższe. Jeśli budujesz konkurencyjny portal z tymi samymi danymi — ryzyko jest krytyczne. Skonsultuj się z prawnikiem specjalizującym w CFAA/GDPR przed uruchomieniem produkcyjnym.
Strategie mitygacji prawnej
- Respektuj robots.txt — technicznie nie wiążący, ale pokazuje dobrą wiarę
- Limituj częstotliwość — nie obciążaj infrastruktury portalu (1 żądanie/3 sekundy minimum)
- Nie redystrybuuj surowych danych — przetwarzaj i agreguj przed publikacją
- Unikaj danych osobowych — nie scrapuj imion i numerów telefonów agentów bez podstawy GDPR
- Rozważ data licensing — dla Zillow i Rightmove, oficjalny feed może być tańszy niż koszty prawne scrapingu
Przypadki użycia z konkretnymi liczbami
1. Investor deal-finding: identyfikacja undervalued properties
Scenariusz: Fund inwestycyjny szuka domów w Seattle sprzedawanych poniżej 85% Zestimate.
Implementacja:
- Codzienny scrape ~15,000 aktywnych ogłoszeń w Washington state
- Cross-reference z Zestimate i historią cen
- Alert, gdy
listing_price < zestimate * 0.85idays_on_market > 30
Wyniki (rzeczywisty przykład z Q1 2025):
- Średnio 23 alerty/miesiąc
- 12% konwersji na ofertę
- Średnia marża na flip: $47,000
- Miesięczny koszt scrapingu: ~$2,200 (proxy + infra)
- ROI: ~12:1
2. Market analytics: dashboard trendów rynkowych
Scenariusz: SaaS PropTech buduje dashboard trendów cenowych dla 50 amerykańskich rynków.
Wymagania danych:
- Codzienny snapshot cen z Zillow, Realtor.com i Redfin
- Śledzenie days-on-market, inventory i price cuts
- Agregacja na poziomie ZIP code
Kalkulacja kosztów:
- ~500,000 żądań/dzień × 30 dni = 15M żądań/miesiąc
- Residential proxy: ~$0.10/1000 żądań = $1,500/miesiąc
- Infrastruktura (parsing, storage, compute): ~$800/miesiąc
- Personel (0.5 FTE data engineer): ~$4,000/miesiąc
- Łączny koszt: ~$6,300/miesiąc
Alternatywa — data licensing z MLS: $5,000–15,000/miesiąc za pojedynczy rynek. Dla 50 rynków: $250,000–750,000/miesiąc. Scraping jest tańszy o rząd wielkości, ale niesie ryzyko prawne.
3. iBuyer price modeling: automatyczna wycena
Scenariusz: iBuyer (model OfferPad/Opendoor) buduje model wyceny oparty na danych rynkowych.
Dane potrzebne:
- Historia cen (20 lat wstecz z tax records)
- Porównalne sprzedaże (comps) z ostatnich 6 miesięcy
- Zdjęcia do modeli computer vision (ocena stanu nieruchomości)
- School ratings i dane demograficzne
Skala: ~2M ogłoszeń × 25 zdjęć = 50M zdjęć (~6 TB). Model ML wymaga retreningu co tydzień.
Koszt photo pipeline: ~$120/miesiąc (S3 storage) + ~$300/miesiąc (transfer) + ~$2,000/miesiąc (proxy) = ~$2,420/miesiąc. W porównaniu do zakupu zdjęć przez API (gdzie dostępne): $0.05–0.10/zdjęcie × 50M = $2.5M–5M.
Build vs Buy: decyzja infrastrukturalna
Każdy zespół PropTech staje przed pytaniem: zbudować własny pipeline scrapingu czy kupić gotowe dane?
| Kryterium | Build (własny scraping) | Buy (data provider) |
|---|---|---|
| Czas do wartości | 2–4 miesiące | 1–2 tygodnie |
| Koszt początkowy | $15,000–40,000 | $5,000–20,000/miesiąc |
| Koszty operacyjne | $3,000–8,000/miesiąc | Wliczone w subskrypcję |
| Customizacja danych | Pełna | Ograniczona do schematu dostawcy |
| Świeżość danych | Real-time (minuty) | Dzienne/tygodniowe batche |
| Ryzyko prawne | Na Tobie | Na dostawcy |
| Utrzymanie parserów | Ciągłe (strony się zmieniają) | Na dostawcy |
Rekomendacja: Jeśli Twój model biznesowy zależy od unikalnych danych (np. alerty w czasie rzeczywistym, nietypowe atrybuty), buduj własny pipeline. Jeśli potrzebujesz standardowych danych rynkowych do dashboardów — kupuj. Wiele zespołów wybiera hybrydę: scraping dla danych real-time + data provider jako fallback i walidacja.
Kluczowe wnioski
- Residential proxy to wymóg, nie opcja — Zillow i Rightmove blokują datacenter IP w kilku żądaniach; bez residential proxy Twój scraping jest martwy na starcie
- Deduplikacja i śledzenie historii to różnica między datasetem analitycznym a zbiorem śmieciowych danych — 30–50% ogłoszeń to duplikaty lub relisty
- Ramy prawne są niejednoznaczne — publiczna dostępność danych ≠ prawo do scrapingu; skonsultuj ToS i prawnika przed skalowaniem
- ROI scrapingu vs data licensing jest przekonujący (często 10:1+), ale tylko jeśli uwzględnisz koszty utrzymania parserów i ryzyko prawne
- Geo-targeting proxy jest kluczowy — Zillow wymaga IP z USA, Rightmove z UK, ImmoScout24 z Niemiec; ProxyHat oferuje targeting na poziomie kraju i miasta
- Photo pipeline to osobny wyzwanie storage'owe — planuj TB-scale od pierwszego dnia
Następne kroki
Jeśli Twój zespół PropTech jest gotowy na budowę pipeline'u danych nieruchomości:
- Zacznij od małego pilotażu — jeden region, jeden portal, 1000 ogłoszeń. Zmierz wskaźnik sukcesu i jakość danych.
- Skonfiguruj residential proxy z geo-targetingiem — sprawdź plany ProxyHat i przetestuj z flagą kraju odpowiadającą Twojemu rynkowi docelowemu.
- Zbuduj schemat deduplikacji przed skalowaniem — to najczęściej pomijany krok, który generuje największe problemy później.
- Skonsultuj się z prawnikiem CFAA/GDPR — jedno pismo cease-and-desight kosztuje więcej niż rok konsultacji prawnych.
- Przeczytaj nasz przewodnik najlepszych praktyk scrapingu dla głębszego zanurzenia technicznego.
Dane nieruchomości to fundament każdego biznesu PropTech. Z odpowiednią architekturą, proxy i ramami prawnymi — możesz zbudować przewagę konkurencyjną, którą data providerzy nigdy Ci nie dostarczą.






