Neden Gayrimenkul Verisi Kazımak Zor?
PropTech ürünleri konut değerleme modelleri, pazar analitikleri ve yatırım keşif araçları için büyük miktarda ilan verisine ihtiyaç duyar. Ancak Zillow, Rightmove, ImmoScout24 gibi platformlar verilerini dışarıya açmaktan kaçınır; API'leri kısıtlıdır, fiyatları yüksektir ve çoğu durumda tamamen kapalıdır. Bu nedenle gayrimenkul veri kazıma (scraping) süreçleri, veri mühendisliği ekiplerinin gündeminde kalıcı bir yer edinir.
Sorun yalnızca erişim değil. Bu siteler datacenter IP'leri, yüksek istek hacmi ve bot benzeri davranışları agresif şekilde engeller. Zillow tek başında günlük milyonlarca bot isteği tespit ediyor ve blokluyor. Bu rehberde, hangi sitelerden hangi veriyi çıkarabileceğinizi, residential proxy'lerin neden vazgeçilmez olduğunu ve ölçeklenebilir bir mimariyi nasıl kuracağınızı adım adım ele alıyoruz.
Bölgelere Göre Hedef Platformlar
Gayrimenkul verisi toplamak küresel bir iştir, ancak her pazarın baskın platformları farklıdır. Aşağıda başlıca bölgeler ve o bölgede öne çıkan listing sitelerini bulabilirsiniz.
ABD: Zillow, Realtor.com, Redfin
Amerika pazarında üç büyük oyuncu hakimdir. Zillow en geniş envantere sahip olsa da anti-bot koruması en agresif olanıdır. Realtor.com MLS verisine doğrudan erişim iddiasıyla öne çıkar; Redfin ise daha az sayıda ilanla birlikte daha temiz veri yapısı sunar. Üç platform birden kazındığında cross-referencing (çapraz doğrulama) imkânı doğar.
İngiltere: Rightmove, Zoopla
Rightmove UK'nın açık ara en büyük platformudur ve datacenter IP'leri neredeyse anında engeller. Zoopla daha küçük envantre sahip olsa da veri yapısı daha düzenlidir. İki kaynağı birlikte kullanmak fiyat doğrulama için değerlidir.
Almanya: ImmoScout24
Almanya'nın baskın platformu ImmoScout24, hem satılık hem kiralık ilanlarda pazar lideridir. Cloudflare ve rate-limiting koruması güçlüdür; residential proxy olmadan uzun süreli kazıma neredeyse imkânsızdır.
Fransa: LeBonCoin
LeBonCoin, Fransa'nın en büyük genel ilan sitesidir ve gayrimenkul kategorisi çok aktiftir. CAPTCHA ve IP blokları sık karşılaşılan engellerdir.
| Platform | Bölge | Aylık Traffic (Tahmini) | Anti-Bot Seviyesi | Veri Zenginliği |
|---|---|---|---|---|
| Zillow | ABD | 200M+ | Çok Yüksek | Fiyat geçmişi, Zestimate, okul puanları |
| Realtor.com | ABD | 100M+ | Yüksek | MLS verisi, agent detayları |
| Redfin | ABD | 40M+ | Orta-Yüksek | Temiz veri, zaman çizelgesi |
| Rightmove | UK | 130M+ | Çok Yüksek | Fiyat düşüşleri, okul bilgileri |
| Zoopla | UK | 50M+ | Orta | Fiyat tahminleri, bölge analitiği |
| ImmoScout24 | DE | 30M+ | Yüksek | Almanya'nın en geniş envanteri |
| LeBonCoin | FR | 70M+ | Orta-Yüksek | Genel ilan, fiyat geçmişi sınırlı |
Hangi Veriye Erişebilirsiniz?
Her platform farklı veri alanları sunar. Kazıma öncesi, hangi veri noktalarının işinize yaradığını netleştirmek mimari kararları şekillendirir.
İlan Meta Verileri (Listing Metadata)
Adres, metrekare, oda sayısı, banyo sayısı, mülk tipi, inşaat yılı. Bu alanlar tüm platformlarda mevcuttur ve modelleme için temel girdilerdir.
Fiyat ve Fiyat Geçmişi
Aktarılan fiyat, önceki fiyat düşüşleri ve tarihsel satış verileri. Zillow ve Redfin fiyat geçmişini gösterirken, Rightmove ve LeBonCoin bu veriyi daha sınırlı sunar. Fiyat geçmişi, değerleme modellerinin en değerli girdilerinden biridir.
Okul Puanları ve Bölge Verileri
ABD platformları (özellikle Zillow ve Redfin) GreatSchools verilerini entegre eder. UK'da Ofsted puanları benzer işlevi görür. Bu veriler aile odaklı yatırım analizi için kritiktir.
Fotoğraflar ve Medya
İlan fotoğrafları, görsel AI modelleri (ev durumu sınıflandırma, iç mekan analizi) için girdi olarak kullanılabilir. Ancak fotoğrafların depolanması maliyet ve telif hakları açısından dikkat gerektirir.
Danışman (Agent) Verisi
Listeleme danışmanının adı, ofisi, iletişim bilgileri ve listeleme hacmi. Agent performans analizi veya pazar payı hesaplama için kullanılır.
Pazarda Kalma Süresi (Days on Market)
Bir ilanın ne kadar süredir yayında olduğu, pazarın sağlığını ölçen en önemli metriklerden biridir. Redfin bu veriyi açıkça sunar; diğer platformlarda fiyat geçmişi ve listeleme tarihinden türetilmesi gerekir.
Neden Residential Proxy'ler Zorunlu?
Zillow scrape işlemleri denediğinizde, datacenter IP adresleri genellikle ilk 50–100 istekte engellenir. Rightmove benzer şekilde datacenter IP bloklarını kara listeye almıştır. Bu engellerin temel nedenleri:
- IP itibar filtreleri: Datacenter IP aralıkları bilinen ASN'ler üzerinden tanınır ve otomatik engellenir.
- Rate-limiting: Aynı IP'den dakikada belirli bir eşik aşılırsa 429 veya 403 yanıtı gelir.
- CAPTCHA ve JS challenge: Şüpheli trafik Cloudflare veya PerimeterX aracılığıyla challenge sayfasına yönlendirilir.
- Behavioral analysis: Fare hareketi, scroll deseni ve oturum süresi gibi sinyaller analiz edilir.
Residential proxy'ler, gerçek ISP'lerden gelen IP adresleri sunduğu için bu filtreleri doğal olarak aşar. Hedef site, trafiği sıradan bir kullanıcıdan geliyor gibi algılar. Real estate scraping proxies seçerken dikkat etmeniz gereken kriterler:
- IP havuzu büyüklüğü: Dönen (rotating) havuzda ne kadar fazla IP varsa, tek bir IP'ye düşen yük o kadar azalır.
- Coğrafi hedefleme: ABD siteleri için ABD IP'leri, UK siteleri için UK IP'leri gereklidir. Yanlış ülke IP'si kullanmak, bölge kısıtlamalarına takılabilir.
- Oturum sürekliliği (sticky sessions): Çok sayfalı gezinme veya fiyat geçmişi kazıması için aynı IP'de kalabilmek önemlidir.
- Başarı oranı: Proxy sağlayıcınızın başarı oranı %95'in altına düşüyorsa, maliyet-fayat dengesi bozulur.
ProxyHat'ın residential ağı, 190+ ülkede coğrafi hedefleme sunar. ABD, UK, Almanya ve Fransa gibi gayrimenkul kazımasının yoğun olduğu pazarlarda şehir düzeyinde hedefleme mümkündür.
Mimari: Ölçeklenebilir Bir Gayrimenkul Veri Boru Hattı
Aşağıdaki mimari, çoklu platform ve çoklu bölge kazıması için tasarlanmış bir referanstır. Her bileşeni kendi ihtiyaçlarınıza göre uyarlayabilirsiniz.
1. Geo-Dağıtılmış Tarayıcı (Geo-Distributed Crawler)
Her bölge için ayrı bir crawler instance'ı çalıştırın. Zillow kazıması ABD IP'leriyle, Rightmove kazıması UK IP'leriyle yürütülür. Bu yaklaşım hem engellenme riskini azaltır hem de bölgeye özgü içerik farklılıklarını yakalar.
ProxyHat ile coğrafi hedefleme, kullanıcı adında ülke ve şehir parametresi geçirerek yapılır:
# ABD - Zillow kazıması için
http://user-country-US:password@gate.proxyhat.com:8080
# UK - Rightmove kazıması için
http://user-country-GB:password@gate.proxyhat.com:8080
# Almanya - ImmoScout24 kazıması için
http://user-country-DE-city-berlin:password@gate.proxyhat.com:8080
2. İlan Tekilleştirme (Listing Deduplication)
Farklı platformlar aynı mülkü farklı ID'lerle listeleyebilir. Zillow'daki bir ilan, Realtor.com'da farklı bir kimlikle görünebilir. Tekilleştirme için:
- Adres normalizasyonu: Sokak adı, numara ve posta kodunu standart formata çevirin.
- Fuzzy matching: Metrekare, oda sayısı ve fiyat gibi alanları çapraz doğrulayın.
- Master ID ataması: Tekilleştirilmiş her mülke benzersiz bir internal ID verin.
3. Fiyat Geçmişi Takibi
Fiyat geçmişi, zaman serisi analizi ve değerleme modellerinin temelidir. Her kazıma döngüsünde mevcut fiyatı kaydedin ve önceki değerlerle karşılaştırın. Değişim varsa price_history tablosuna yeni kayıt ekleyin. Bu yaklaşım, platformların fiyat geçmişi sunmadığı durumlarda bile kendi zaman serinizi oluşturmanızı sağlar.
4. Fotoğraf Varlık Depolama
İlan fotoğrafları, görsel AI ve kalite sınıflandırma modelleri için değerlidir. Ancak depolama maliyetleri hızla artar. Stratejik yaklaşım:
- İlk kazımada yalnızca thumbnail URL'lerini saklayın.
- İş modeli gerektirdiğinde (örn. interior quality scoring) tam çözünürlüklü görselleri asenkron indirin.
- S3 veya benzeri nesne depolama kullanın; dosya adında master listing ID'sini kullanın.
5. Zamanlama ve Orkestrasyon
Günlük kazıma, pazarlık gücü olan ekipler için yeterlidir. Ancak fiyat değişikliklerini gerçek zamanlı yakalamak istiyorsanız, saatlik döngüler veya webhook tabanlı tetikleyiciler gerekebilir. Apache Airflow, Prefect veya Dagster gibi araçlar orkestrasyon için uygundur.
Hukuki Çerçeve: MLS Verileri ve Site Kullanım Şartları
Gayrimenkul veri kazımasının hukuki boyutu karmaşıktır ve bu rehber hukuki tavsiye niteliği taşımaz. Ancak temel çerçeveyi anlamak risk yönetimi için kritiktir.
Public MLS Verisi ve Dağıtım (Syndication)
ABD'de MLS (Multiple Listing Service) verileri, brokerların katılımıyla oluşturulan kooperatif veritabanlarıdır. Zillow ve Realtor.com bu verileri MLS'den lisanslayarak alır. Bazı MLS'ler doğrudan veri erişimi sunar (örn. RESO Web API), ancak bu erişim genellikle broker lisansı ve ücret gerektirir.
Site Kullanım Şartları (ToS)
Hemen her platformun kullanım şartları, otomatik veri toplamayı açıkça yasaklar:
- Zillow: ToS'ta scraping yasağı var; ihlal durumunda hesap ve IP engellenir.
- Rightmove: Automated access yasaktır; CMA verisi için resmi API mevcuttur ancak kısıtlıdır.
- ImmoScout24: Alman telif ve veritabanı hakları (Urheberrecht, Datenbankrecht) kapsamında koruma altındadır.
- LeBonCoin: Fransa'da veri kazıma, CNIL düzenlemeleri ve DB hakları kapsamında değerlendirilir.
Uygulama Stratejileri
- Resmi API'leri önceliklendirin: Eğer bir platform API sunuyorsa, önce onu değerlendirin.
- Robots.txt'e saygı gösterin: Hukuki risk yönetiminin temel adımıdır.
- Kişisel veri (GDPR/CCPA): Agent iletişim bilgileri gibi kişisel verilerin işlenmesi, GDPR ve CCPA kapsamında özel değerlendirme gerektirir.
- Hukuki danışmanlık: Ölçekli operasyonlar için mutlaka hukuki danışmanlık alın.
Kullanım Senaryoları ve ROI Hesaplama
Senaryo 1: Yatırımcı Fırsat Bulma (Deal-Finding)
Bir PropTech startup'ı, piyasanın %10–15 altında listelenen mülkleri otomatik tespit etmek istiyor. Bu mülkler genellikle 24–48 saat içinde satılır; hız kritiktir.
Veri ihtiyacı: Günlük 50.000+ ilan güncellemesi, fiyat değişiklikeri, days-on-market.
ROI modeli: Ortalama fırsat mülk değeri $350K, komisyon veya spread %3 = $10,500. Ayda 3 anlaşma kapatıldığında $31,500 gelir. Veri altyapı maliyeti (proxy + sunucu + geliştirme) ayda ~$5,000. Net ROI: ~6.3x.
Senaryo 2: Pazar Analitik Platformu
B2B bir analitik platformu, bölge bazında fiyat trendleri, stok miktarı ve days-on-market metriklerini dashbord olarak sunuyor.
Veri ihtiyacı: 5 büyük ABD metrosunda günlük 200.000+ ilan, fiyat geçmişi, okul puanları.
ROI modeli: SaaS aboneliği müşteri başı $200/ay. 50 müşteri = $10,000 MRR. Veri maliyeti ayda ~$8,000. Break-even: 8. ay.
Senaryo 3: iBuyer Fiyat Modelleme
iBuyer şirketleri, mülk değerini hızlı ve doğru tahmin ederek alım teklifi yapmak için makine öğrenmesi modelleri kullanır. Model eğitimi için yüz binlerce geçmiş ilan ve fiyat geçmişi gerekir.
Veri ihtiyacı: 2+ yıl geçmiş veri, fotoğraflar, bölge demografisi, okul puanları.
ROI modeli: Her doğru tahmin, $15K–$25K spread üretir. Model doğruluğu %1 arttığında, yıllık $2M+ ek kazanç potansiyeli. Veri maliyeti bu ölçekte önemsiz kalır.
Build-vs-Buy: Kendi Altyapınızı mı Kurmalısınız?
Veri boru hattı kurma kararı, ekip kapasitesi ve zaman baskısına bağlıdır.
| Kriter | Kendin Yap (Build) | Veri Sağlayıcıdan Satın Al (Buy) |
|---|---|---|
| Başlangıç maliyeti | Düşük (yazılım geliştirme) | Yüksek (abonelik) |
| Ölçek maliyeti | Lineer artar (proxy + sunucu) | Sabit veya kademeli |
| Veri tazeliği | Gerçek zamanlı kontrol | Sağlayıcının güncelleme sıklığına bağlı |
| Özelleştirme | Tam kontrol | Sınırlı alanlar |
| Bakım yükü | Yüksek (site değişiklikleri) | Düşük (sağlayıcı sorumlu) |
| Zaman piyasaya çıkış | 2–4 ay | 1–2 hafta |
Karma bir yaklaşım da mümkündür: temel veriyi sağlayıcıdan alıp, rekabet avantajı sağlayacak özel veri noktalarını (örn. belirli bölgelerdeki fiyat düşüş hızı) kendiniz kazıyın.
Uygulama Örneği: Python ile Zillow Kazıma
Aşağıdaki örnek, ProxyHat residential proxy'leri kullanarak Zillow'dan ilan listesi çekmenin temel yapısını gösterir. Bu örnek eğitim amaçlıdır; Zillow'un kullanım şartlarını ihlal etmemek için robots.txt ve ToS'u kontrol edin.
import requests
from bs4 import BeautifulSoup
PROXY = "http://user-country-US:PASSWORD@gate.proxyhat.com:8080"
PROXIES = {"http": PROXY, "https": PROXY}
HEADERS = {
"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36",
"Accept-Language": "en-US,en;q=0.9",
}
def fetch_zillow_listings(zip_code, page=1):
url = f"https://www.zillow.com/homes/{zip_code}/{page}_p/"
response = requests.get(url, headers=HEADERS, proxies=PROXIES, timeout=30)
response.raise_for_status()
soup = BeautifulSoup(response.text, "html.parser")
listings = []
for card in soup.select("[class*=list-card-info]"):
price = card.select_one("[class*=list-card-price]")
address = card.select_one("[class*=list-card-addr]")
if price and address:
listings.append({
"price": price.get_text(strip=True),
"address": address.get_text(strip=True),
})
return listings
results = fetch_zillow_listings("10001")
print(f"{len(results)} listings found")
Bu örnekte dikkat etmeniz gereken noktalar:
- Ülke hedefleme:
user-country-USile ABD IP'si zorlanır. - Sticky session: Çok sayfalı gezinme gerekiyorsa,
user-country-US-session-abc123formatını kullanarak aynı IP'de kalın. - Rate limiting: İstekler arası 3–5 saniye bekleme ekleyin.
- Hata yönetimi: 403/429 yanıtlarında exponential backoff uygulayın.
Rightmove data extraction için benzer yapıyı kullanabilirsiniz; yalnızca ülke parametresini country-GB olarak değiştirin ve URL'yi Rightmove'un arama uç noktasına uyarlayın.
En İyi Uygulamalar ve Risk Azaltma
- İstek hızını sınırlayın: Saniyede 1–2 istek, çoğu platform için güvenli bir üst limittir.
- Döndürülen user-agent kullanın: Tek bir user-agent ile milyonlarca istek göndermek şüphe uyandırır.
- Veri minimum ilkesi: Yalnızca iş modeliniz için gerekli veriyi toplayın; gereksiz kişisel veri riski artırır.
- Veri kalitesi izleme: Boş alan oranını, fiyat outlier'larını ve kayıp ilan oranını düzenli izleyin.
- Proxy rotasyon stratejisi: Per-request rotasyon yüksek hız için, sticky session ise çok adımlı işlemler için kullanın.
- Yasal uyum: Her bölgenin veri koruma yasalarını (GDPR, CCPA, Almanya Veritabanı Hakları) göz önünde bulundurun.
Temel Çıkarımlar
1. Gayrimenkul listing siteleri datacenter IP'leri agresif engeller; residential proxy'ler zorunludur.
2. Her bölgenin baskın platformu farklıdır; ABD (Zillow/Realtor/Redfin), UK (Rightmove/Zoopla), DE (ImmoScout24), FR (LeBonCoin).
3. Fiyat geçmişi, days-on-market ve okul puanları en değerli veri noktalarıdır; ancak tüm platformlar bunları sunmaz.
4. İlan tekilleştirme, farklı platformlardaki aynı mülkü eşleştirmek için kritik bir adımdır.
5. Hukuki risk yönetimi için resmi API'leri önceliklendirin, robots.txt'e saygı gösterin ve kişisel veri işlemelerinde GDPR/CCPA uyumunu sağlayın.
6. ROI hesaplaması yapın; veri altyapı maliyetini iş modelinin getirisine göre değerlendirin.
Gayrimenkul veri kazıma altyapınızı kurmaya hazır mısınız? ProxyHat fiyatlandırma sayfasından residential proxy paketlerini inceleyebilir veya proxy rotasyon stratejileri rehberimizi okuyarak teknik derinliğinizi artırabilirsiniz. Sorularınız için ekibimiz her zaman yardıma hazır.






