부동산 리스팅 사이트 스크래핑 완전 가이드: 프록시 전략부터 아키텍처까지

Zillow, Rightmove, ImmoScout24 등 글로벌 부동산 플랫폼의 데이터를 수집하는 전략과 레지덴셜 프록시 활용법, 법적 고려사항, ROI 계산까지 PropTech 팀을 위한 실전 가이드.

부동산 리스팅 사이트 스크래핑 완전 가이드: 프록시 전략부터 아키텍처까지

PropTech 팀이 직면한 부동산 데이터 수집의 현실

부동산 데이터 분석을 시작한 첫 주, 대부분의 팀은 같은 벽에 부딪힙니다. Zillow에서 500건을 수집하자마자 403 Forbidden. Rightmove는 더 빨리 차단합니다. 데이터센터 IP는 이 플랫폼들의 방화벽을 통과하지 못합니다.

이 가이드는 scrape Zillow를 검색하는 데이터 리드와, real estate scraping proxies를 평가하는 PropTech 창업자, Rightmove data extraction을 계획 중인 시장 분석가를 위해 작성되었습니다. 전략적 프레임워크와 구체적 수치, 그리고 실제 구축 아키텍처까지 다룹니다.

지역별 타겟 플랫폼과 데이터 특성

글로벌 부동산 데이터 파이프라인을 구축하려면 각 시장의 주요 플랫폼과 그 특성을 이해해야 합니다.

미국: Zillow, Realtor.com, Redfin

  • Zillow — 미국 부동산 리스팅의 압도적 1위. 1억 1천만 이상의 활성 리스팅. 가장 풍부한 가격 이력과 Zestimate 데이터를 보유하지만, 동시에 가장 공격적인 봇 차단을 실행합니다.
  • Realtor.com — MLS 데이터를 직접 연동하여 정확도가 높음. 최신 리스팅이 가장 빠르게 반영되는 편입니다.
  • Redfin — 직접 에이전트를 고용하는 모델로, 리스팅 메타데이터가 정밀합니다. 판매 속도 데이터가 상세합니다.

영국: Rightmove, Zoopla

  • Rightmove — 영국 부동산 시장의 80% 이상 점유율. 영국 내 모든 주요 에이전트가 리스팅을 올립니다. 데이터센터 IP 차단이 매우 엄격합니다.
  • Zoopla — Rightmove보다 에이전트 리뷰와 학군 데이터가 풍부한 편입니다.

독일: ImmoScout24

독일 부동산 시장의 90% 이상을 커버합니다. 임대 매물 비율이 높아 렌탈 시장 분석에 필수적입니다. Cloudflare 보호가 적용되어 있습니다.

프랑스: LeBonCoin

부동산뿐 아니라 중고 거래 전반을 다루는 분류광고 플랫폼이지만, 프랑스 부동산 리스팅의 가장 큰 소스입니다. 개인 판매자 비율이 높아 가격 분석에 독특한 인사이트를 제공합니다.

플랫폼 국가 월간 리스팅 규모 차단 강도 핵심 데이터 포인트
Zillow 미국 1억 1천만+ 매우 높음 Zestimate, 가격 이력, 학군
Realtor.com 미국 8천만+ 높음 MLS 직접 연동, 최신 리스팅
Redfin 미국 3천만+ 중간 판매 속도, 상세 메타데이터
Rightmove 영국 1백만+ 매우 높음 영국 전역 커버, 가격 추이
Zoopla 영국 50만+ 높음 에이전트 리뷰, 학군
ImmoScout24 독일 40만+ 높음 임대 비율, 에너지 등급
LeBonCoin 프랑스 60만+ 중간 개인 판매자, 원시 가격

수집 가능한 데이터 포인트

부동산 리스팅 사이트에서 추출할 수 있는 데이터는 크게 6가지 카테고리로 나뉩니다.

리스팅 메타데이터

주소, 우편번호, 침실/욕실 수, 평수, 건축 연도, 부동산 유형(apartment, house, condo 등). 대부분의 플랫폼에서 구조화된 형태로 제공됩니다.

가격 및 가격 이력

현재 리스팅 가격, 가격 변동 이력(인하/인상), 과거 판매 가격, 세금 정보. Zillow의 경우 2006년 이전 데이터까지 추적 가능합니다. 이 데이터는 iBuyer 가격 모델링의 핵심 입력값이 됩니다.

학군 평점

GreatSchools 연동 데이터, 학교까지의 거리, 학군별 테스트 점수. 미국 시장에서 가격 결정에 15-25% 영향을 미치는 변수입니다.

사진 및 미디어

리스팅당 평균 20-40장의 사진. 내부 인테리어 상태, 주방/욕실 리모델링 여부 등을 이미지 분석으로 추출할 수 있습니다. 스토리지 비용이 만만치 않으므로 아키텍처 설계에서 명확히 결정해야 합니다.

에이전트 데이터

리스팅 에이전트 이름, 연락처, 소속 브로커리지, 활성 리스팅 수, 평균 판매 일수. 에이전트 네트워크 분석이나 리드 생성에 활용됩니다.

시장 체류 시간(Time on Market)

리스팅 게시일부터 계약일까지의 일수. 수요 강도를 측정하는 가장 직접적인 지표입니다. Redfin이 이 데이터를 가장 상세하게 제공합니다.

레지덴셜 프록시가 필수인 이유

부동산 플랫폼은 왜 그토록 공격적으로 스크래핑을 차단할까요? 답은 비즈니스 모델에 있습니다. Zillow의 연간 수익 약 20억 달러 중 상당 부분이 리스팅 데이터에 대한 접근 권한 판매에서 발생합니다. 무료로 데이터를 빼가는 행위는 그들의 핵심 수익원을 직접 위협합니다.

이들이 사용하는 차단 기술은 다층적입니다:

  • IP 레퍼테이션 필터링 — 데이터센터 IP 대역(AWS, GCP, Azure 등)의 요청을 즉시 차단합니다. Zillow는 특히 이 필터가 강력합니다.
  • 행동 분석 — 페이지 체류 시간, 스크롤 패턴, 클릭 간격을 분석하여 봇을 탐지합니다.
  • CAPTCHA 계층 — 의심스러운 트래픽에 reCAPTCHA v3를 트리거합니다.
  • 지오 펜싱 — 미국 IP가 아닌 경우 Rightmove 접근을 제한합니다.

이것이 real estate scraping proxies로 레지덴셜 프록시를 선택해야 하는 이유입니다. 레지덴셜 IP는 실제 ISP에서 발급한 IP이므로, 플랫폼 방화벽이 일반 사용자 트래픽과 구별할 수 없습니다.

데이터센터 프록시로 Zillow를 스크래핑하면 평균 50-200건 이내에 차단됩니다. 레지덴셜 프록시를 사용하면 수만 건까지 안정적으로 수집이 가능합니다.

Python 예시: ProxyHat 레지덴셜 프록시로 Zillow 수집

import requests

# 미국 IP로 Zillow 접근 — 지역 타겟팅 포함
proxy_url = "http://user-country-US:PASSWORD@gate.proxyhat.com:8080"
proxies = {"http": proxy_url, "https": proxy_url}

headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36",
    "Accept-Language": "en-US,en;q=0.9",
}

response = requests.get(
    "https://www.zillow.com/homedetails/123-example/12345_zpid/",
    proxies=proxies,
    headers=headers,
    timeout=30
)
print(f"Status: {response.status_code}")

지역 타겟팅이 핵심입니다. Rightmove data extraction을 위해서는 영국 IP가 필요하고, ImmoScout24는 독일 IP, LeBonCoin은 프랑스 IP가 필요합니다. ProxyHat의 지역 타겟팅 기능을 사용하면 국가와 도시 수준까지 지정할 수 있습니다.

# 영국 런던 IP로 Rightmove 접근
proxy_url = "http://user-country-GB-city-london:PASSWORD@gate.proxyhat.com:8080"

# 독일 베를린 IP로 ImmoScout24 접근
proxy_url = "http://user-country-DE-city-berlin:PASSWORD@gate.proxyhat.com:8080"

데이터 파이프라인 아키텍처

지금까지 개별 컴포넌트를 살펴봤다면, 이제 전체 시스템이 어떻게 연결되는지 설계해야 합니다. 다음은 다국가 부동산 데이터 파이프라인의 참조 아키텍처입니다.

1단계: 지리 분산 크롤링 레이어

각 타겟 국가에 대해 해당 국가의 레지덴셜 IP에서 크롤링을 실행합니다. 미국은 미국 IP, 영국은 영국 IP로 접근하는 방식입니다. 이 레이어의 핵심 과제는 요청 속도 조절입니다.

  • 리스팅 목록 페이지: 초당 1-2건
  • 개별 리스팅 상세 페이지: 초당 0.5-1건
  • 가격 이력 API: 초당 2-3건 (엔드포인트에 따라 다름)

속도를 높이면 CAPTCHA가 발생하고 전체 세션을 잃게 됩니다. 보수적으로 시작하여 점진적으로 증가시키는 전략이 안전합니다.

2단계: 리스팅 중복 제거

동일한 매물이 여러 플랫폼에 올라옵니다. Zillow와 Realtor.com에 같은 집이 있을 수 있습니다. 중복 제거는 다음 필드를 조합합니다:

  • 정규화된 주소(우편번호 + 번지수)
  • 침실/욕실 수
  • 평수(±5% 허용)
  • 리스팅 에이전트 또는 MLS 번호

유사도 매칭 알고리즘(Fuzzy matching)을 적용하면 95% 이상의 중복을 제거할 수 있습니다. 처리 후 약 30-40%의 리스팅이 중복으로 식별됩니다.

3단계: 가격 이력 추적

가격 변동은 시장 동향의 가장 중요한 신호입니다. 매일 크롤링하여 델타를 기록합니다:

  • 가격 인하: 판매자 동기 파악의 핵심 지표
  • 가격 인상: 수요 과잉 시장의 신호
  • 리스팅 제거 후 재등록: days-on-market 조작 의심

이 데이터를 시계열 DB(InfluxDB, TimescaleDB)에 저장하면 트렌드 분석과 예측 모델의 입력값으로 활용할 수 있습니다.

4단계: 사진 에셋 스토리지

사진을 저장할지 말지는 전략적 결정입니다. 리스팅당 평균 30장, 평균 200KB/장이면 매물 10만 건당 약 600GB의 스토리지가 필요합니다.

권장 접근법:

  • URL만 저장: 초기 단계. 스토리지 비용 최소화.
  • 썸네일만 저장: 이미지 분석이 필요한 경우. 원본의 10-15% 크기.
  • 전체 저장: AI 기반 인테리어 분석, 리모델링 탐지 등 고급 분석이 필요한 경우.

S3 호환 오브젝트 스토리지에 날짜 파티셔닝으로 저장하면 비용과 검색 성능의 균형을 잡을 수 있습니다.

법적 프레이밍: 공개 데이터와 약관의 경계

부동산 데이터 수집의 법적 쟁점은 단순하지 않습니다. 각 관할 구역과 플랫폼마다 다른 규칙이 적용됩니다.

미국: MLS 데이터의 특수성

미국 부동산 데이터의 근원은 MLS(Multiple Listing Service)입니다. MLS는 독점적 데이터베이스이지만, 법적 의무에 의해 일부 데이터를 공개적으로 syndicate합니다. VOW(Virtual Office Website) 정책에 따라 MLS 회원인 에이전트는 리스팅 데이터를 온라인에 공개해야 합니다.

Zillow, Realtor.com, Redfin은 모두 이 syndicated 데이터를 표시합니다. 이 공개 데이터를 수집하는 것과 사이트 약관을 위반하는 것은 별개의 문제입니다.

각 플랫폼의 이용약관(TOS) 위치

  • Zillow: 로봇 자동 수집을 명시적으로 금지. API를 통한 공식 데이터 접근은 유료 파트너십 필요.
  • Realtor.com: 스크래핑 금지 조항 포함. 다만 공개적으로 표시된 데이터의 수집에 대한 법적 판례는 혼재.
  • Rightmove: 영국 법률 적용. TOS에서 명시적으로 데이터 추출을 금지하며, 위반 시 계정 차단 및 법적 조치 경고.
  • ImmoScout24: 독일 저작권법(Urheberrecht) 적용. 데이터베이스 권리가 강하게 보호됨.
  • LeBonCoin: 프랑스 법률 적용. 개인정보(GDPR)와 데이터베이스 권리의 이중 제약.

핵심 구분: 공개 웹페이지에서 브라우저로 볼 수 있는 데이터를 수집하는 것과, 로그인이 필요한 영역이나 API를 무단으로 접근하는 것은 법적으로 다른 문제입니다. 전자는 여러 관할 구역에서 더 강한 법적 근거를 가지지만, TOS 위반은 여전히 민사 소송의 근거가 될 수 있습니다.

실무적 권고사항

  1. 공개적으로 접근 가능한 데이터만 수집하세요.
  2. 로그인이 필요한 영역은 수집하지 마세요. 이는 CFAA(미국)나 Computer Misuse Act(영국) 위반 가능성이 있습니다.
  3. robots.txt를 확인하고, 명시된 비허용 경로는 피하세요.
  4. 수집 속도를 합리적으로 유지하여 서비스에 영향을 주지 마세요.
  5. 법무팀과 검토하세요. 이 가이드는 법적 조언이 아닙니다.

유스케이스와 ROI 계산

유스케이스 1: 투자자 딜 파인딩

부동산 투자 펀드가 저평가 매물을 자동 탐지하는 시나리오입니다.

구체적 예시: 마이애미 다운타운 5마일 반경 내 3침실 콘도를 모니터링합니다. 가격이 ZIP 코드 평균 대비 15% 이상 낮고, 시장 체류 일수가 60일 이상인 매물을 알림으로 받습니다.

ROI 계산:

  • 프록시 비용: 월 약 $300-500 (ProxyHat 레지덴셜, 하루 5만 건 수집 기준)
  • 인프라 비용: 월 약 $200 (서버, DB, 스토리지)
  • 개발 비용: 초기 $15,000-25,000 (파이프라인 구축)
  • 월간 운영 비용: 약 $500-700

단 한 건의 저평가 매물 발견으로 $10,000-50,000의 마진을 확보할 수 있다면, 투자 회수 기간은 1-2개월입니다. 이것이 PropTech 스크래핑의 경제적 타당성입니다.

유스케이스 2: 시장 분석 대시보드

SaaS 형태의 부동석 시장 분석 도구를 구축하는 경우입니다. ZIP 코드별 가격 추이, 재고 변화, 판매 속도를 시각화합니다.

이 모델에서 데이터 품질이 곧 제품 품질입니다. 레지덴셜 프록시 없이 수집한 데이터는 차단으로 인해 편향됩니다 — 특정 시간대나 특정 리스팅만 수집되는 샘플링 편향이 발생합니다. 안정적인 수집 환경이 데이터 대표성을 보장합니다.

유스케이스 3: iBuyer 가격 모델링

iBuyer(Opendoor, Zillow Offers 등) 모델의 핵심은 정확한 자동 가격 평가(AVM)입니다. AVM의 입력값은:

  • 가격 이력 (가장 중요한 피처)
  • 비교 매물 데이터
  • 학군 평점
  • 시장 체류 시간 트렌드
  • 사진 기반 상태 평가

이 데이터를 대규모로 안정적으로 수집하려면 웹 스크래핑 인프라가 필수적이며, 레지덴셜 프록시는 그 인프라의 기반입니다.

Build vs Buy: 데이터 소스 결정

모든 데이터를 직접 스크래핑해야 하는 것은 아닙니다. 일부 데이터는 공식 API나 데이터 제공업체를 통해 구매하는 것이 더 효율적일 수 있습니다.

접근 방식 장점 단점 적합한 경우
직접 스크래핑 완전한 제어, 실시간 데이터, 커스텀 필드 유지보수 비용, 차단 위험, 법적 리스크 경쟁 우위가 데이터 독점성에 있는 경우
데이터 제공업체 안정적, 법적 리스크 최소 높은 월 비용($2,000-10,000+), 지연, 제한적 필드 데이터가 의사결정 보조 수단인 경우
공식 API 안정적, 정규화된 데이터 제한적 가용성, 높은 비용, 제한적 스케일 소규모 분석, 프로토타입
하이브리드 핵심 데이터는 직접, 보조 데이터는 구매 아키텍처 복잡도 증가 대부분의 PropTech 스타트업

하이브리드 접근법을 권장합니다. 가격 이력과 시장 체류 시간 같은 핵심 경쟁 데이터는 직접 수집하고, 학군 데이터나 인구통계는 제공업체에서 구매하는 방식입니다.

핵심 인사이트

  • 부동산 플랫폼은 데이터센터 IP를 즉시 차단하므로, 레지덴셜 프록시는 선택이 아닌 필수입니다.
  • 지역 타겟팅이 필수입니다: Zillow는 미국 IP, Rightmove는 영국 IP, ImmoScout24는 독일 IP가 필요합니다.
  • 수집 속도보다 안정성이 중요합니다. 초당 1건의 안정적 수집이 차단-복구 사이클보다 훨씬 효율적입니다.
  • 법적 리스크를 관리하세요: 공개 데이터만 수집하고, 법무팀과 검토하세요.
  • 하이브리드 데이터 전략(직접 수집 + 구매)이 대부분의 PropTech 팀에 최적입니다.
  • 월 $500-700의 인프라 비용으로 단 한 건의 딜 파인딩으로 ROI를 달성할 수 있습니다.

ProxyHat의 글로벌 레지덴셜 프록시 네트워크로 부동산 데이터 파이프라인을 시작하세요. 요금제를 확인하거나, 지원 국가 목록에서 타겟 시장의 가용성을 확인하세요. SERP 추적과 결합하면 시장 동향 파악이 더욱 강력해집니다.

시작할 준비가 되셨나요?

AI 필터링으로 148개국 이상에서 5천만 개 이상의 레지덴셜 IP에 액세스하세요.

가격 보기레지덴셜 프록시
← 블로그로 돌아가기