Скрейпинг сайтов недвижимости: полное руководство для PropTech-команд 2026

Практическое руководство по сбору данных с Zillow, Rightmove, ImmoScout24 и других площадок недвижимости. Архитектура, правовые рамки, ROI-калькуляция и стратегия выбора прокси.

Скрейпинг сайтов недвижимости: полное руководство для PropTech-команд 2026

Зачем PropTech-команды скрейпят сайты недвижимости

Рынок недвижимости генерирует терабайты структурированных данных каждый день — цены, историю продаж, рейтинги школ, время экспозиции объектов. Проблема в том, что эти данные разбросаны по десяткам площадок, каждая из которых активно защищается от автоматизированного сбора. Если вы руководитель данных в PropTech-стартапе или аналитик рынка недвижимости, вы знаете эту боль: Zillow блокирует IP после 30–50 запросов, Rightmove требует британскую геолокацию, а ImmoScout24 использует продвинутый фингерпринтинг браузера.

В этом руководстве мы разберём стратегическую сторону вопроса: какие площадки и данные доступны, как выстроить архитектуру сбора, как посчитать ROI и какие правовые риски учитывать — с конкретными цифрами и минимумом кода.

Целевые площадки по регионам

Каждый регион имеет свои доминирующие агрегаторы. Выбор площадки напрямую влияет на архитектуру скрейпера, частоту ротации IP и юридические ограничения.

США: Zillow, Realtor.com, Redfin

Американский рынок — самый насыщенный данными, но и самый агрессивный по блокировкам. Zillow занимает ~65% трафика агрегаторов и предлагает наиболее полную историю цен. Realtor.com синдицирует данные MLS с минимальной задержкой. Redfin выделяется детальной информацией о днях на рынке и «hotness»-рейтингом.

Великобритания: Rightmove, Zoopla

Rightmove контролирует ~80% рынка британских объявлений. Zoopla — второй игрок с более открытым API для партнёров. Обе площадки строго привязаны к британской геолокации и блокируют зарубежные дата-центерные IP.

Германия: ImmoScout24

ImmoScout24 — монополист немецкого рынка с ~90% доли онлайн-объявлений. Отличается продвинутой защитой от ботов (Arkose Labs) и обязательной немецкой геолокацией для доступа к полным данным.

Франция: LeBonCoin

LeBonCoin — крупнейшая французская классифайд-площадка, где недвижимость — лишь одна из категорий. Данные менее структурированы, но объём объявлений значителен, а защита от скрейпинга умеренная.

ПлощадкаРегионСложность блокировкиКлючевые данныеРекомендуемая геолокация прокси
ZillowСШАВысокаяЦены, Zestimate, история, фотоUS
Realtor.comСШАСредняяMLS-данные, дни на рынкеUS
RedfinСШАВысокаяHotness-рейтинг, время экспозицииUS
RightmoveUKВысокаяЦены, история продаж, фотоGB
ZooplaUKСредняяОценки, аренда, школыGB
ImmoScout24DEОчень высокаяЦены, энергокласс, фотоDE
LeBonCoinFRНизкая–СредняяЦены, описание, фотоFR

Какие данные доступны для извлечения

Не все данные одинаково доступны. Разберём по категориям:

Метаданные объявлений

Адрес, тип объекта, площадь, количество комнат, этаж — базовые поля, доступные на всех площадках. Это ядро вашего датасета.

Цены и история цен

Текущая цена, предыдущие листинги, история продаж. Zillow предоставляет Zestimate (оценочную модель) и историю снижений цен — ценнейший актив для моделирования. Rightmove показывает историю продаж через Land Registry.

Рейтинги школ и района

GreatSchools-рейтинги на Zillow, Ofsted-оценки на Rightmove. Эти данные коррелируют с ценами и критичны для аналитики спроса.

Фотографии и медиа

Объёмные фото-наборы (20–50 снимков на объект). Хранение и обработка фото — отдельная архитектурная задача, но именно они питают CV-модели для оценки качества ремонта.

Данные агентов

Имя, брокер, контакт, количество активных листингов. Полезно для построения графа связей и анализа конкуренции.

Время на рынке (days on market)

Критический индикатор ликвидности. Redfin и Realtor.com показывают DOM наиболее точно. Zillow иногда сбрасывает DOM при повторном листинге.

Почему жилые прокси необходимы

Вот практический факт: Zillow блокирует дата-центерные IP после ~30 запросов. Rightmove — ещё агрессивнее, требуя британскую геолокацию на уровне ASN. ImmoScout24 использует Arkose Labs CAPTCHA, которая практически непроходима для дата-центерного трафика.

Жилые (residential) прокси решают эту проблему, маршрутизируя запросы через реальные устройства конечных пользователей. С точки зрения площадки, ваш трафик выглядит как обычный пользователь из нужного региона.

Для задач, где не требуется строгая геолокация — например, массовая загрузка фото с Redfin — подойдут и дата-центерные прокси, но для доступа к страницам объявлений на Zillow и Rightmove только residential-прокси обеспечивают стабильный коннект.

Мобильные прокси — оптимальный выбор для ImmoScout24, поскольку мобильные IP ротируются естественно при переподключении, что снижает риск перманентных блокировок.

Пример: запрос к Zillow через ProxyHat

import requests

proxies = {
    "http": "http://user-country-US:password@gate.proxyhat.com:8080",
    "https": "http://user-country-US:password@gate.proxyhat.com:8080",
}

headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36",
    "Accept": "text/html,application/xhtml+xml",
}

resp = requests.get(
    "https://www.zillow.com/homedetails/123-example/12345_zpid/",
    headers=headers,
    proxies=proxies,
    timeout=30,
)
print(resp.status_code)

Флаг country-US в имени пользователя гарантирует, что запрос пойдёт через американский residential-IP. Для Rightmove замените на country-GB, для ImmoScout24 — на country-DE.

Архитектура системы сбора данных

Скрейпинг недвижимости — это не разовый скрипт, а инженерная система. Вот проверенная архитектура, которую используют продактовые команды в продакшене.

1. Гео-распределённый краулер

Каждый регион получает свой пул прокси с соответствующей геолокацией. Центральный оркестратор (Airflow, Prefect, Dagster) управляет расписанием и приоритетами.

  • US-пул: residential-прокси с country-US для Zillow, Realtor.com, Redfin
  • UK-пул: residential-прокси с country-GB для Rightmove, Zoopla
  • DE-пул: mobile-прокси с country-DE для ImmoScout24
  • FR-пул: residential или datacenter с country-FR для LeBonCoin

Стратегия ротации: per-request для широкого сканирования, sticky-сессии для глубокого обхода одного объекта. Sticky-сессия на ProxyHat создаётся флагом session-IDENTIFIER в имени пользователя.

2. Дедупликация листингов

Один объект может появляться на нескольких площадках с разными ID. Стратегия дедупликации:

  • Нормализация адреса (geocoding + fuzzy matching)
  • Слияние по (адрес, zip-код, площадь ±5%)
  • Хранение канонического ID в отдельной таблице properties

3. Отслеживание истории цен

Каждый запуск записывает снимок цены в таблицу price_history с полями: property_id, source, price, date, days_on_market. Это позволяет отслеживать снижения цен, время экспозиции и сезонные паттерны.

4. Хранение фото-ассетов

Фотографии загружаются в S3/GCS с метаданными: property_id, source_url, position, download_date. Для CV-моделей важно сохранять оригинальное разрешение и EXIF-данные.

5. Мониторинг качества

Ключевые метрики, которые нужно отслеживать в реальном времени:

  • Success rate по каждой площадке (целевой: >95%)
  • CAPTCHA rate (если >5% — пора менять стратегию ротации)
  • Латентность (residential-прокси медленнее дата-центерных, но 3–8 секунд — норма)
  • Свежность данных (задержка между обновлением на сайте и в вашей базе)

Правовые аспекты: публичные данные vs скрейпинг

Правовой ландшафт скрейпинга недвижимости сложен и зависит от юрисдикции. Вот стратегическая рамка для принятия решений.

Публичные данные MLS через синдикацию

В США данные MLS (Multiple Listing Service) — основа всех агрегаторов. Realtor.com получает их напрямую через лицензионные соглашения. Если вы можете получить данные через партнёрский API — это всегда предпочтительнее скрейпинга. Однако доступ к MLS обычно требует брокерской лицензии и стоит $100–500/месяц за рынок.

Условия использования (ToS) каждой площадки

  • Zillow: прямо запрещает скрейпинг в ToS. Нарушение — основание для блокировки и потенциального иска.
  • Rightmove: строгий запрет автоматизированного доступа. Активно преследует нарушителей.
  • ImmoScout24: запрещает скрейпинг, использует Arkose Labs для принудительного соблюдения.
  • LeBonCoin: более мягкая позиция, но ToS также запрещает автоматизированный сбор.

Практический подход

Большинство PropTech-команд работают в «серой зоне»: собирают публично доступные данные в ограниченных объёмах, уважают robots.txt, не перегружают серверы и не используют данные для прямого конкурирования с площадкой-источником. Ключевые принципы:

  • Соблюдайте Crawl-delay из robots.txt (обычно 3–10 секунд)
  • Не воспроизводите полный пользовательский опыт площадки
  • Соблюдайте GDPR при обработке персональных данных (агенты, владельцы)
  • Соблюдайте CCPA для данных калифорнийских пользователей
  • Рассмотрите лицензионные соглашения как альтернативу скрейпингу

Важно: Это не юридическая консультация. Перед запуском проекта скрейпинга проконсультируйтесь с юристом, специализирующимся на digital-праве в соответствующей юрисдикции.

Варианты использования: от поиска сделок до ценового моделирования

1. Поиск объектов для инвесторов (Deal Finding)

Инвесторы ищут недооценённые объекты: снижения цен, долгое время на рынке, мотивированные продавцы. Скрейпинг позволяет автоматически отслеживать тысячи ZIP-кодов и уведомлять о возможностях.

Конкретный пример: PropTech-стартап отслеживает Zillow в 200 ZIP-кодах США. При снижении цены на >5% за 7 дней или DOM >90 дней — алерт инвестору. С residential-прокси (~$3/GB) и 200 ZIP-кодов ежедневное сканирование стоит ~$150/месяц. Одна найденная сделка с маржой $30k+ окупает годовой бюджет.

2. Рыночная аналитика (Market Analytics)

Агрегация данных по районам, типам объектов, ценовым трендам. Позволяет строить индексы цен, отслеживать предложение и прогнозировать тренды. Ценность — в комбинировании данных с нескольких площадок, что ни одна из них не показывает в готовом виде.

3. Ценовое моделирование для iBuyer

iBuyer-модели (Opendoor, Zillow Offers) требуют точных AVM (Automated Valuation Models). Качество модели напрямую зависит от полноты обучающих данных: история продаж, характеристики объекта, фото, рейтинг школ. Скрейпинг обеспечивает тренировочный датасет, который невозможно получить иначе.

4. Конкурентный анализ для агентств

Отслеживание портфелей конкурентов: количество листингов, средний DOM, ценовые стратегии. Данные агентов позволяют строить рейтинги и выявлять перегретые сегменты.

Build vs Buy: когда скрейпить, а когда покупать

Не все данные стоит собирать самостоятельно. Вот рамка для принятия решений:

КритерийСкрейпитьКупить (API/дата-провайдер)
Уникальность данныхДанные есть только на площадкеДанные доступны через MLS/API
Частота обновленияНужны ежедневные/реалтайм данныеДостаточно еженедельных снепшотов
Гео-охват1–3 рынка, глубокое покрытиеНужен национальный/глобальный охват
Бюджет$500–2 000/мес (прокси + инфра)$2 000–10 000/мес (лицензии)
КомандаЕсть инженер по данным в штатеНет ресурса на поддержку краулеров

Многие команды начинают со скрейпинга для валидации гипотезы, затем переходят к лицензионным данным для масштабирования.

ROI-калькуляция: конкретные цифры

Рассмотрим реалистичный сценарий: стартап скрейпит Zillow + Realtor.com для 50 американских рынков.

  • Объём: ~500 000 объектов × 2 площадки = 1M запросов/цикл
  • Частота: ежедневное обновление = ~30M запросов/месяц
  • Прокси-стоимость: residential-прокси ~$3/GB, ~50KB/страница → ~1.5TB/мес → ~$4 500/мес
  • Инфраструктура: серверы, хранилище, мониторинг — ~$800/мес
  • Инженер: 0.5 FTE на поддержку — ~$5 000/мес
  • Итого: ~$10 300/мес

Альтернатива — покупка данных у провайдера: $5 000–15 000/мес за 50 рынков, но без истории цен и фото.

Точка окупаемости: если скрейпинг позволяет найти на 1 дополнительную сделку в месяц или повысить точность AVM на 2–3%, он окупается для любого iBuyer или фонда с портфелем >$10M.

Ключевые выводы

  • Жилые прокси — не опция, а необходимость для Zillow, Rightmove и ImmoScout24. Дата-центерные IP блокируются за минуты.
  • Гео-таргетинг критичен: американские IP для Zillow, британские для Rightmove, немецкие для ImmoScout24.
  • Архитектура важнее кода: дедупликация, отслеживание истории, мониторинг качества — вот что отличает продакшн-систему от разового скрипта.
  • Правовые риски реальны: соблюдайте ToS, GDPR, CCPA. Рассмотрите лицензионные данные как альтернативу.
  • Считайте ROI: скрейпинг стоит $5K–15K/мес, но окупается уже при единичных дополнительных сделках или улучшении точности моделей.
  • Начинайте с малого: 1 рынок, 1 площадка, валидация гипотезы — затем масштабируйте.

Готовы начать? Изучите тарифы ProxyHat для residential- и mobile-прокси или проверьте доступные локации — мы покрываем 190+ стран с гео-таргетингом до уровня города.

Для глубокого погружения в техническую сторону см. наше руководство Лучшие практики веб-скрейпинга и кейс по веб-скрейпингу.

Готовы начать?

Доступ к более чем 50 млн резидентных IP в 148+ странах с AI-фильтрацией.

Смотреть ценыРезидентные прокси
← Вернуться в Блог