Зачем PropTech-команды скрейпят сайты недвижимости
Рынок недвижимости генерирует терабайты структурированных данных каждый день — цены, историю продаж, рейтинги школ, время экспозиции объектов. Проблема в том, что эти данные разбросаны по десяткам площадок, каждая из которых активно защищается от автоматизированного сбора. Если вы руководитель данных в PropTech-стартапе или аналитик рынка недвижимости, вы знаете эту боль: Zillow блокирует IP после 30–50 запросов, Rightmove требует британскую геолокацию, а ImmoScout24 использует продвинутый фингерпринтинг браузера.
В этом руководстве мы разберём стратегическую сторону вопроса: какие площадки и данные доступны, как выстроить архитектуру сбора, как посчитать ROI и какие правовые риски учитывать — с конкретными цифрами и минимумом кода.
Целевые площадки по регионам
Каждый регион имеет свои доминирующие агрегаторы. Выбор площадки напрямую влияет на архитектуру скрейпера, частоту ротации IP и юридические ограничения.
США: Zillow, Realtor.com, Redfin
Американский рынок — самый насыщенный данными, но и самый агрессивный по блокировкам. Zillow занимает ~65% трафика агрегаторов и предлагает наиболее полную историю цен. Realtor.com синдицирует данные MLS с минимальной задержкой. Redfin выделяется детальной информацией о днях на рынке и «hotness»-рейтингом.
Великобритания: Rightmove, Zoopla
Rightmove контролирует ~80% рынка британских объявлений. Zoopla — второй игрок с более открытым API для партнёров. Обе площадки строго привязаны к британской геолокации и блокируют зарубежные дата-центерные IP.
Германия: ImmoScout24
ImmoScout24 — монополист немецкого рынка с ~90% доли онлайн-объявлений. Отличается продвинутой защитой от ботов (Arkose Labs) и обязательной немецкой геолокацией для доступа к полным данным.
Франция: LeBonCoin
LeBonCoin — крупнейшая французская классифайд-площадка, где недвижимость — лишь одна из категорий. Данные менее структурированы, но объём объявлений значителен, а защита от скрейпинга умеренная.
| Площадка | Регион | Сложность блокировки | Ключевые данные | Рекомендуемая геолокация прокси |
|---|---|---|---|---|
| Zillow | США | Высокая | Цены, Zestimate, история, фото | US |
| Realtor.com | США | Средняя | MLS-данные, дни на рынке | US |
| Redfin | США | Высокая | Hotness-рейтинг, время экспозиции | US |
| Rightmove | UK | Высокая | Цены, история продаж, фото | GB |
| Zoopla | UK | Средняя | Оценки, аренда, школы | GB |
| ImmoScout24 | DE | Очень высокая | Цены, энергокласс, фото | DE |
| LeBonCoin | FR | Низкая–Средняя | Цены, описание, фото | FR |
Какие данные доступны для извлечения
Не все данные одинаково доступны. Разберём по категориям:
Метаданные объявлений
Адрес, тип объекта, площадь, количество комнат, этаж — базовые поля, доступные на всех площадках. Это ядро вашего датасета.
Цены и история цен
Текущая цена, предыдущие листинги, история продаж. Zillow предоставляет Zestimate (оценочную модель) и историю снижений цен — ценнейший актив для моделирования. Rightmove показывает историю продаж через Land Registry.
Рейтинги школ и района
GreatSchools-рейтинги на Zillow, Ofsted-оценки на Rightmove. Эти данные коррелируют с ценами и критичны для аналитики спроса.
Фотографии и медиа
Объёмные фото-наборы (20–50 снимков на объект). Хранение и обработка фото — отдельная архитектурная задача, но именно они питают CV-модели для оценки качества ремонта.
Данные агентов
Имя, брокер, контакт, количество активных листингов. Полезно для построения графа связей и анализа конкуренции.
Время на рынке (days on market)
Критический индикатор ликвидности. Redfin и Realtor.com показывают DOM наиболее точно. Zillow иногда сбрасывает DOM при повторном листинге.
Почему жилые прокси необходимы
Вот практический факт: Zillow блокирует дата-центерные IP после ~30 запросов. Rightmove — ещё агрессивнее, требуя британскую геолокацию на уровне ASN. ImmoScout24 использует Arkose Labs CAPTCHA, которая практически непроходима для дата-центерного трафика.
Жилые (residential) прокси решают эту проблему, маршрутизируя запросы через реальные устройства конечных пользователей. С точки зрения площадки, ваш трафик выглядит как обычный пользователь из нужного региона.
Для задач, где не требуется строгая геолокация — например, массовая загрузка фото с Redfin — подойдут и дата-центерные прокси, но для доступа к страницам объявлений на Zillow и Rightmove только residential-прокси обеспечивают стабильный коннект.
Мобильные прокси — оптимальный выбор для ImmoScout24, поскольку мобильные IP ротируются естественно при переподключении, что снижает риск перманентных блокировок.
Пример: запрос к Zillow через ProxyHat
import requests
proxies = {
"http": "http://user-country-US:password@gate.proxyhat.com:8080",
"https": "http://user-country-US:password@gate.proxyhat.com:8080",
}
headers = {
"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36",
"Accept": "text/html,application/xhtml+xml",
}
resp = requests.get(
"https://www.zillow.com/homedetails/123-example/12345_zpid/",
headers=headers,
proxies=proxies,
timeout=30,
)
print(resp.status_code)Флаг country-US в имени пользователя гарантирует, что запрос пойдёт через американский residential-IP. Для Rightmove замените на country-GB, для ImmoScout24 — на country-DE.
Архитектура системы сбора данных
Скрейпинг недвижимости — это не разовый скрипт, а инженерная система. Вот проверенная архитектура, которую используют продактовые команды в продакшене.
1. Гео-распределённый краулер
Каждый регион получает свой пул прокси с соответствующей геолокацией. Центральный оркестратор (Airflow, Prefect, Dagster) управляет расписанием и приоритетами.
- US-пул: residential-прокси с
country-USдля Zillow, Realtor.com, Redfin - UK-пул: residential-прокси с
country-GBдля Rightmove, Zoopla - DE-пул: mobile-прокси с
country-DEдля ImmoScout24 - FR-пул: residential или datacenter с
country-FRдля LeBonCoin
Стратегия ротации: per-request для широкого сканирования, sticky-сессии для глубокого обхода одного объекта. Sticky-сессия на ProxyHat создаётся флагом session-IDENTIFIER в имени пользователя.
2. Дедупликация листингов
Один объект может появляться на нескольких площадках с разными ID. Стратегия дедупликации:
- Нормализация адреса (geocoding + fuzzy matching)
- Слияние по (адрес, zip-код, площадь ±5%)
- Хранение канонического ID в отдельной таблице
properties
3. Отслеживание истории цен
Каждый запуск записывает снимок цены в таблицу price_history с полями: property_id, source, price, date, days_on_market. Это позволяет отслеживать снижения цен, время экспозиции и сезонные паттерны.
4. Хранение фото-ассетов
Фотографии загружаются в S3/GCS с метаданными: property_id, source_url, position, download_date. Для CV-моделей важно сохранять оригинальное разрешение и EXIF-данные.
5. Мониторинг качества
Ключевые метрики, которые нужно отслеживать в реальном времени:
- Success rate по каждой площадке (целевой: >95%)
- CAPTCHA rate (если >5% — пора менять стратегию ротации)
- Латентность (residential-прокси медленнее дата-центерных, но 3–8 секунд — норма)
- Свежность данных (задержка между обновлением на сайте и в вашей базе)
Правовые аспекты: публичные данные vs скрейпинг
Правовой ландшафт скрейпинга недвижимости сложен и зависит от юрисдикции. Вот стратегическая рамка для принятия решений.
Публичные данные MLS через синдикацию
В США данные MLS (Multiple Listing Service) — основа всех агрегаторов. Realtor.com получает их напрямую через лицензионные соглашения. Если вы можете получить данные через партнёрский API — это всегда предпочтительнее скрейпинга. Однако доступ к MLS обычно требует брокерской лицензии и стоит $100–500/месяц за рынок.
Условия использования (ToS) каждой площадки
- Zillow: прямо запрещает скрейпинг в ToS. Нарушение — основание для блокировки и потенциального иска.
- Rightmove: строгий запрет автоматизированного доступа. Активно преследует нарушителей.
- ImmoScout24: запрещает скрейпинг, использует Arkose Labs для принудительного соблюдения.
- LeBonCoin: более мягкая позиция, но ToS также запрещает автоматизированный сбор.
Практический подход
Большинство PropTech-команд работают в «серой зоне»: собирают публично доступные данные в ограниченных объёмах, уважают robots.txt, не перегружают серверы и не используют данные для прямого конкурирования с площадкой-источником. Ключевые принципы:
- Соблюдайте Crawl-delay из robots.txt (обычно 3–10 секунд)
- Не воспроизводите полный пользовательский опыт площадки
- Соблюдайте GDPR при обработке персональных данных (агенты, владельцы)
- Соблюдайте CCPA для данных калифорнийских пользователей
- Рассмотрите лицензионные соглашения как альтернативу скрейпингу
Важно: Это не юридическая консультация. Перед запуском проекта скрейпинга проконсультируйтесь с юристом, специализирующимся на digital-праве в соответствующей юрисдикции.
Варианты использования: от поиска сделок до ценового моделирования
1. Поиск объектов для инвесторов (Deal Finding)
Инвесторы ищут недооценённые объекты: снижения цен, долгое время на рынке, мотивированные продавцы. Скрейпинг позволяет автоматически отслеживать тысячи ZIP-кодов и уведомлять о возможностях.
Конкретный пример: PropTech-стартап отслеживает Zillow в 200 ZIP-кодах США. При снижении цены на >5% за 7 дней или DOM >90 дней — алерт инвестору. С residential-прокси (~$3/GB) и 200 ZIP-кодов ежедневное сканирование стоит ~$150/месяц. Одна найденная сделка с маржой $30k+ окупает годовой бюджет.
2. Рыночная аналитика (Market Analytics)
Агрегация данных по районам, типам объектов, ценовым трендам. Позволяет строить индексы цен, отслеживать предложение и прогнозировать тренды. Ценность — в комбинировании данных с нескольких площадок, что ни одна из них не показывает в готовом виде.
3. Ценовое моделирование для iBuyer
iBuyer-модели (Opendoor, Zillow Offers) требуют точных AVM (Automated Valuation Models). Качество модели напрямую зависит от полноты обучающих данных: история продаж, характеристики объекта, фото, рейтинг школ. Скрейпинг обеспечивает тренировочный датасет, который невозможно получить иначе.
4. Конкурентный анализ для агентств
Отслеживание портфелей конкурентов: количество листингов, средний DOM, ценовые стратегии. Данные агентов позволяют строить рейтинги и выявлять перегретые сегменты.
Build vs Buy: когда скрейпить, а когда покупать
Не все данные стоит собирать самостоятельно. Вот рамка для принятия решений:
| Критерий | Скрейпить | Купить (API/дата-провайдер) |
|---|---|---|
| Уникальность данных | Данные есть только на площадке | Данные доступны через MLS/API |
| Частота обновления | Нужны ежедневные/реалтайм данные | Достаточно еженедельных снепшотов |
| Гео-охват | 1–3 рынка, глубокое покрытие | Нужен национальный/глобальный охват |
| Бюджет | $500–2 000/мес (прокси + инфра) | $2 000–10 000/мес (лицензии) |
| Команда | Есть инженер по данным в штате | Нет ресурса на поддержку краулеров |
Многие команды начинают со скрейпинга для валидации гипотезы, затем переходят к лицензионным данным для масштабирования.
ROI-калькуляция: конкретные цифры
Рассмотрим реалистичный сценарий: стартап скрейпит Zillow + Realtor.com для 50 американских рынков.
- Объём: ~500 000 объектов × 2 площадки = 1M запросов/цикл
- Частота: ежедневное обновление = ~30M запросов/месяц
- Прокси-стоимость: residential-прокси ~$3/GB, ~50KB/страница → ~1.5TB/мес → ~$4 500/мес
- Инфраструктура: серверы, хранилище, мониторинг — ~$800/мес
- Инженер: 0.5 FTE на поддержку — ~$5 000/мес
- Итого: ~$10 300/мес
Альтернатива — покупка данных у провайдера: $5 000–15 000/мес за 50 рынков, но без истории цен и фото.
Точка окупаемости: если скрейпинг позволяет найти на 1 дополнительную сделку в месяц или повысить точность AVM на 2–3%, он окупается для любого iBuyer или фонда с портфелем >$10M.
Ключевые выводы
- Жилые прокси — не опция, а необходимость для Zillow, Rightmove и ImmoScout24. Дата-центерные IP блокируются за минуты.
- Гео-таргетинг критичен: американские IP для Zillow, британские для Rightmove, немецкие для ImmoScout24.
- Архитектура важнее кода: дедупликация, отслеживание истории, мониторинг качества — вот что отличает продакшн-систему от разового скрипта.
- Правовые риски реальны: соблюдайте ToS, GDPR, CCPA. Рассмотрите лицензионные данные как альтернативу.
- Считайте ROI: скрейпинг стоит $5K–15K/мес, но окупается уже при единичных дополнительных сделках или улучшении точности моделей.
- Начинайте с малого: 1 рынок, 1 площадка, валидация гипотезы — затем масштабируйте.
Готовы начать? Изучите тарифы ProxyHat для residential- и mobile-прокси или проверьте доступные локации — мы покрываем 190+ стран с гео-таргетингом до уровня города.
Для глубокого погружения в техническую сторону см. наше руководство Лучшие практики веб-скрейпинга и кейс по веб-скрейпингу.






