Зачем HR-tech-команды скрейпят вакансии
Каждый день на крупных job-досках появляются миллионы новых вакансий. Для HR-tech-стартапов и команд workforce-аналитики эти данные — стратегическое сырьё: без них невозможно построить актуальную картину рынка труда. Проблема в том, что ни одна платформа не даёт бесплатного, структурированного и полного доступа к своим данным через API. Приходится скрейпить вакансии самостоятельно — и делать это так, чтобы не получить бан на первом же запросе.
В этом руководстве мы разберём стратегический фреймворк: какие источники собирать, как выбрать прокси, какую архитектуру выстроить и как считать ROI проекта скрейпинга вакансий.
Целевые источники: глобальные и региональные лидеры
Рынок вакансий фрагментирован: нет единой базы, покрывающей даже 50% рынка. Чтобы получить полную картину, нужно агрегировать данные из нескольких источников одновременно.
Глобальные платформы
- Indeed — крупнейший агрегатор вакансий в мире. Тяжёлая антибот-защита, частая ротация контента, объём — до 10 млн активных вакансий.
- LinkedIn Jobs — премиум-источник для белых воротничков и технических ролей. Мощная система обнаружения автоматизированных запросов, строгие лимиты.
- Glassdoor — вакансии плюс отзывы о работодателях. Полезно для корреляции зарплат и рейтингов.
- Monster — классическая доска, умеренная защита, хороший объём в США и Европе.
- ZipRecruiter — фокус на SMB-секторе в США, менее агрессивный антибот.
Региональные лидеры
- Xing (Германия, DACH-регион) — аналог LinkedIn для немецкоязычного рынка. Умеренная защита.
- Naukri (Индия) — доминирует на индийском рынке с долей > 60%. Защита средняя, но объём огромный.
| Источник | Объём вакансий | Антибот-уровень | Рекомендуемый тип прокси | Гео-фокус |
|---|---|---|---|---|
| Indeed | Высокий | Тяжёлый | Резидентные | Глобальный |
| LinkedIn Jobs | Средний | Очень тяжёлый | Резидентные + мобильные | Глобальный |
| Glassdoor | Средний | Средний | Резидентные | США, Европа |
| Monster | Средний | Лёгкий–Средний | Дата-центр / Резидентные | США, Европа |
| ZipRecruiter | Средний | Лёгкий | Дата-центр | США |
| Низкий–Средний | Средний | Резидентные | DACH | |
| Naukri | Высокий | Средний | Дата-центр / Резидентные | Индия |
Какие данные можно извлечь
Набор полей варьируется от платформы к платформе, но ядро стабильно:
- Название вакансии — доступно везде.
- Компания — доступно везде, иногда скрыто у конфиденциальных работодателей.
- Локация — город, штат, страна; формат не стандартизирован.
- Описание — основной текст, HTML-разметка отличается кардинально.
- Зарплата — присутствует у 20–40% вакансий; формат варьируется (диапазон, фиксированная, hourly/annual).
- Дата публикации — есть у большинства, но точность разная (точная дата vs «3 дня назад»).
- Уровень seniority — LinkedIn и Indeed предоставляют, другие — редко.
- Remote-статус — всё чаще выделяется в отдельное поле; на многих досках — только из текста.
Ключевой вызов — не сбор данных, а их нормализация. «Senior Software Engineer», «Sr. SWE» и «Software Engineer III» — одна и та же роль, но без нормализации аналитика превратится в шум.
Стратегия выбора прокси для скрейпинга вакансий
Выбор типа прокси — это не техническое решение, а бизнесовое. Неправильный выбор стоит вам потерянных данных, заблокированных аккаунтов и недель простоя.
Резидентные прокси — обязательно для Indeed и LinkedIn
Indeed и LinkedIn используют продвинутые системы fingerprinting и rate-limiting. Запросы из IP дата-центра с вероятностью 80–95% будут заблокированы в первые минуты. Резидентные прокси маскируют ваши запросы под реальных пользователей, привязанных к ISP.
Для LinkedIn особенно эффективны мобильные прокси — платформа лояльнее к трафику с мобильных устройств, и лимиты выше.
Дата-центр прокси — для менее защищённых досок
Monster, ZipRecruiter и Naukri tolerируют трафик из дата-центров при разумной скорости запросов. Это снижает стоимость в 5–10 раз по сравнению с резидентными прокси.
Гео-таргетинг
Вакансии локальны. Если вы скрейпите Indeed Germany с IP из США — результаты будут искажены, а риск бана выше. Всегда используйте прокси из целевой страны.
# Пример: скрейпинг Indeed Germany через резидентные прокси ProxyHat
curl -x http://user-country-DE:pass@gate.proxyhat.com:8080 \
"https://de.indeed.com/jobs?q=software+engineer&l=Berlin"
Архитектура системы скрейпинга
Правильная архитектура определяет, сможете ли вы масштабироваться от одного источника до десяти. Вот фреймворк, проверенный на продакшене.
Принцип: один скрейпер — один источник
Каждая job-доска уникальна: своя структура HTML, свой антибот, свои лимиты. Единый монолитный скрейпер — это антипаттерн, который обречён на хрупкость. Разделяйте:
- Indeed Scraper — знает пагинацию Indeed, обходит их challenge-страницы, парсит зарплатные диапазоны.
- LinkedIn Scraper — работает через сессии авторизации, соблюдает лимиты, использует sticky-сессии прокси.
- Glassdoor Scraper — обрабатывает overlay-попапы и динамическую подгрузку.
Слой нормализации
Все скрейперы отправляют сырые данные в единый нормализатор, который приводит к общей схеме:
- Стандартизация названий ролей (mapping-таблица + ML-классификация).
- Нормализация локации (город + страна + ISO-код).
- Парсинг зарплат в единую валюту и период (annual USD).
- Извлечение seniority и remote-статуса из текста описания.
Дедупликация между источниками
Одна и та же вакансия может появиться на Indeed, LinkedIn и Glassdoor одновременно. Дедупликация — критический этап:
- Точное совпадение: URL компании + название вакансии + локация.
- Нечёткое совпадение: Jaccard similarity по описанию > 0.85 + совпадение компании.
Антибот-обработка по источнику
Каждый источник требует своей стратегии:
- Indeed — ротация IP на каждый запрос, случайные задержки 2–6 сек, имитация scroll-поведения.
- LinkedIn — sticky-сессии (один IP на 10–30 мин), имитация пользовательского пути (поиск → клик → просмотр).
- Glassdoor — обработка JavaScript-челленджей, ротация User-Agent.
# Sticky-сессия для LinkedIn через ProxyHat
# Один IP держится 15 минут для имитации реального пользователя
http://user-country-US-session-li-session-42:pass@gate.proxyhat.com:8080
Варианты использования и расчёт ROI
Скрейпинг вакансий — не самоцель. Вот четыре ключевых бизнес-кейса с конкретными цифрами.
1. Labour-market intelligence
Агрегируя вакансии по отраслям и регионам, вы строите индекс спроса на навыки. Пример: стартап TalentInsight собирал 2,3 млн вакансий/месяц с 5 досок и продавал подписку аналитическим отделам рекрутинговых агентств за $3,000/мес. При стоимости инфраструктуры ~$1,800/мес (прокси + серверы) ROI достиг 67% с третьего месяца.
2. Сигналы найма конкурентов
Отслеживание вакансий конкретных компаний — ранний индикатор стратегических сдвигов. Если конкурент массово нанимает ML-инженеров в Берлине — вероятно, открывает новый офис. Компании платят от $500 до $2,000/мес за такие сигналы.
3. Зарплатный бенчмаркинг
Зарплатные данные из вакансий — самый доступный источник для сравнения. При 30% вакансий с указанной зарплатой и пуле в 500K+ записей вы получаете статистически значимую выборку по большинству ролей.
4. Job-агрегатор как бизнес
Полноценный агрегатор вакансий — самый амбициозный кейс. Модель проста: собираете вакансии → нормализуете → предоставляете через API или поиск. Монетизация через платный доступ к API или рекламу. Пример расчёта:
- Сбор: 5 млн вакансий/мес с 7 источников.
- Стоимость прокси: ~$2,500/мес (резидентные для Indeed/LinkedIn, дата-центр для остальных).
- Инфраструктура: ~$1,200/мес.
- Команда (2 разработчика): ~$16,000/мес.
- Итого расходы: ~$19,700/мес.
- Доход при 40 платящих клиентах × $500/мес: $20,000/мес.
- Точка безубыточности: 4–5 месяцев.
Правовые аспекты: TOS, GDPR и границы допустимого
Правовой ландшафт скрейпинга вакансий сложнее, чем кажется. Вот ключевые моменты.
Условия использования (TOS)
Почти все крупные job-доски прямо запрещают скрейпинг в своих TOS. Однако правоприменение неоднозначно:
- hiQ vs LinkedIn — апелляционный суд США постановил, что скрейпинг публичных данных не нарушает CFAA. Но это не прецедент для всех юрисдикций.
- В ЕС Database Directive защищает «существенные инвестиции» в создание базы данных, что может применяться к агрегаторам вакансий.
Практический совет: не авторизуйтесь для скрейпинга (это превращает нарушение TOS в потенциальный breach of contract), используйте только публичные страницы.
GDPR: вы скрейпите вакансии, а не кандидатов
Ключевое различие: вакансия — это информация от работодателя, публично размещённая для привлечения кандидатов. Вы не скрейпите профили кандидатов — это была бы совсем другая правовая ситуация. Однако:
- Имя контактного лица в вакансии — персональные данные. Удаляйте или анонимизируйте при хранении.
- Email-адреса в описаниях вакансий — аналогично.
- Если вы храните данные работодателей из ЕС — нужна политика хранения и возможность удаления по запросу.
Практический чек-лист
- Соблюдайте robots.txt — технически не обязывает, но демонстрирует добросовестность.
- Не перегружайте серверы источника — ограничивайте скорость запросов.
- Не воспроизводите полный контент — используйте данные для аналитики, а не для клонирования.
- Проконсультируйтесь с юристом перед запуском в продакшн — это не та область, где стоит экономить.
Build vs Buy: когда писать свой скрейпер, а когда покупать данные
Не каждая команда должна строить скрейпинг-инфраструктуру с нуля. Вот фреймворк для принятия решения.
Стройте сами, если:
- Ваш бизнес зависит от данных вакансий как ключевого актива (job-агрегатор, workforce-аналитика).
- Вам нужна уникальная комбинация источников, которую не предлагает ни один поставщик.
- Вы готовы инвестировать $50–100K в первые 6 месяцев на разработку и инфраструктуру.
Покупайте данные, если:
- Вакансии — вспомогательный источник данных (дополнение к вашему основному продукту).
- Ваша команда < 5 инженеров и нет экспертизы в антибот-обходе.
- Time-to-market критичен — покупка данных сокращает запуск на 3–6 месяцев.
Гибридный подход
Многие успешные команды начинают с покупки данных для валидации гипотезы, а затем постепенно строят собственную инфраструктуру. Это снижает риск и позволяет начать генерировать доход до того, как скрейпинг-стек будет готов.
Ключевые выводы
1. Резидентные прокси обязательны для Indeed и LinkedIn — дата-центр IP блокируются в течение минут.
2. Архитектура «один скрейсер — один источник» + единый слой нормализации — единственный масштабируемый подход.
3. Дедупликация между источниками критична — до 30% вакансий дублируются на 2+ платформах.
4. GDPR применим к контактным данным в вакансиях, но не к самим вакансиям как публичным объявлениям.
5. ROI проекта скрейпинга вакансий достигается за 4–6 месяцев при правильном выборе прокси-провайдера и архитектуре.
Следующие шаги
Если вы готовы начать сбор данных о вакансиях — оцените свои источники и подберите подходящий тип прокси. Тарифы ProxyHat включают резидентные, мобильные и прокси дата-центра с гео-таргетингом по 190+ странам — достаточно для любого сценария скрейпинга job-досок. Для более глубокого погружения в техническую сторону см. наши руководства по веб-скрейпингу.






