Можно ли скрейпить Instagram без прокси?

Технически — да, для единичных запросов. Но при масштабном сборе (более 20-30 запросов в минуту) Instagram быстро блокирует ваш IP. Резидентные прокси необходимы для распределения запросов по множеству IP-адресов реальных ISP.

Работает ли эндпоинт ?__a=1 для получения JSON из Instagram?

Нет. Instagram отключил публичный доступ к ?__a=1 в 2020 году. Теперь этот эндпоинт редиректит на страницу входа для неавторизованных запросов. Данные нужно извлекать из HTML или использовать GraphQL/API-эндпоинты.

Чем резидентные прокси лучше дата-центровых для Instagram?

Instagram ведёт списки ASN дата-центров и блокирует запросы с таких IP почти мгновенно. Резидентные прокси используют IP реальных интернет-провайдеров, что делает трафик неотличимым от обычных пользователей. Мобильные прокси (4G/5G) ещё надёжнее, но дороже.

Какой безопасный лимит запросов к Instagram с одного IP?

Рекомендуем не более 10-15 запросов в минуту с одного IP-адреса. Добавляйте рандомную задержку между запросами (2-6 секунд). При появлении капчи или редиректа на страницу входа — немедленно смените IP и снизьте скорость.

Законно ли скрейпить публичные данные Instagram?

Сбор публично доступных данных в исследовательских целях обычно допустим, но автоматизированный доступ нарушает Terms of Service Instagram. В юрисдикции США это регулируется CFAA, в ЕС — GDPR. Всегда проверяйте robots.txt, ограничивайте скорость и优先 используйте официальные API.

Скрейпинг Instagram через прокси: полное руководство | ProxyHat

Почему скрейпинг Instagram — одна из самых сложных задач

Instagram — это не обычный сайт. Это платформа, которая инвестировала годы в обнаружение автоматизированного трафика и блокировку ботов. Если вы попробуете отправить сотни запросов с одного IP-адреса, вы получите бан в течение минут, а не часов. Для разработчиков, строящих пайплайны social-listening, это означает одно: без правильной инфраструктуры скрейпинг Instagram не масштабируется.

Основные препятствия:

Жёсткие rate-limit'ы — Instagram ограничивает количество запросов с одного IP до нескольких десятков в минуту для неавторизованных сессий.
Login wall — значительная часть контента скрыта за стеной авторизации; даже публичные профили могут требовать входа при подозрительном поведении.
Антибот-система — Instagram использует поведенческий анализ, проверку отпечатков браузера и TLS-фингерпринтинг.
Device fingerprinting — серверы Instagram проверяют User-Agent, заголовки, порядок HTTP-заголовков и даже TLS-шифры, чтобы отличить реальное устройство от скрипта.

Важное предупреждение. Данное руководство охватывает только сбор публично доступных данных. Автоматизированный доступ к Instagram может нарушать Условия использования платформы (Terms of Service). В США на это распространяется CFAA, в ЕС — GDPR. Всегда проверяйте robots.txt, ограничивайте скорость запросов и используйте официальные API, когда это возможно. Никогда не автоматизируйте вход в аккаунт (login automation).

Какие данные Instagram доступны без авторизации

Не всё на Instagram требует входа. Следующие типы страниц доступны анонимно через веб-интерфейс:

Публичные профили — имя, био, количество подписчиков/подписок, аватар, последние посты.
Страницы хештегов — топ-посты и недавние публикации по хештегу.
Страницы локаций — посты, привязанные к конкретному месту.
Отдельные посты и Reels — если у вас есть прямая ссылка, содержимое обычно доступно.

Что недоступно без входа:

Stories (истории) — полностью за login wall.
Private profiles (закрытые профили) — даже если у вас есть логин, скрейпинг чужих закрытых данных нарушает ToS и законодательство.
DM (личные сообщения) — строго конфиденциально.
Комментарии с пагинацией — базовые комментарии видны, полная прокрутка часто требует авторизации.

Почему резидентные прокси необходимы для Instagram

Instagram агрессивно флагирует IP-адреса дата-центров. Это не теория — это подтверждённый факт, с которым сталкивается каждый, кто пробовал скрейпить IG через AWS, DigitalOcean или любой другой хостинг-провайдер.

Причины:

Instagram (Meta) поддерживает списки ASN дата-центров. Запросы с таких IP получают капчу или блокировку почти мгновенно.
Поведенческий анализ: реальный пользователь не делает 500 запросов за минуту с одного IP. Дата-центровые IP не имеют «истории» нормального использования.
TLS-фингерпринтинг: библиотеки вроде requests или aiohttp формируют TLS-рукопожатие, отличное от Chrome на Android. Instagram это видит.

Сравнение типов прокси для Instagram

Тип прокси	Обнаружение IG	Скорость	Стоимость	Рекомендация для IG
Datacenter	Очень высокая	Высокая	Низкая	Не подходит
Residential (ротация)	Низкая	Средняя	Средняя	Оптимальный выбор
Residential (sticky)	Низкая	Средняя	Средняя	Для сессий
Mobile (4G/5G)	Минимальная	Низкая	Высокая	Максимальная надёжность

Резидентные прокси — это «золотая середина»: IP-адреса принадлежат реальным ISP, Instagram не может блокировать их массово без ущерба для легитимных пользователей. Мобильные прокси ещё надёжнее, но значительно дороже. Дата-центровые прокси для Instagram — пустая трата времени.

Скрейпинг Instagram на Python с ротацией прокси

Ниже — практический пример сбора публичных профилей с использованием резидентных прокси ProxyHat, ротации User-Agent и изоляции сессий.

Базовая конфигурация

import requests
import random
import time
from urllib.parse import quote

PROXY_USER = "your-user"
PROXY_PASS = "your-pass"
PROXY_GATE = "gate.proxyhat.com:8080"

def get_proxy_url(country="US", session_id=None):
    """Формируем URL прокси с гео-таргетингом и опциональной сессией."""
    username = f"{PROXY_USER}-country-{country}"
    if session_id:
        username += f"-session-{session_id}"
    return f"http://{username}:{PROXY_PASS}@{PROXY_GATE}"

USER_AGENTS = [
    "Mozilla/5.0 (Linux; Android 13; Pixel 7) AppleWebKit/537.36 "
    "Chrome/124.0.0.0 Mobile Safari/537.36",
    "Mozilla/5.0 (iPhone; CPU iPhone OS 17_4 like Mac OS X) "
    "AppleWebKit/605.1.15 Version/17.4 Mobile/15E148 Safari/604.1",
    "Mozilla/5.0 (Linux; Android 13; SM-S908B) AppleWebKit/537.36 "
    "Chrome/124.0.0.0 Mobile Safari/537.36",
    "Mozilla/5.0 (iPhone; CPU iPhone OS 17_3 like Mac OS X) "
    "AppleWebKit/605.1.15 Version/17.3 Mobile/15E148 Safari/604.1",
]

def build_headers():
    """Заголовки, имитирующие мобильный браузер."""
    return {
        "User-Agent": random.choice(USER_AGENTS),
        "Accept": "text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8",
        "Accept-Language": "en-US,en;q=0.9",
        "Accept-Encoding": "gzip, deflate, br",
        "Connection": "keep-alive",
        "Upgrade-Insecure-Requests": "1",
        "Sec-Fetch-Dest": "document",
        "Sec-Fetch-Mode": "navigate",
        "Sec-Fetch-Site": "none",
        "Sec-Fetch-User": "1",
    }

Сбор публичного профиля

def scrape_profile(username, country="US"):
    """Собираем публичные данные профиля Instagram."""
    session_id = f"ig-{username}-{int(time.time())}"
    proxy_url = get_proxy_url(country=country, session_id=session_id)
    proxies = {"http": proxy_url, "https": proxy_url}

    headers = build_headers()
    url = f"https://www.instagram.com/{username}/"

    try:
        resp = requests.get(url, headers=headers, proxies=proxies, timeout=30)
        resp.raise_for_status()

        # Instagram встраивает данные JSON в тег script с типом text/javascript
        # Ищем window._sharedData или подобный паттерн
        if "_sharedData" in resp.text:
            import json, re
            match = re.search(
                r"window\._sharedData\s*=\s*({.+?});</script>",
                resp.text
            )
            if match:
                data = json.loads(match.group(1))
                user_data = (
                    data.get("entry_data", {})
                    .get("ProfilePage", [{}])[0]
                    .get("graphql", {})
                    .get("user", {})
                )
                return {
                    "username": user_data.get("username"),
                    "full_name": user_data.get("full_name"),
                    "biography": user_data.get("biography"),
                    "followers": user_data.get("edge_followed_by", {}).get("count"),
                    "following": user_data.get("edge_follow", {}).get("count"),
                    "is_private": user_data.get("is_private"),
                    "is_verified": user_data.get("is_verified"),
                }

        # Fallback: если структура изменилась, возвращаем статус
        return {"status": "parsed_fallback", "html_length": len(resp.text)}

    except requests.exceptions.RequestException as e:
        return {"error": str(e)}

# Пример использования
result = scrape_profile("nasa", country="US")
print(result)

Массовый сбор с rate-limiting

def scrape_profiles_batch(usernames, requests_per_minute=10, country="US"):
    """Собираем несколько профилей с контролем скорости."""
    delay = 60.0 / requests_per_minute
    results = []

    for username in usernames:
        result = scrape_profile(username, country=country)
        results.append(result)
        print(f"[{len(results)}/{len(usernames)}] {username}: "
              f"{result.get('followers', 'error')}")
        time.sleep(delay + random.uniform(0.5, 2.0))

    return results

# 10 запросов в минуту — консервативный и безопасный темп
profiles = scrape_profiles_batch(
    ["nasa", "natgeo", "spacex", "bbc", "cnn"],
    requests_per_minute=10,
    country="US"
)

Ключевые моменты этого подхода:

Изоляция сессий — каждый профиль получает уникальный session_id, что привязывает запросы к одному прокси-IP на время сессии.
Ротация User-Agent — каждый запрос выглядит как новое мобильное устройство.
Рандомизированная задержка — имитация человеческого поведения.
Гео-таргетинг — прокси из страны пользователя снижает подозрительность.

Специфические особенности Instagram: от ?__a=1 до мобильного API

Instagram постоянно меняет архитектуру, и подходы, которые работали год назад, сегодня могут быть неработоспособны. Вот обзор ключевых технических аспектов.

JSON-эндпоинт ?__a=1

Раньше добавление ?__a=1 к URL профиля возвращало чистый JSON. Instagram отключил этот эндпоинт для неавторизованных запросов в 2020 году. Теперь он возвращает редирект на страницу входа. Не тратьте время на этот подход.

GraphQL-запросы

Веб-версия Instagram использует GraphQL для загрузки данных. Вы можете перехватить запросы в DevTools и увидеть паттерн:

https://www.instagram.com/graphql/query/?query_hash=HASH&variables={...}

Проблема: query_hash меняется с каждым деплоем Instagram. Вам придётся регулярно реверс-инжинирить новые хеши. Для production-пайплайнов это неприемлемо — слишком хрупко.

Заголовки x-ig-app-id и x-csrftoken

Мобильное приложение Instagram отправляет ключевые заголовки:

x-ig-app-id — идентификатор приложения (обычно 936619743392459 для Instagram Web).
x-csrftoken — CSRF-токен, получаемый из cookies.
x-requested-with — XMLHttpRequest.

Без этих заголовков GraphQL-эндпоинты возвращают ошибки. Пример добавления заголовков:

IG_APP_ID = "936619743392459"

def build_api_headers(csrf_token=None):
    headers = build_headers()
    headers.update({
        "x-ig-app-id": IG_APP_ID,
        "X-Requested-With": "XMLHttpRequest",
    })
    if csrf_token:
        headers["x-csrftoken"] = csrf_token
    return headers

TLS-фингерпринтинг (HTTPS pinning)

Instagram проверяет не только заголовки, но и TLS-рукопожатие. Библиотека requests на Python использует TLS-шифры, отличные от Chrome или Instagram App. Это один из самых тихих и эффективных методов обнаружения ботов.

Решения:

curl_cffi — Python-обёртка над curl с имперсонацией TLS-фингерпринтов браузеров.
tls-client — Go-библиотека с Python-bindings, поддерживающая кастомные TLS-шифры.
Playwright / Puppeteer — полноценный браузер с реальным TLS, но значительно медленнее.

Пример с curl_cffi:

from curl_cffi import requests as cffi_requests

def scrape_with_tls_fingerprint(username, country="US"):
    """Запрос с TLS-фингерпринтом Chrome."""
    proxy_url = get_proxy_url(country=country,
                              session_id=f"ig-{username}")
    proxies = {"http": proxy_url, "https": proxy_url}

    resp = cffi_requests.get(
        f"https://www.instagram.com/{username}/",
        headers=build_headers(),
        proxies=proxies,
        impersonate="chrome124",
        timeout=30,
    )
    return resp.text

Сдвиг от HTML-скрейпинга к мобильному API

Тенденция последних лет: HTML-скрейпинг веб-версии Instagram становится всё менее надёжным. Instagram активно обфусцирует HTML, использует динамические class names и встраивает данные в JS-бандлы, которые сложно парсить.

Альтернатива — reverse engineering мобильного API. Мобильное приложение Instagram общается с серверами через REST API с предсказуемой структурой. Это требует больше усилий на старте, но даёт более стабильные и структурированные данные.

Основные шаги:

Перехват трафика приложения через mitmproxy или Charles Proxy.
Анализ эндпоинтов, заголовков и подписей запросов.
Репликация подписей (часто HMAC с ключом, встроенным в APK/IPA).
Имплементация в коде с ротацией прокси и device ID.

Это продвинутый подход, и он требует постоянного обновления при каждом обновлении приложения Instagram.

Пример на Node.js

Для тех, кто предпочитает JavaScript-экосистему, вот аналогичный пример с использованием undici и ProxyHat:

import { fetch } from "undici";
import { ProxyAgent } from "undici";

const PROXY_USER = "your-user";
const PROXY_PASS = "your-pass";
const PROXY_GATE = "gate.proxyhat.com:8080";

function getProxyUrl(country = "US", sessionId = null) {
  let username = `${PROXY_USER}-country-${country}`;
  if (sessionId) username += `-session-${sessionId}`;
  return `http://${username}:${PROXY_PASS}@${PROXY_GATE}`;
}

const USER_AGENTS = [
  "Mozilla/5.0 (Linux; Android 13; Pixel 7) AppleWebKit/537.36 " +
    "Chrome/124.0.0.0 Mobile Safari/537.36",
  "Mozilla/5.0 (iPhone; CPU iPhone OS 17_4 like Mac OS X) " +
    "AppleWebKit/605.1.15 Version/17.4 Mobile/15E148 Safari/604.1",
];

async function scrapeProfile(username, country = "US") {
  const sessionId = `ig-${username}-${Date.now()}`;
  const proxyUrl = getProxyUrl(country, sessionId);
  const dispatcher = new ProxyAgent(proxyUrl);

  const headers = {
    "User-Agent": USER_AGENTS[Math.floor(Math.random() * USER_AGENTS.length)],
    Accept: "text/html,application/xhtml+xml",
    "Accept-Language": "en-US,en;q=0.9",
    "Sec-Fetch-Dest": "document",
    "Sec-Fetch-Mode": "navigate",
  };

  const url = `https://www.instagram.com/${username}/`;
  const resp = await fetch(url, { headers, dispatcher });
  const html = await resp.text();

  // Парсинг _sharedData (аналогично Python-примеру)
  const match = html.match(/window\._sharedData\s*=\s*({.+?});<\/script>/);
  if (match) {
    const data = JSON.parse(match[1]);
    const user = data?.entry_data?.ProfilePage?.[0]?.graphql?.user;
    return {
      username: user?.username,
      followers: user?.edge_followed_by?.count,
      is_private: user?.is_private,
    };
  }
  return { status: "no_data", htmlLength: html.length };
}

const result = await scrapeProfile("nasa");
console.log(result);

Паттерны обработки rate-limit и ошибок

Instagram возвращает несколько типов ошибок, которые нужно обрабатывать по-разному:

HTTP-код / признак	Причина	Действие
429 Too Many Requests	Rate-limit на IP	Сменить IP (новая сессия прокси), увеличить задержку
302 → /accounts/login/	Требуется авторизация	Сменить IP, снизить скорость, использовать мобильный прокси
200 + CAPTCHA в HTML	Подозрительный трафик	Сменить IP, добавить TLS-фингерпринт
200 + пустой профиль	Shadow-ban IP	Полная смена IP и пауза 10+ минут

Рекомендуемая стратегия — экспоненциальная отсрочка с ротацией IP:

def request_with_retry(url, max_retries=3, country="US"):
    for attempt in range(max_retries):
        session_id = f"retry-{attempt}-{int(time.time())}"
        proxy_url = get_proxy_url(country=country, session_id=session_id)
        proxies = {"http": proxy_url, "https": proxy_url}

        try:
            resp = requests.get(
                url, headers=build_headers(),
                proxies=proxies, timeout=30
            )
            if resp.status_code == 200 and "login" not in resp.url:
                return resp
            elif resp.status_code == 429:
                wait = (2 ** attempt) * 30 + random.uniform(5, 15)
                print(f"Rate-limited. Ждём {wait:.0f}с...")
                time.sleep(wait)
            else:
                time.sleep(5)
        except requests.exceptions.RequestException:
            time.sleep(10)

    return None

Этический скрейпинг: когда использовать официальные API

Скрейпинг — это инструмент, а не цель. Прежде чем писать код, задайте себе три вопроса:

Существуют ли официальные API? Instagram Graph API предоставляет доступ к бизнес-аккаунтам, инсайтам и контенту. Если ваши данные доступны через API — используйте его. Это стабильнее, легальнее и дешевле в долгосрочной перспективе.
Соблюдаете ли вы robots.txt? Instagram запрещает скрейпинг в robots.txt. Это не юридический запрет само по себе, но игнорирование robots.txt — красный флаг в случае судебного разбирательства.
Нарушаете ли вы чьё-либо право на приватность? GDPR в ЕС и CCPA в Калифорнии защищают персональные данные. Сбор данных пользователей без их согласия может быть незаконным, даже если данные «публично доступны».

Когда скрейпинг оправдан

Академические исследования с одобрения IRB (Institutional Review Board).
Мониторинг собственных брендовых аккаунтов.
OSINT-исследования в общественных интересах (журналистика, безопасность).
Агрегация публичных метрик, которые сами пользователи сделали общедоступными.

Когда скрейпинг НЕ оправдан

Массовый сбор персональных данных для resale.
Автоматизация входа в аккаунт (credential stuffing, спам).
Обход paywall или закрытого контента.
Создание фейковых аккаунтов или накрутка подписчиков.

Если ваш use-case можно реализовать через Instagram Graph API или Basic Display API, используйте их. Скрейпинг — это последний ресурс, а не первый.

Ключевые выводы

Дата-центровые прокси не работают для Instagram. Используйте резидентные или мобильные прокси — это не опция, а необходимость.
Контролируйте скорость. 10 запросов в минуту с одного IP — безопасный максимум. Рандомизируйте задержки.
TLS-фингерпринтинг — реальная угроза. Используйте curl_cffi или tls-client для имитации браузерного TLS.
Instagram постоянно меняет архитектуру. ?__a=1 мёртв, GraphQL-хеши ротируются, HTML обфусцирован. Планируйте поддержку кода.
Никогда не автоматизируйте вход. Это нарушает ToS, CFAA и может привести к уголовной ответственности.
Проверяйте официальные API первыми. Instagram Graph API покрывает многие use-cases без юридических рисков.

Готовы начать сбор публичных данных Instagram с надёжной прокси-инфраструктурой? Ознакомьтесь с тарифами ProxyHat и доступными локациями резидентных прокси в 190+ странах. Для масштабных пайплайнов social-listening также рекомендуем наше руководство по web-scraping.

Скрейпинг данных Instagram: полное руководство по прокси и публичным данным

Почему скрейпинг Instagram — одна из самых сложных задач

Какие данные Instagram доступны без авторизации

Почему резидентные прокси необходимы для Instagram

Сравнение типов прокси для Instagram

Скрейпинг Instagram на Python с ротацией прокси

Базовая конфигурация

Сбор публичного профиля

Массовый сбор с rate-limiting

Специфические особенности Instagram: от ?__a=1 до мобильного API

JSON-эндпоинт ?__a=1

GraphQL-запросы

Заголовки x-ig-app-id и x-csrftoken

TLS-фингерпринтинг (HTTPS pinning)

Сдвиг от HTML-скрейпинга к мобильному API

Пример на Node.js

Паттерны обработки rate-limit и ошибок

Этический скрейпинг: когда использовать официальные API

Когда скрейпинг оправдан

Когда скрейпинг НЕ оправдан

Ключевые выводы

Готовы начать?

Почему скрейпинг Instagram — одна из самых сложных задач

Какие данные Instagram доступны без авторизации

Почему резидентные прокси необходимы для Instagram

Сравнение типов прокси для Instagram

Скрейпинг Instagram на Python с ротацией прокси

Базовая конфигурация

Сбор публичного профиля

Массовый сбор с rate-limiting

Специфические особенности Instagram: от ?__a=1 до мобильного API

JSON-эндпоинт ?__a=1

GraphQL-запросы

Заголовки x-ig-app-id и x-csrftoken

TLS-фингерпринтинг (HTTPS pinning)

Сдвиг от HTML-скрейпинга к мобильному API

Пример на Node.js

Паттерны обработки rate-limit и ошибок

Этический скрейпинг: когда использовать официальные API

Когда скрейпинг оправдан

Когда скрейпинг НЕ оправдан

Ключевые выводы

Готовы начать?

Вам также может быть интересно

Прокси для данных криптовалютных рынков: CEX-скрейпинг, on-chain и архитектура

Скрейпинг финансовых данных: полное руководство для квант-разработчиков и дата-инженеров

Прокси для данных здравоохранения: руководство по скрейпингу публичных фармацевтических данных

Как скрейпить публичные данные Facebook: руководство по работе с общедоступной информацией