Kann man Instagram ohne Login scrapen?

Ja, eingeschränkt. Öffentliche Profile, einzelne Posts und Reels sind im Browser ohne Anmeldung sichtbar. Hashtag- und Location-Seiten zeigen nur Top-Posts ohne Login. Alles, was Sie im Inkognito-Modus sehen, ist für öffentliches Scraping zugänglich.

Warum funktionieren Datacenter-Proxys nicht für Instagram?

Instagram unterhält eine aggressive Blocklist für IP-Ranges von Cloud-Providern (AWS, GCP, Azure etc.). Datacenter-IPs werden innerhalb von 1–5 Requests erkannt und mit einer Login-Wall oder HTTP 429 blockiert. Residential Proxys nutzen echte Heim-IPs und werden nicht als bot-artig eingestuft.

Was ist der ?__a=1 Endpoint bei Instagram?

Der ?__a=1 Parameter lieferte früher strukturiertes JSON statt HTML. Instagram hat diesen Endpoint 2021 für anonyme Zugriffe abgeschaltet. Heute funktioniert er nur noch mit einer eingeloggten Session. Für öffentliches Scraping extrahieren Sie Daten stattdessen aus dem eingebetteten JSON (window._sharedData) in der HTML-Seite.

Welches Rate-Limit sollte ich beim Instagram-Scraping einhalten?

Als Richtwert: maximal 1 Request alle 5–10 Sekunden pro IP mit zufälligem Jitter. Bei HTTP 429-Fehlern exponentielles Backoff anwenden (30s → 60s → 120s). Maximal 500–1000 Requests pro IP und Tag sind ein sicherer Rahmen.

Ist Instagram-Scraping legal?

Das Scraping öffentlich zugänglicher Daten ist in vielen Jurisdiktionen rechtlich zulässig, aber Instagrams Nutzungsbedingungen verbieten es. Automatisierte Logins und das Extrahieren privater Daten können gegen den CFAA (USA) oder die DSGVO (EU) verstoßen. Prüfen Sie robots.txt, respektieren Sie Privatsphäre-Einstellungen und ziehen Sie offizielle APIs in Betracht.

Instagram Scraping mit Proxys – Leitfaden 2025 | ProxyHat

Warum Instagram-Scraping so herausfordernd ist

Instagram gehört zu den am stärksten geschützten Plattformen im Web. Wer versucht, Daten im großen Maßstab zu extrahieren, trifft auf eine Kombination aus Rate Limits, Login-Walls, Anti-Bot-Systemen und Device Fingerprinting, die nahezu jeden naiven Ansatz schnell blockiert.

Wichtiger Hinweis: Dieser Artikel behandelt ausschließlich den Zugriff auf öffentlich zugängliche Daten. Das automatisierte Login, das Umgehen von Zugangsbeschränkungen oder das Extrahieren privater Inhalte verstößt gegen die Nutzungsbedingungen von Instagram und kann gegen Gesetze wie den CFAA (USA) oder die DSGVO (EU) verstoßen. Verwenden Sie offizielle APIs, wo immer möglich, und scrapen Sie nur Daten, die ohne Anmeldung sichtbar sind.

Rate Limits und Login-Wall

Instagram limitiert anonyme Zugriffe aggressiv. Ohne eingeloggten Session-Cookie erhalten Sie nach wenigen Requests einen Redirect zur Login-Seite oder einen HTTP 429-Status. Selbst mit Session-Cookie gelten strenge Limits – etwa 200 Requests pro Stunde pro Konto, bevor die Session gedrosselt wird.

Anti-Bot- und Fingerprinting-Systeme

Instagram nutzt eine Kombination aus:

Browser-Fingerprinting – Canvas, WebGL, Font-Enumeration und Timing-Analysen
Device-ID-Tracking – die mobile App sendet eine gerätegebundene UUID (X-DEVICE-ID)
Behavioral Analysis – Mausbewegungen, Scroll-Patterns, Klick-Intervalle
IP-Reputation – Datacenter-IPs werden innerhalb weniger Requests erkannt und blockiert

Diese Systeme sind der Grund, warum einfache requests.get()-Aufrufe ohne Proxy-Infrastruktur fast immer fehlschlagen.

Welche Daten ohne Login zugänglich sind

Trotz der Restriktionen bleibt ein Teil von Instagram öffentlich über den Browser erreichbar:

Datentyp	URL-Muster	Ohne Login?	Hinweise
Öffentliche Profile	`instagram.com/{username}`	Ja	Bio, Follower-Zahl, letzte Posts
Hashtag-Seiten	`instagram.com/explore/tags/{tag}`	Eingeschränkt	Nur Top-Posts ohne Login
Location-Seiten	`instagram.com/explore/locations/{id}`	Eingeschränkt	Ähnlich wie Hashtags
Einzelne Posts	`instagram.com/p/{shortcode}`	Ja	Bild, Caption, Kommentare (begrenzt)
Reels-Feeds	`instagram.com/reels/{shortcode}`	Ja	Video-Metadaten, Audio-Info

Der Schlüssel ist: Was Sie im Inkognito-Modus ohne Anmeldung sehen können, ist fair game für öffentliches Scraping. Alles andere erfordert eine Anmeldung und fällt in den Bereich der automatisierten Konto-Nutzung – etwas, das wir hier nicht behandeln.

Warum Residential Proxys für Instagram unverzichtbar sind

Instagram pflegt eine der aggressivsten Datacenter-IP-Blocklists der Branche. AWS, GCP, Azure, DigitalOcean – praktisch alle großen Cloud-Provider-IP-Ranges werden erkannt und innerhalb von 1–5 Requests mit einer Login-Wall oder einem 429-Fehler beantwortet.

Datacenter vs. Residential vs. Mobile Proxys

Proxy-Typ	IG-Erkennungsrate	Erfolg bei öffentl. Profilen	Kosten	Einsatzgebiet
Datacenter	Sehr hoch (>95%)	< 10%	Niedrig	Nicht empfohlen für IG
Residential (rotierend)	Niedrig (< 10%)	80–95%	Mittel	Standard für IG-Scraping
Mobile (4G/5G)	Minimal (< 2%)	95–99%	Hoch	Maximale Zuverlässigkeit

Residential Proxys erscheinen als reguläre Heim-Verbindungen. Instagram kann sie nicht ohne Weiteres von echten Nutzern unterscheiden. Mobile Proxys sind noch besser – sie nutzen echte Mobilfunk-IPs, die Instagram naturgemäß vertraut, da ein Großteil des echten Traffics von Mobilgeräten stammt.

Für die meisten Social-Listening-Pipelines sind rotierende Residential Proxys das optimale Verhältnis von Kosten zu Zuverlässigkeit.

Python-Beispiel: requests mit rotierendem Residential-Proxy-Pool

Das folgende Beispiel zeigt, wie Sie öffentliche Instagram-Profile mit requests, realistischen Headern, User-Agent-Rotation und Session-Isolation scrapen.

import requests
import random
import time
from fake_useragent import UserAgent

# ProxyHat Residential Proxy – pro Request neue IP über User-Pass-Rotation
PROXY_URL = "http://user-country-US:PASSWORD@gate.proxyhat.com:8080"

# Alternativ: Sticky Session für zusammenhängende Requests
# PROXY_STICKY = "http://user-country-US-session-abc123:PASSWORD@gate.proxyhat.com:8080"

ua = UserAgent()

def get_random_headers():
    """Realistische Browser-Header mit rotierendem User-Agent."""
    return {
        "User-Agent": ua.random,
        "Accept": "text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,*/*;q=0.8",
        "Accept-Language": "en-US,en;q=0.9",
        "Accept-Encoding": "gzip, deflate, br",
        "Connection": "keep-alive",
        "Sec-Fetch-Dest": "document",
        "Sec-Fetch-Mode": "navigate",
        "Sec-Fetch-Site": "none",
        "Sec-Fetch-User": "?1",
        "Upgrade-Insecure-Requests": "1",
    }

def scrape_profile(username: str) -> dict | None:
    """Scrape öffentliche Profilseite eines Instagram-Nutzers."""
    url = f"https://www.instagram.com/{username}/"
    proxies = {"http": PROXY_URL, "https": PROXY_URL}

    try:
        resp = requests.get(
            url,
            headers=get_random_headers(),
            proxies=proxies,
            timeout=20,
            allow_redirects=False,
        )

        if resp.status_code == 302 and "login" in resp.headers.get("Location", ""):
            print(f"[{username}] Login-Wall getroffen – Proxy möglicherweise erkannt")
            return None

        if resp.status_code == 429:
            print(f"[{username}] Rate Limited – pausiere...")
            time.sleep(random.uniform(30, 60))
            return None

        if resp.status_code != 200:
            print(f"[{username}] Unerwarteter Status: {resp.status_code}")
            return None

        # Metadaten aus dem embedded JSON extrahieren
        text = resp.text
        marker = 'window._sharedData = '
        idx = text.find(marker)
        if idx == -1:
            marker = 'window.__initial_data = '
            idx = text.find(marker)

        if idx != -1:
            import json, re
            json_start = idx + len(marker)
            json_end = text.find(";</script>", json_start)
            raw = text[json_start:json_end]
            data = json.loads(raw)
            return data

        print(f"[{username}] Keine eingebetteten Daten gefunden")
        return None

    except requests.RequestException as e:
        print(f"[{username}] Request-Fehler: {e}")
        return None

# Beispiel-Aufruf mit Rate-Limiting
usernames = ["nasa", "natgeo", "nasa_jpl"]
for name in usernames:
    result = scrape_profile(name)
    if result:
        print(f"✓ {name} – Daten erhalten")
    time.sleep(random.uniform(5, 12))  # Selbst auferlegtes Rate-Limit

Wichtige Punkte:

Jeder Request durchläuft einen anderen Residential-Exit-Knoten – Instagram sieht eine andere IP.
allow_redirects=False fängt Login-Redirects ab, bevor sie stillschweigend folgen.
Das Pausenintervall von 5–12 Sekunden simuliert menschliches Verhalten.
Für zusammenhängende Requests (z. B. Profil + Posts) verwenden Sie eine Sticky Session.

Node.js-Beispiel mit axios

const axios = require('axios');
const { HttpsProxyAgent } = require('https-proxy-agent');

const PROXY_URL = 'http://user-country-US:PASSWORD@gate.proxyhat.com:8080';
const agent = new HttpsProxyAgent(PROXY_URL);

const USER_AGENTS = [
  'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 Chrome/125.0.0.0',
  'Mozilla/5.0 (Macintosh; Intel Mac OS X 14_5) AppleWebKit/605.1.15 Safari/17.5',
  'Mozilla/5.0 (X11; Linux x86_64; rv:127.0) Gecko/20100101 Firefox/127.0',
];

async function scrapeProfile(username) {
  const url = `https://www.instagram.com/${username}/`;
  const headers = {
    'User-Agent': USER_AGENTS[Math.floor(Math.random() * USER_AGENTS.length)],
    'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
    'Accept-Language': 'en-US,en;q=0.9',
    'Sec-Fetch-Dest': 'document',
    'Sec-Fetch-Mode': 'navigate',
    'Sec-Fetch-Site': 'none',
  };

  try {
    const resp = await axios.get(url, {
      headers,
      httpsAgent: agent,
      timeout: 20000,
      maxRedirects: 0,
      validateStatus: (s) => s < 400,
    });

    if (resp.status === 302) {
      console.log(`[${username}] Login-Wall`);
      return null;
    }
    if (resp.status === 429) {
      console.log(`[${username}] Rate Limited`);
      return null;
    }

    // Embedded JSON extrahieren
    const match = resp.data.match(/window\._sharedData\s*=\s*({.+?});<\/script>/s);
    if (match) {
      return JSON.parse(match[1]);
    }
    console.log(`[${username}] Keine Daten gefunden`);
    return null;
  } catch (err) {
    console.error(`[${username}] Fehler: ${err.message}`);
    return null;
  }
}

// Beispiel
scrapeProfile('nasa').then(d => d && console.log('✓ nasa – Daten erhalten'));

IG-spezifische Quirks und technische Herausforderungen

Die `?__a=1` JSON-Endpoint-Ära (und ihr Ende)

Lange Zeit war https://www.instagram.com/{username}/?__a=1 der einfachste Weg, um strukturiertes JSON statt HTML zu erhalten. Instagram hat diesen Endpoint 2021 schrittweise abgeschaltet und durch Login-Pflicht ersetzt. Heute liefert ?__a=1 ohne Session-Cookie nur noch einen Redirect zur Login-Seite.

Fazit: Verlassen Sie sich nicht auf ?__a=1. Es funktioniert nicht mehr ohne Authentifizierung.

GraphQL-Queries und App-API-Header

Instagrams Web-Frontend nutzt GraphQL-Queries, die über den graphql/query-Endpoint laufen. Diese Requests erfordern spezifische Header:

x-ig-app-id – die Instagram Web-App-ID (häufig 936619743392459)
x-csrftoken – ein CSRF-Token, das aus dem Cookie csrftoken stammt
x-requested-with – XMLHttpRequest

# GraphQL-Query-Beispiel – erfordert Session-Cookies
import requests

GRAPHQL_URL = "https://www.instagram.com/graphql/query/"
HEADERS = {
    "x-ig-app-id": "936619743392459",
    "x-csrftoken": "YOUR_CSRF_TOKEN",  # Aus Session-Cookie
    "x-requested-with": "XMLHttpRequest",
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) Chrome/125.0.0.0",
}

# ACHTUNG: Dies erfordert eine eingeloggte Session.
# Wir zeigen dies nur zur Dokumentation der API-Struktur.
# Automatisierte Logins verstoßen gegen die IG-Nutzungsbedingungen.

Wichtig: Der GraphQL-Endpoint erfordert eine aktive Session. Da wir automatisierte Logins ablehnen, ist dieser Pfad für ethisches Scraping nur relevant, wenn Sie manuell einen Session-Cookie aus einem eigenen Konto extrahieren und in Ihrem Tool verwenden – was allerdings gegen die Nutzungsbedingungen verstoßen kann.

HTTPS-Pinning in der Mobile App

Instagrams mobile App implementiert Certificate Pinning – sie akzeptiert nur Zertifikate, die von Meta selbst ausgestellt wurden. Das bedeutet:

MITM-Proxys (wie mitmproxy) können den App-Traffic nicht ohne Weiteres abfangen
Um die Mobile-API zu reverse-engineeren, müssen Sie entweder das APK patchen oder einen Emulator mit deaktiviertem Pinning nutzen
Dies ist ein erhebliches technisches Hindernis und einer der Gründe, warum viele Entwickler zur Web-Version zurückkehren

Vom HTML-Scraping zur Mobile-API-Reverse-Engineering

Die Entwicklung von Instagram-Scraping hat mehrere Phasen durchlaufen:

2016–2019: Öffentliche JSON-API (?__a=1) – trivial einfach
2019–2021: GraphQL-Queries mit einfachen Headern – moderat
2021–2024: Login-Wall, verschlüsselte Responses – schwierig
2025+: Mobile-API-Reverse-Engineering, verschlüsselte Payloads – sehr schwierig

Für öffentliche Daten ohne Login bleibt das HTML-Scraping der Profilseiten der praktikabelste Ansatz. Die Daten sind in window._sharedData oder window.__initial_data eingebettet und können mit Regex oder einem HTML-Parser extrahiert werden.

Rate-Limit-Strategien und Fingerprint-Risiken

Intelligentes Rate-Limiting

Eine feste Wartezeit zwischen Requests ist nicht ausreichend. Instagram erkennt gleichmäßige Intervalle als bot-artig. Nutzen Sie stattdessen:

Jitter: Zufällige Verzögerungen mit random.uniform(min, max)
Burst-Backoff: Nach einem 429-Fehler exponentiell zurückgehen (30s → 60s → 120s)
Tageslimits: Maximal 500–1000 Requests pro IP und Tag als Sicherheitsmarge
Geo-Konsistenz: Ein Nutzer aus Berlin sollte nicht plötzlich aus Tokio zugreifen – nutzen Sie Geo-konsistente Proxys

import time, random

def smart_delay(attempt: int, base: float = 5.0):
    """Jitter + exponentielles Backoff nach Fehlern."""
    if attempt == 0:
        # Normaler Request-Jitter
        delay = base + random.uniform(2, 8)
    else:
        # Exponentielles Backoff nach Rate-Limit
        delay = base * (2 ** attempt) + random.uniform(5, 30)
    time.sleep(min(delay, 300))  # Max 5 Minuten
    return delay

Fingerprint-Risiken minimieren

Header-Reihenfolge: Browser senden Header in einer bestimmten Reihenfolge – requests sortiert sie alphabetisch. Nutzen Sie urllib3 oder einen Custom HTTP-Client, um die Reihenfolge zu kontrollieren.
TLS-Fingerprint: Pythons requests-Bibliothek hat einen erkennbaren JA3/TLS-Fingerprint. Tools wie curl_cffi oder tls-client können Browser-TLS-Fingerprints emulieren.
Cookie-Verhalten: Akzeptieren Sie Cookies wie ein echter Browser – speichern Sie sie und senden Sie sie bei Folgerequests mit.

Wann Sie offizielle APIs statt Scraping verwenden sollten

Instagram bietet über die Meta Graph API offizielle Endpunkte für Geschäftskonten. Diese API ist die richtige Wahl, wenn:

Sie Metriken für eigene Business- oder Creator-Konten benötigen
Sie mit Instagram-Partnern arbeiten und legitimierten Zugriff haben
Sie DSGVO-konform arbeiten müssen – die API liefert nur Daten, für die eine Einwilligung vorliegt

Scraping ist nur dann gerechtfertigt, wenn:

Sie auf öffentlich sichtbare Daten zugreifen, die auch im Inkognito-Modus ohne Anmeldung sichtbar sind
Keine offizielle API den gewünschten Datentyp bereitstellt
Sie die Daten für legitime Zwecke wie Social Listening, Trendanalyse oder Forschung verwenden

Ethisches Scraping: Leitlinien und Grenzen

Respektieren Sie robots.txt: Instagrams robots.txt verbietet das Scraping der meisten Pfade. Prüfen Sie https://www.instagram.com/robots.txt regelmäßig.
Rate-limiten Sie sich selbst: Maximal 1 Request alle 5–10 Sekunden pro IP. Kein paralleles Bombardement.
Kein Login-Automation: Automatisierte Anmeldungen verstoßen gegen die Nutzungsbedingungen und können zur Kontosperrung oder rechtlichen Schritten führen.
Keine privaten Daten: Wenn ein Profil auf privat gestellt wird, respektieren Sie das. Scrapen Sie niemals private Inhalte.
DSGVO und CCPA: Personenbezogene Daten (Name, Standort, Bilder) unterliegen Datenschutzgesetzen. Speichern und verarbeiten Sie diese nur mit Rechtsgrundlage.
Datenminimierung: Sammeln Sie nur die Daten, die Sie tatsächlich benötigen, und löschen Sie sie nach der Verwendung.

Key Takeaways

Instagram ist eine der am stärksten geschützten Plattformen – Datacenter-IPs werden innerhalb weniger Requests blockiert.
Nur Daten, die im Inkognito-Modus ohne Anmeldung sichtbar sind, sind für öffentliches Scraping zugänglich.
Residential Proxys sind für Instagram-Scraping unverzichtbar – sie bieten 80–95% Erfolgsrate gegenüber < 10% bei Datacenter-IPs.
Der ?__a=1-Endpoint funktioniert nicht mehr ohne Login – extrahieren Sie Daten aus dem eingebetteten JSON in der HTML-Seite.
Rate-Limiting mit Jitter und exponentiellem Backoff ist essentiell, um nicht erkannt zu werden.
TLS-Fingerprinting ist ein wachsendes Risiko – nutzen Sie Bibliotheken wie curl_cffi, um Browser-Fingerprints zu emulieren.
Ethisches Scraping bedeutet: keine automatisierten Logins, keine privaten Daten, DSGVO-Konformität und Respekt vor robots.txt.

ProxyHat für Instagram-Scraping

ProxyHat bietet rotierende Residential Proxys mit Geo-Targeting und Sticky Sessions – ideal für Social-Listening-Pipelines, die auf öffentliche Instagram-Daten angewiesen sind.

Rotierende IPs: Jeder Request über eine neue Residential-IP – http://user-country-US:PASS@gate.proxyhat.com:8080
Sticky Sessions: Für zusammenhängende Requests – http://user-country-US-session-abc123:PASS@gate.proxyhat.com:8080
Geo-Targeting: Städtegenaue Ausrichtung – http://user-country-DE-city-berlin:PASS@gate.proxyhat.com:8080
SOCKS5: Für erweiterte Protokollunterstützung – socks5://user-country-US:PASS@gate.proxyhat.com:1080

Entdecken Sie die ProxyHat-Preise oder prüfen Sie die verfügbaren Proxy-Standorte. Weitere Anleitungen finden Sie in unseren Artikeln zu Web-Scraping und SERP-Tracking.

Instagram Scraping mit Proxys: Der vollständige Leitfaden für öffentliche Daten

Warum Instagram-Scraping so herausfordernd ist

Rate Limits und Login-Wall

Anti-Bot- und Fingerprinting-Systeme

Welche Daten ohne Login zugänglich sind

Warum Residential Proxys für Instagram unverzichtbar sind

Datacenter vs. Residential vs. Mobile Proxys

Python-Beispiel: requests mit rotierendem Residential-Proxy-Pool

Node.js-Beispiel mit axios

IG-spezifische Quirks und technische Herausforderungen

Die `?__a=1` JSON-Endpoint-Ära (und ihr Ende)

GraphQL-Queries und App-API-Header

HTTPS-Pinning in der Mobile App

Vom HTML-Scraping zur Mobile-API-Reverse-Engineering

Rate-Limit-Strategien und Fingerprint-Risiken

Intelligentes Rate-Limiting

Fingerprint-Risiken minimieren

Wann Sie offizielle APIs statt Scraping verwenden sollten

Ethisches Scraping: Leitlinien und Grenzen

Key Takeaways

ProxyHat für Instagram-Scraping

Bereit loszulegen?

Warum Instagram-Scraping so herausfordernd ist

Rate Limits und Login-Wall

Anti-Bot- und Fingerprinting-Systeme

Welche Daten ohne Login zugänglich sind

Warum Residential Proxys für Instagram unverzichtbar sind

Datacenter vs. Residential vs. Mobile Proxys

Python-Beispiel: requests mit rotierendem Residential-Proxy-Pool

Node.js-Beispiel mit axios

IG-spezifische Quirks und technische Herausforderungen

Die ?__a=1 JSON-Endpoint-Ära (und ihr Ende)

GraphQL-Queries und App-API-Header

HTTPS-Pinning in der Mobile App

Vom HTML-Scraping zur Mobile-API-Reverse-Engineering

Rate-Limit-Strategien und Fingerprint-Risiken

Intelligentes Rate-Limiting

Fingerprint-Risiken minimieren

Wann Sie offizielle APIs statt Scraping verwenden sollten

Ethisches Scraping: Leitlinien und Grenzen

Key Takeaways

ProxyHat für Instagram-Scraping

Bereit loszulegen?

Das könnte Sie auch interessieren

Crypto Market Data Scraping: Proxies für Börsen-APIs und On-Chain-Daten

Financial Data Scraping: Finanzmarktdaten zuverlässig und skalierbar extrahieren

Healthcare Data Proxies: Öffentliche Gesundheitsdaten compliant scrapen

Facebook öffentliche Daten scrapen: Leitfaden für Public-Data-Analysten

Die `?__a=1` JSON-Endpoint-Ära (und ihr Ende)