Co powoduje zakaz proxy i jak ich unikać

Odkryj, co powoduje zakazy proxy - od nadmiernych żądań i reputacji IP po niedopasowanie odcisków palców. Naucz się strategii zapobiegania i technik odzyskiwania.

Co powoduje zakaz proxy i jak ich unikać

Dlaczego Proxies Get Banned?

Zakaz proxy występuje, gdy docelowa strona internetowa blokuje ruch z określonego adresu IP lub zakresu adresów. Strona internetowa ustaliła - za pomocą różnych sygnałów - że ruch pochodzący z tego IP jest zautomatyzowany, obraźliwy lub w inny sposób niechciany, i odmawia obsługi kolejnych wniosków z niego.

Zrozumienie, dlaczego zakazy się zdarzają, jest pierwszym krokiem w kierunku zapobiegania im. Czy jesteś przeglądanie stron internetowych, monitorowanie cen lub śledzenie SERPZnając sygnały wykrywające i sposób ich łagodzenia, znacznie poprawisz swój wskaźnik sukcesu.

Przyczepy typu "Common Ban"

1. Nadmierny wolumen żądania

Podstawowym sygnałem detekcji jest szybkość żądania. Jeśli jeden IP wysyła 100 wniosków na sekundę na tę samą stronę internetową, to nie jest to oczywiście ludzkie przeglądanie. Większość stron internetowych ustala limity stawek - progi, które uruchamiają bloki lub CAPTCHA po przekroczeniu. Limity te różnią się znacznie: niektóre strony pozwalają na 10 wniosków na minutę na IP, podczas gdy inne tolerują setki.

2. Znane Proxy / Datacenter Ranges IP

Usługi wywiadowcze IP (MaxMind, IPinfo, IP2Location) klasyfikują IP według typu. Dane IP są łatwe do zidentyfikowania, ponieważ należą do dostawców usług hostingowych ASN (AWS, Google Cloud, OVH). Wiele stron internetowych automatycznie blokuje lub kwestionuje cały ruch z znanych zakresów IP danych. Dlatego proxy mieszkaniowe mają wyższe wskaźniki sukcesu - ich IP są klasyfikowane jako połączenia konsumenckie.

3. Czarne listy reputacji IP

Wiele usług prowadzi czarną listę adresów IP, o których wiadomo, że są wykorzystywane do skrobania, spamowania lub innej zautomatyzowanej działalności. Gdy na tych listach pojawi się Twój proxy IP, strony internetowe, które subskrybują usługę czarnej listy, zablokują Cię z wyprzedzeniem - nawet przed wysłaniem pojedynczego wniosku. Monitorowanie zdrowia w basenie pomaga dostawcom usunąć czarnorynkowe IP z obrotu.

4. Podejrzane wzory żądań

Nawet przy rozsądnych stawkach, Twój wzorzec ruchu może ujawnić automatyzację:

  • Jednolity czas: Wnioski przychodzące w dokładnych odstępach czasu (co 2,0 sekundy) zamiast przypadkowych przerw w przeglądaniu ludzi
  • Dostęp sekwencyjny: Wizyty na stronach w porządku alfabetycznym lub numerycznym, a nie na naturalnych ścieżkach nawigacyjnych
  • Brak wczytywania podzasobów: Prawdziwe przeglądarki wczytywane obrazy, CSS, JavaScript i czcionki - scrapers, które pobierają tylko HTML wyróżniają się
  • Brak nagłówków odsyłacza: Przeglądarki zawsze wysyłać referrer podczas nawigacji między stronami; scrapers często nie
  • Nieprawidłowe wzorce głębokości: Wpełzanie głęboko do kategorii przed przejściem do następnej, zamiast przeglądania jak człowiek

5. Niedopasowane odciski palców

Systemy antybotowe skorelować wiele sygnałów, aby zbudować profil odwiedzających. Kiedy sygnały te są sprzeczne, odwiedzający jest oznaczony:

  • Niezgodność Geo: IP mówi Niemcy, ale strefa czasowa przeglądarki jest US Pacific i Accept- Język jest en-US
  • Odcisk palca TLS: Podpis TLS Client Hello nie pasuje do żądanej przeglądarki (np., Python żąda biblioteki twierdzącej, że jest Chrome)
  • Wykonanie JavaScript: Test skryptów wykrywających bot dla API przeglądarki, że przeglądarki bez głowy mogą nie w pełni wdrożyć
  • Wyciek WebRTC: WebRTC może ujawnić prawdziwe IP za proxy, jeśli nie jest poprawnie skonfigurowane

6. Skoncentrowany ruch podsieci

Jeżeli wiele IP z tej samej / 24 podsieci (np. 185.23.100.1 do 185.23.100.254) trafiło na tę samą stronę, strona może zablokować całą podsieć. Dobrze. Rotacja IP algorytmy zapewniają różnorodność podsieci pomiędzy kolejnymi wnioskami.

7. Anomalie sesji i plików cookie

Strony internetowe ustawiają cookies podczas pierwszej wizyty i oczekują ich na kolejnych próbach. Rozdrabniacze, które nie utrzymują plików cookies, które są obecne lub które wykazują niespójny stan sesji (zalogowany na jednym wniosku, anonimowy na następnym) wywołują podejrzenia.

Rodzaje zakazów i bloków

Typ blokuJak to wygląda?Stopień ciężkościOdzyskanie pomocy
Wyzwanie CAPTCHAStrona CAPTCHA zamiast zawartościMiękki blokObróć IP, zwolnij
HTTP 403 ZakazaneOdmowa dostępuŚredni blokObróć IP, zmień odcisk palca
HTTP 429 Zbyt wiele żądańPrzekroczony limit stawkiMiękki blokCzekać i ponownie, zmniejszyć szybkość
Odpowiedź pusta / uszkodzonaDane dotyczące pustej strony lub odpadówBlok stealthWeryfikacja przy pomocy innego IP
Przekieruj do strony blokującejWysłany do "zablokowanego" zawiadomieniaŚredni blokObróć adres IP, sprawdź nagłówki
Czarna lista IPCzas połączenia lub resetTwardy blokIP jest spalone, użyj innego
Zakaz podsieci / ASNWszystkie IP w zakresie zablokowaneTwardy blokPrzełącz na inny ASN

Strategie zapobiegania

Użyj profili mieszkalnych dla celów chronionych

Proxy mieszkalne mieć IP przypisane przez dostawców usług internetowych do rzeczywistych gospodarstw domowych. Przekazują one kontrole poziomu ASN, które blokują IP danych. Dla stron internetowych o silnej ochrony anty-bot, proxy mieszkaniowe są podstawowym wymogiem. Dla najbardziej agresywnych celów, mobilne proxy oferują jeszcze większe zaufanie ze względu na udostępnianie IP CGNAT.

Wdrożenie ograniczenia Smart Rate

Nie uderzaj w cel tak szybko, jak pozwala połączenie. Zamiast tego:

  • Badania wartości granicznych docelowych (spróbuj eskalacji częstotliwości żądania aż zobaczysz 429s lub CAPTCHA)
  • Dodaj losowe opóźnienia pomiędzy żądaniami (np. 1- 5 sekund z jitterem)
  • Rozpowszechnianie żądań w czasie zamiast wysyłania ich w pękach
  • Użyj różnych limitów stawek dla różnych punktów końcowych (wyszukiwanie stron vs strony produktu)
import time
import random
import requests
PROXY = "http://USERNAME:PASSWORD@gate.proxyhat.com:8080"
for url in urls:
    resp = requests.get(
        url,
        proxies={"http": PROXY, "https": PROXY},
        timeout=15,
    )
    # Random delay between 1.5 and 4.5 seconds
    time.sleep(random.uniform(1.5, 4.5))

Obróć IP inteligentnie

Rotacja IP dystrybuuje ruch na wielu adresach. Jednak rotacja musi być połączona z innymi strategiami:

  • Obróć wniosek o pobranie niezależnych stron
  • Użyj lepkich sesji dla wielostopniowych przepływów roboczych wymagających ciągłości sesji
  • Zapewnienie różnorodności podsieci - nie wysyłaj kolejnych żądań z tego samego / 24 zakresu
  • Dopasuj strategię rotacji do czułości celu - bardziej agresywne strony potrzebują szybszej rotacji

Ustaw realistyczne nagłówki

Każda prośba powinna zawierać nagłówki pasujące do prawdziwej przeglądarki:

headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/124.0.0.0 Safari/537.36",
    "Accept": "text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,*/*;q=0.8",
    "Accept-Language": "en-US,en;q=0.9",
    "Accept-Encoding": "gzip, deflate, br",
    "Connection": "keep-alive",
    "Upgrade-Insecure-Requests": "1",
    "Sec-Fetch-Dest": "document",
    "Sec-Fetch-Mode": "navigate",
    "Sec-Fetch-Site": "none",
    "Sec-Fetch-User": "?1",
}

Obróć struny User- Agent na zestaw aktualnych, popularnych przeglądarek. Upewnij się, że User- Agent pasuje do odcisków palców TLS - twierdząc, że jest Chrome podczas wysyłania podpisu Python TLS jest natychmiastową czerwoną flagą.

Align Geo Signals

Podczas stosowania proxy geoukierunkowane, dostosować wszystkie metadane żądania do lokalizacji pełnomocnika:

  • Ustaw Accept-Language dopasowanie języka ojczystego
  • Jeśli używasz automatyzacji przeglądarki, ustaw strefę czasową, aby dopasować geografię proxy
  • Wyłącz WebRTC, aby zapobiec przeciekom z IP

Obsługa plików cookie i sesji prawidłowo

Utrzymywanie plików cookie w trakcie sesji. Użyj obiektu sesji (jak requests.Session() w Pythonie), który automatycznie obsługuje wytrwałość plików cookie. Podczas obracania IP, również uruchomić świeży słoik ciasteczek - nie nosić ciasteczka z jednego IP do drugiego, ponieważ powoduje to niespójność.

Techniki odzyskiwania

Wykrywanie zakazów wcześnie

Nie czekaj, aż cały rurociąg zawiedzie. Monitor sygnałów zakazujących:

  • Wskaźnik sukcesu ścieżki dla domeny docelowej - nagły spadek wskazuje, że zaczynają się zakazy
  • Patrz na strony CAPTCHA (sprawdź organ odpowiedzi dla wskaźników CAPTCHA)
  • Rozmiary odpowiedzi monitora - zablokowane odpowiedzi są często znacznie mniejsze niż rzeczywiste strony
  • Sprawdź czas reakcji - niektóre strony celowo powolne odpowiedzi na podejrzane boty (plandeka)

Wdrażanie logiki retry

import requests
from time import sleep
PROXY = "http://USERNAME:PASSWORD@gate.proxyhat.com:8080"
def fetch_with_retry(url, max_retries=3):
    for attempt in range(max_retries):
        resp = requests.get(
            url,
            proxies={"http": PROXY, "https": PROXY},
            timeout=15,
        )
        if resp.status_code == 200 and len(resp.text) > 1000:
            return resp
        # Exponential backoff before retry (new IP via rotation)
        sleep(2 ** attempt)
    return None

Strategia eskalacji

Kiedy bloki utrzymują się, eskaluj swoje podejście:

  1. Po pierwsze: Zmniejsz stopę zapotrzebowania i dodaj bardziej randomizowane opóźnienia
  2. Po drugie: Przełącz z danych do proxy mieszkaniowe
  3. Po trzecie: Dodaj automatyzację przeglądarki (Puppeteer / Playwright), aby wykonać JavaScript i przekazać kontrolę przeglądarki
  4. Czwarty: Wdrożenie pełnego zarządzania odciskami palców (TLS, płótnie, WebGL)
  5. Po piąte: Użyj mobilnych proxy do klasyfikacji IP highest- trust
Klucz na wynos: Zakazy proxy są spowodowane przez kombinację sygnałów - nie tylko adres IP. Zapobieganie zakażeniom wymaga całościowego podejścia: jakości proxy z inteligentna rotacja, realistyczne wzory wniosków, właściwe nagłówki i spójne odciski palców. Kiedy pojawiają się zakazy, wykryj je wcześnie i eskaluj swoją strategię stopniowo.

Często zadawane pytania

Jak długo proxy zwykle trwają?

Różni się w zależności od celu. Niektóre miejsca blokują IP na minuty lub godziny, inne na dni lub na stałe. Bloki graniczne (429) zwykle wygasają w ciągu kilku minut. Czarne listy IP mogą trwać miesiącami. Z rotacyjnymi proxy, czas trwania zakazu jest mniej istotny, ponieważ automatycznie uzyskać świeży IP.

Czy obrotowe proxy mogą zapobiec wszystkim zakazaniom?

Zapobieganie rotacji IP- based Zakaz kaskadowania, ale nie odnosi się do wykrywania odcisków palców czy zachowań. Potrzebujesz rotacji plus realistyczne wzory żądań, właściwe nagłówki i spójne odciski palców przeglądarki.

Który typ proxy jest najmniej prawdopodobny, że zostanie zakazany?

Mobile Proxy mają najniższy wskaźnik zakazu, ponieważ mobilne IP są udostępniane przez wielu rzeczywistych użytkowników za pośrednictwem CGNAT. Następne proxy mieszkaniowe, a następnie Proxy ISP. Datacenter proxy mają najwyższy wskaźnik zakazu na chronionych stronach.

Skąd mam wiedzieć, czy mój proxy IP jest już na czarnej liście?

Sprawdź IP przed rozpoczęciem dużej pracy. Wyślij jedną prośbę i potwierdź, że uzyskasz normalną odpowiedź. Można również sprawdzić IP z publicznych usług czarnej listy, choć nie obejmują one wszystkich prywatnych czarnych list, które strony internetowe utrzymują.

Czy powinienem użyć tego samego pełnomocnika dla wszystkich moich celów?

Nie. Różne cele mają różne wrażliwości. Stosowanie dedykowane proxy dla wysokiej wartości, stałych zadań i wspólnych rotacyjnych proxy do gromadzenia danych masowych. Dopasuj typ proxy i strategię do poziomu ochrony każdego celu.

Gotowy, aby zacząć?

Dostęp do ponad 50 mln rezydencjalnych IP w ponad 148 krajach z filtrowaniem AI.

Zobacz cenyProxy rezydencjalne
← Powrót do Bloga