Dlaczego Proxies Get Banned?
Zakaz proxy występuje, gdy docelowa strona internetowa blokuje ruch z określonego adresu IP lub zakresu adresów. Strona internetowa ustaliła - za pomocą różnych sygnałów - że ruch pochodzący z tego IP jest zautomatyzowany, obraźliwy lub w inny sposób niechciany, i odmawia obsługi kolejnych wniosków z niego.
Zrozumienie, dlaczego zakazy się zdarzają, jest pierwszym krokiem w kierunku zapobiegania im. Czy jesteś przeglądanie stron internetowych, monitorowanie cen lub śledzenie SERPZnając sygnały wykrywające i sposób ich łagodzenia, znacznie poprawisz swój wskaźnik sukcesu.
Przyczepy typu "Common Ban"
1. Nadmierny wolumen żądania
Podstawowym sygnałem detekcji jest szybkość żądania. Jeśli jeden IP wysyła 100 wniosków na sekundę na tę samą stronę internetową, to nie jest to oczywiście ludzkie przeglądanie. Większość stron internetowych ustala limity stawek - progi, które uruchamiają bloki lub CAPTCHA po przekroczeniu. Limity te różnią się znacznie: niektóre strony pozwalają na 10 wniosków na minutę na IP, podczas gdy inne tolerują setki.
2. Znane Proxy / Datacenter Ranges IP
Usługi wywiadowcze IP (MaxMind, IPinfo, IP2Location) klasyfikują IP według typu. Dane IP są łatwe do zidentyfikowania, ponieważ należą do dostawców usług hostingowych ASN (AWS, Google Cloud, OVH). Wiele stron internetowych automatycznie blokuje lub kwestionuje cały ruch z znanych zakresów IP danych. Dlatego proxy mieszkaniowe mają wyższe wskaźniki sukcesu - ich IP są klasyfikowane jako połączenia konsumenckie.
3. Czarne listy reputacji IP
Wiele usług prowadzi czarną listę adresów IP, o których wiadomo, że są wykorzystywane do skrobania, spamowania lub innej zautomatyzowanej działalności. Gdy na tych listach pojawi się Twój proxy IP, strony internetowe, które subskrybują usługę czarnej listy, zablokują Cię z wyprzedzeniem - nawet przed wysłaniem pojedynczego wniosku. Monitorowanie zdrowia w basenie pomaga dostawcom usunąć czarnorynkowe IP z obrotu.
4. Podejrzane wzory żądań
Nawet przy rozsądnych stawkach, Twój wzorzec ruchu może ujawnić automatyzację:
- Jednolity czas: Wnioski przychodzące w dokładnych odstępach czasu (co 2,0 sekundy) zamiast przypadkowych przerw w przeglądaniu ludzi
- Dostęp sekwencyjny: Wizyty na stronach w porządku alfabetycznym lub numerycznym, a nie na naturalnych ścieżkach nawigacyjnych
- Brak wczytywania podzasobów: Prawdziwe przeglądarki wczytywane obrazy, CSS, JavaScript i czcionki - scrapers, które pobierają tylko HTML wyróżniają się
- Brak nagłówków odsyłacza: Przeglądarki zawsze wysyłać referrer podczas nawigacji między stronami; scrapers często nie
- Nieprawidłowe wzorce głębokości: Wpełzanie głęboko do kategorii przed przejściem do następnej, zamiast przeglądania jak człowiek
5. Niedopasowane odciski palców
Systemy antybotowe skorelować wiele sygnałów, aby zbudować profil odwiedzających. Kiedy sygnały te są sprzeczne, odwiedzający jest oznaczony:
- Niezgodność Geo: IP mówi Niemcy, ale strefa czasowa przeglądarki jest US Pacific i Accept- Język jest
en-US - Odcisk palca TLS: Podpis TLS Client Hello nie pasuje do żądanej przeglądarki (np., Python żąda biblioteki twierdzącej, że jest Chrome)
- Wykonanie JavaScript: Test skryptów wykrywających bot dla API przeglądarki, że przeglądarki bez głowy mogą nie w pełni wdrożyć
- Wyciek WebRTC: WebRTC może ujawnić prawdziwe IP za proxy, jeśli nie jest poprawnie skonfigurowane
6. Skoncentrowany ruch podsieci
Jeżeli wiele IP z tej samej / 24 podsieci (np. 185.23.100.1 do 185.23.100.254) trafiło na tę samą stronę, strona może zablokować całą podsieć. Dobrze. Rotacja IP algorytmy zapewniają różnorodność podsieci pomiędzy kolejnymi wnioskami.
7. Anomalie sesji i plików cookie
Strony internetowe ustawiają cookies podczas pierwszej wizyty i oczekują ich na kolejnych próbach. Rozdrabniacze, które nie utrzymują plików cookies, które są obecne lub które wykazują niespójny stan sesji (zalogowany na jednym wniosku, anonimowy na następnym) wywołują podejrzenia.
Rodzaje zakazów i bloków
| Typ bloku | Jak to wygląda? | Stopień ciężkości | Odzyskanie pomocy |
|---|---|---|---|
| Wyzwanie CAPTCHA | Strona CAPTCHA zamiast zawartości | Miękki blok | Obróć IP, zwolnij |
| HTTP 403 Zakazane | Odmowa dostępu | Średni blok | Obróć IP, zmień odcisk palca |
| HTTP 429 Zbyt wiele żądań | Przekroczony limit stawki | Miękki blok | Czekać i ponownie, zmniejszyć szybkość |
| Odpowiedź pusta / uszkodzona | Dane dotyczące pustej strony lub odpadów | Blok stealth | Weryfikacja przy pomocy innego IP |
| Przekieruj do strony blokującej | Wysłany do "zablokowanego" zawiadomienia | Średni blok | Obróć adres IP, sprawdź nagłówki |
| Czarna lista IP | Czas połączenia lub reset | Twardy blok | IP jest spalone, użyj innego |
| Zakaz podsieci / ASN | Wszystkie IP w zakresie zablokowane | Twardy blok | Przełącz na inny ASN |
Strategie zapobiegania
Użyj profili mieszkalnych dla celów chronionych
Proxy mieszkalne mieć IP przypisane przez dostawców usług internetowych do rzeczywistych gospodarstw domowych. Przekazują one kontrole poziomu ASN, które blokują IP danych. Dla stron internetowych o silnej ochrony anty-bot, proxy mieszkaniowe są podstawowym wymogiem. Dla najbardziej agresywnych celów, mobilne proxy oferują jeszcze większe zaufanie ze względu na udostępnianie IP CGNAT.
Wdrożenie ograniczenia Smart Rate
Nie uderzaj w cel tak szybko, jak pozwala połączenie. Zamiast tego:
- Badania wartości granicznych docelowych (spróbuj eskalacji częstotliwości żądania aż zobaczysz 429s lub CAPTCHA)
- Dodaj losowe opóźnienia pomiędzy żądaniami (np. 1- 5 sekund z jitterem)
- Rozpowszechnianie żądań w czasie zamiast wysyłania ich w pękach
- Użyj różnych limitów stawek dla różnych punktów końcowych (wyszukiwanie stron vs strony produktu)
import time
import random
import requests
PROXY = "http://USERNAME:PASSWORD@gate.proxyhat.com:8080"
for url in urls:
resp = requests.get(
url,
proxies={"http": PROXY, "https": PROXY},
timeout=15,
)
# Random delay between 1.5 and 4.5 seconds
time.sleep(random.uniform(1.5, 4.5))
Obróć IP inteligentnie
Rotacja IP dystrybuuje ruch na wielu adresach. Jednak rotacja musi być połączona z innymi strategiami:
- Obróć wniosek o pobranie niezależnych stron
- Użyj lepkich sesji dla wielostopniowych przepływów roboczych wymagających ciągłości sesji
- Zapewnienie różnorodności podsieci - nie wysyłaj kolejnych żądań z tego samego / 24 zakresu
- Dopasuj strategię rotacji do czułości celu - bardziej agresywne strony potrzebują szybszej rotacji
Ustaw realistyczne nagłówki
Każda prośba powinna zawierać nagłówki pasujące do prawdziwej przeglądarki:
headers = {
"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/124.0.0.0 Safari/537.36",
"Accept": "text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,*/*;q=0.8",
"Accept-Language": "en-US,en;q=0.9",
"Accept-Encoding": "gzip, deflate, br",
"Connection": "keep-alive",
"Upgrade-Insecure-Requests": "1",
"Sec-Fetch-Dest": "document",
"Sec-Fetch-Mode": "navigate",
"Sec-Fetch-Site": "none",
"Sec-Fetch-User": "?1",
}
Obróć struny User- Agent na zestaw aktualnych, popularnych przeglądarek. Upewnij się, że User- Agent pasuje do odcisków palców TLS - twierdząc, że jest Chrome podczas wysyłania podpisu Python TLS jest natychmiastową czerwoną flagą.
Align Geo Signals
Podczas stosowania proxy geoukierunkowane, dostosować wszystkie metadane żądania do lokalizacji pełnomocnika:
- Ustaw
Accept-Languagedopasowanie języka ojczystego - Jeśli używasz automatyzacji przeglądarki, ustaw strefę czasową, aby dopasować geografię proxy
- Wyłącz WebRTC, aby zapobiec przeciekom z IP
Obsługa plików cookie i sesji prawidłowo
Utrzymywanie plików cookie w trakcie sesji. Użyj obiektu sesji (jak requests.Session() w Pythonie), który automatycznie obsługuje wytrwałość plików cookie. Podczas obracania IP, również uruchomić świeży słoik ciasteczek - nie nosić ciasteczka z jednego IP do drugiego, ponieważ powoduje to niespójność.
Techniki odzyskiwania
Wykrywanie zakazów wcześnie
Nie czekaj, aż cały rurociąg zawiedzie. Monitor sygnałów zakazujących:
- Wskaźnik sukcesu ścieżki dla domeny docelowej - nagły spadek wskazuje, że zaczynają się zakazy
- Patrz na strony CAPTCHA (sprawdź organ odpowiedzi dla wskaźników CAPTCHA)
- Rozmiary odpowiedzi monitora - zablokowane odpowiedzi są często znacznie mniejsze niż rzeczywiste strony
- Sprawdź czas reakcji - niektóre strony celowo powolne odpowiedzi na podejrzane boty (plandeka)
Wdrażanie logiki retry
import requests
from time import sleep
PROXY = "http://USERNAME:PASSWORD@gate.proxyhat.com:8080"
def fetch_with_retry(url, max_retries=3):
for attempt in range(max_retries):
resp = requests.get(
url,
proxies={"http": PROXY, "https": PROXY},
timeout=15,
)
if resp.status_code == 200 and len(resp.text) > 1000:
return resp
# Exponential backoff before retry (new IP via rotation)
sleep(2 ** attempt)
return None
Strategia eskalacji
Kiedy bloki utrzymują się, eskaluj swoje podejście:
- Po pierwsze: Zmniejsz stopę zapotrzebowania i dodaj bardziej randomizowane opóźnienia
- Po drugie: Przełącz z danych do proxy mieszkaniowe
- Po trzecie: Dodaj automatyzację przeglądarki (Puppeteer / Playwright), aby wykonać JavaScript i przekazać kontrolę przeglądarki
- Czwarty: Wdrożenie pełnego zarządzania odciskami palców (TLS, płótnie, WebGL)
- Po piąte: Użyj mobilnych proxy do klasyfikacji IP highest- trust
Klucz na wynos: Zakazy proxy są spowodowane przez kombinację sygnałów - nie tylko adres IP. Zapobieganie zakażeniom wymaga całościowego podejścia: jakości proxy z inteligentna rotacja, realistyczne wzory wniosków, właściwe nagłówki i spójne odciski palców. Kiedy pojawiają się zakazy, wykryj je wcześnie i eskaluj swoją strategię stopniowo.
Często zadawane pytania
Jak długo proxy zwykle trwają?
Różni się w zależności od celu. Niektóre miejsca blokują IP na minuty lub godziny, inne na dni lub na stałe. Bloki graniczne (429) zwykle wygasają w ciągu kilku minut. Czarne listy IP mogą trwać miesiącami. Z rotacyjnymi proxy, czas trwania zakazu jest mniej istotny, ponieważ automatycznie uzyskać świeży IP.
Czy obrotowe proxy mogą zapobiec wszystkim zakazaniom?
Zapobieganie rotacji IP- based Zakaz kaskadowania, ale nie odnosi się do wykrywania odcisków palców czy zachowań. Potrzebujesz rotacji plus realistyczne wzory żądań, właściwe nagłówki i spójne odciski palców przeglądarki.
Który typ proxy jest najmniej prawdopodobny, że zostanie zakazany?
Mobile Proxy mają najniższy wskaźnik zakazu, ponieważ mobilne IP są udostępniane przez wielu rzeczywistych użytkowników za pośrednictwem CGNAT. Następne proxy mieszkaniowe, a następnie Proxy ISP. Datacenter proxy mają najwyższy wskaźnik zakazu na chronionych stronach.
Skąd mam wiedzieć, czy mój proxy IP jest już na czarnej liście?
Sprawdź IP przed rozpoczęciem dużej pracy. Wyślij jedną prośbę i potwierdź, że uzyskasz normalną odpowiedź. Można również sprawdzić IP z publicznych usług czarnej listy, choć nie obejmują one wszystkich prywatnych czarnych list, które strony internetowe utrzymują.
Czy powinienem użyć tego samego pełnomocnika dla wszystkich moich celów?
Nie. Różne cele mają różne wrażliwości. Stosowanie dedykowane proxy dla wysokiej wartości, stałych zadań i wspólnych rotacyjnych proxy do gromadzenia danych masowych. Dopasuj typ proxy i strategię do poziomu ochrony każdego celu.






