O que são os cookies _px3 e _pxhd do PerimeterX?

O _px3 é o cookie de sessão clássico do PerimeterX, contendo um token criptografado que o edge verifica a cada request. O _pxhd é uma versão mais recente com rotação de chave mais agressiva. Ambos são HttpOnly, Secure e atados ao domínio — não são portáveis entre diferentes IPs ou fingerprints de browser.

Como o PerimeterX detecta bots via JA3/JA4?

O PerimeterX inspeciona o ClientHello TLS para gerar um fingerprint JA3/JA4. Se o JA3 não corresponde ao User-Agent declarado (ex.: JA3 de Python requests com UA de Chrome), isso é uma contradição de fingerprint — um dos sinais mais fortes de automação. Libraries como requests e httpx têm JA3s trivialmente identificáveis.

Qual a diferença entre PerimeterX e DataDome?

O PerimeterX é mais pesado em sinais comportamentais (movimento de mouse, timing de digitação, padrões de scroll), enquanto o DataDome é mais focado em device fingerprint e IP reputation. O PerimeterX constrói um modelo de probabilidade comportamental continuamente atualizado; o DataDome é mais estático na sua avaliação de fingerprint.

Proxies residenciais são suficientes para bypassar PerimeterX?

Não sozinhos. Proxies residenciais resolvem o problema de IP reputation, mas o PerimeterX avalia sinais comportamentais, TLS fingerprint e device fingerprint simultaneamente. Você precisa combinar: proxy residencial com geo-targeting consistente + browser real (Playwright com stealth) + interações comportamentais realistas + JA3 compatível com o User-Agent.

É legal fazer scraping de sites protegidos por PerimeterX?

Depende do contexto. Se você está acessando dados públicos respeitando robots.txt e Termos de Serviço, ou realizando pesquisa de segurança autorizada, geralmente é aceitável. Se o ToS proíbe acesso automatizado, você pode estar violando um contrato. Sempre consulte assessoria jurídica e opere dentro dos limites éticos.

PerimeterX Detecção e Bypass Legítimo | ProxyHat

Por Que o PerimeterX é um Dos Desafios Mais Duros de Scraping

Se você já tentou monitorar preços de passagens aéreas ou coletar dados de e-commerce e se deparou com um bloqueio silencioso — página em branco, redirect infinito ou um cookie _px3 que nunca é gerado —, você conhece o PerimeterX. Agora rebatizada como HUMAN Security, esta solução de bot mitigation é notória entre scraping engineers por ser pesadamente orientada a sinais comportamentais, diferenciando-se de concorrentes como DataDome e Akamai.

Este artigo é para engenheiros de scraping experientes que precisam entender exatamente como o PerimeterX detecta automação — e como operar dentro dos limites éticos e legais para acessar dados de forma legítima.

Arquitetura do PerimeterX: O Fluxo do Challenge JS

O PerimeterX opera em camadas. Quando um request chega ao servidor protegido, o edge avalia uma série de sinais antes de decidir se entrega o conteúdo real ou um challenge. O fluxo simplificado:

Request inicial — O browser faz GET à página. Se não houver cookie _px3 ou _pxhd válido, o servidor responde com HTML contendo o script de challenge do PerimeterX.
Execução do JS challenge — O script coleta dezenas de sinais (fingerprint de canvas, WebGL, screen metrics, plugins, timezone, propriedades do navigator, eventos de mouse/teclado, timing de execução) e os empacota em um payload criptografado.
POST para o endpoint do PerimeterX — O payload é enviado de volta ao collector do PerimeterX (collector-PX...). O servidor avalia o payload e retorna uma decisão: allow, challenge (CAPTCHA), ou block.
Set cookie — Se aprovado, o cookie _px3 (ou _pxhd em fluxos mais novos) é gerado e o browser é redirecionado à página original.
Requests subsequentes — O cookie é validado no edge. Se válido, o conteúdo é servido diretamente sem novo challenge.

Cookies `_px3` e `_pxhd`

O _px3 é o cookie de sessão clássico do PerimeterX. Ele contém um token JWT-like codificado que o edge verifica rapidamente. O _pxhd é um cookie mais recente, usado em deployments atualizados — funciona de forma análoga, mas com rotação de chave mais agressiva. Ambos são HttpOnly, Secure e atados ao domínio do site.

Se você tentar reutilizar um _px3 de uma sessão diferente (IP diferente, fingerprint diferente), o PerimeterX invalida o cookie. Isso significa que cookies não são portáveis entre contextos de browser.

Sinais de Detecção: O Que o PerimeterX Realmente Observa

O PerimeterX não se baseia em um único sinal. É um modelo de ensemble que combina múltiplas dimensões. Vamos detalhar cada uma.

1. Device Fingerprinting (Canvas, WebGL, Screen Metrics)

O script do PerimeterX renderiza um canvas offscreen com texto e formas geométricas, aplica transformações e lê o resultado pixel a pixel. O hash resultante é altamente discriminativo — combina:

Canvas rendering — Fontes instaladas, anti-aliasing, subpixel rendering do GPU driver. Dois Chrome versions diferentes no mesmo OS podem produzir hashes diferentes.
WebGL renderer + vendor — Lidos via WEBGL_debug_renderer_info. Headless browsers frequentemente reportam valores como SwiftShader ou Mesa, que são sinais imediatos de automação.
Screen metrics — screen.width, screen.height, screen.colorDepth, window.devicePixelRatio. Valores zerados ou inconsistentes (ex.: screen.width = 0) são flags instantâneas.
Fonts enumeradas — O script mede a largura de renderização de strings em fontes específicas. Fontes ausentes colapsam para a fallback, alterando as medidas.

2. TLS Fingerprinting (JA3 / JA4)

O PerimeterX inspeciona o ClientHello TLS antes mesmo de qualquer HTTP request ser processado. O JA3 fingerprint é composto por:

Versão TLS
Cipher suites oferecidas (em ordem)
Extensions listadas
Elliptic curves
Point formats

O JA4, mais recente, adiciona informações sobre ALPN, compressão e SIGNALS do handshake. O PerimeterX mantém um banco de dados de JA3/JA4 conhecidos:

Python requests + urllib3: JA3 imediatamente identificável (cipher order atípico, sem ALPN).
Go net/http: Cipher ordering diferente de qualquer browser mainstream.
Playwright Chromium com flags padrão: JA3 próximo ao Chrome real, mas extensões como GREASE podem divergir.

Se o JA3 não corresponde ao User-Agent declarado, isso é uma contradição de fingerprint — um dos sinais mais fortes de automação.

3. IP Reputation

O PerimeterX classifica IPs em categorias:

Datacenter — ASN de AWS, GCP, Azure, DigitalOcean, etc. Quase sempre bloqueado ou desafiado.
Residencial — ASN de ISPs legítimos. Muito mais difícil de bloquear sem falsos positivos.
Mobile — ASN de operadoras celulares. Sinal de alta confiança.
VPN/Proxy conhecido — IPs que aparecem em listas de proxies abertos ou VPNs comerciais. Tratados como datacenter.

Ao usar um proxy residencial de qualidade, o IP do request aparece como ASN residencial — mas o PerimeterX também verifica consistência geográfica. Um IP de São Paulo com timezone de Berlin é uma contradição.

4. Behavioral Signals (Mouse, Timing, Scroll)

É aqui que o PerimeterX mais se diferencia. O script injeta event listeners que capturam:

Movimentos de mouse — Velocidade, aceleração, curvatura da trajetória. Humanos têm movimentos orgânicos com micro-oscilações; bots têm trajetórias perfeitamente lineares ou nenhuma trajetória.
Timing de keydown/keyup — Histograma de dwell time por tecla. Typing humano tem variância natural; typing programático é mecanicamente regular.
Scroll behavior — Padrões de scroll com aceleração/desaceleração naturais vs. scroll instantâneo.
Timing de interação — Quanto tempo entre page load e primeira interação? Bots interagem em milissegundos; humanos levam segundos.
Event order — Um click sem mousemove prévio é altamente suspeito. Humanos sempre movem o mouse antes de clicar.

O PerimeterX constrói um modelo de probabilidade comportamental que é continuamente atualizado. Não basta simular um movimento de mouse — o movimento precisa ter as propriedades estatísticas de um movimento humano real.

PerimeterX vs DataDome vs Akamai: Comparação

Dimensão	PerimeterX (HUMAN)	DataDome	Akamai Bot Manager
Sinal primário	Comportamental (mouse, timing)	Device fingerprint + IP	TLS fingerprint + JS obfuscation
Challenge flow	JS collector + cookie _px3/_pxhd	JS challenge + cookie datadome	JS + sensor data POST + cookie ak_bmsc
TLS inspection	Moderada (JA3/JA4)	Alta (JA3/JA4 + JA4+)	Muito alta (proprietário + JA3)
Obfuscation JS	Moderada	Alta (VM-based)	Muito alta (multi-layer)
IP reputation weight	Média	Alta	Alta
CAPTCHA tipo	Interstitial + CAPTCHA opcional	CAPTCHA nativo (DataDome CAPTCHA)	Silencioso (block sem CAPTCHA)
Dificuldade de bypass	Alta (behavioral)	Média-Alta (fingerprint-heavy)	Muito Alta (multi-signal)

Mitigação Concreta: Proxies Residenciais + Playwright Stealth

Agora que entendemos o que o PerimeterX detecta, vamos ao como operar de forma legítima. O princípio fundamental: seu tráfego automatizado deve ser indistinguível de tráfego humano real.

Estratégia 1: Proxy Residencial com Geo-Targeting Consistente

O IP é o primeiro filtro. Use proxies residenciais com ASN de ISP real e garanta consistência entre IP, timezone e locale do browser.

# curl com proxy residencial ProxyHat — geo-targeting para EUA
# Username com flag de país para IP residencial americano
curl -x http://user-country-US:PASSWORD@gate.proxyhat.com:8080 \
  -H "User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/125.0.0.0 Safari/537.36" \
  -H "Accept-Language: en-US,en;q=0.9" \
  "https://www.example.com/"

Estratégia 2: Playwright com Stealth Plugin e Contexto Realista

Playwright com playwright-extra + stealth plugin é a base. Mas stealth sozinho não basta — você precisa configurar o contexto do browser para ser internamente consistente.

from playwright.sync_api import sync_playwright
from playwright_stealth import stealth_sync
import time, random

PROXY = {
    "server": "http://gate.proxyhat.com:8080",
    "username": "user-country-US",
    "password": "PASSWORD"
}

def human_delay(min_s=1.5, max_s=4.0):
    """Pausa aleatória entre ações — simula latência humana."""
    time.sleep(random.uniform(min_s, max_s))

def human_mouse_move(page, start, end, steps=20):
    """Move o mouse com trajetória bezier-like e velocidade variável."""
    for i in range(steps + 1):
        t = i / steps
        # Curva bezier quadrática simples
        mid_x = (start[0] + end[0]) / 2 + random.uniform(-20, 20)
        mid_y = (start[1] + end[1]) / 2 + random.uniform(-20, 20)
        x = (1-t)**2 * start[0] + 2*(1-t)*t * mid_x + t**2 * end[0]
        y = (1-t)**2 * start[1] + 2*(1-t)*t * mid_y + t**2 * end[1]
        page.mouse.move(x, y)
        time.sleep(random.uniform(0.005, 0.02))

with sync_playwright() as p:
    browser = p.chromium.launch(
        headless=False,
        proxy=PROXY,
        args=[
            "--disable-blink-features=AutomationControlled",
            "--window-size=1920,1080"
        ]
    )
    context = browser.new_context(
        viewport={"width": 1920, "height": 1080},
        screen={"width": 1920, "height": 1080},
        device_scale_factor=1.0,
        locale="en-US",
        timezone_id="America/New_York",
        user_agent="Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/125.0.0.0 Safari/537.36"
    )
    page = context.new_page()
    stealth_sync(page)

    # Navega com delay humano
    page.goto("https://www.example.com/", wait_until="networkidle")
    human_delay(2.0, 5.0)

    # Move o mouse organicamente antes de clicar
    human_mouse_move(page, (100, 100), (500, 300))
    human_delay(0.3, 0.8)

    # Clica em elemento
    page.click("#search-button")
    human_delay(1.0, 3.0)

    # Extrai dados
    content = page.content()
    print(f"Página carregada: {len(content)} chars")

    browser.close()

Estratégia 3: Rotação de IP com Sticky Sessions e Pacing

Nunca faça centenas de requests do mesmo IP em sequência. Use sticky sessions do ProxyHat para manter a mesma IP por 10-30 minutos (simulando uma sessão humana), depois rotacione.

import requests
from itertools import cycle
import time, random

# Lista de sessões sticky — cada uma mantém o IP por ~15 min
sessions = [
    "user-session-sess1-country-US",
    "user-session-sess2-country-US",
    "user-session-sess3-country-US",
]
PASSWORD = "PASSWORD"
session_cycle = cycle(sessions)

REQUESTS_PER_SESSION = 25  # Limite conservador

for i, sid in enumerate(session_cycle):
    if i >= REQUESTS_PER_SESSION * len(sessions):
        break
    proxy_url = f"http://{sid}:{PASSWORD}@gate.proxyhat.com:8080"
    proxies = {"http": proxy_url, "https": proxy_url}

    try:
        resp = requests.get(
            "https://www.example.com/api/data",
            proxies=proxies,
            headers={
                "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36",
                "Accept-Language": "en-US,en;q=0.9",
            },
            timeout=15
        )
        print(f"Session {sid}: {resp.status_code}")
    except requests.RequestException as e:
        print(f"Session {sid}: Error — {e}")

    # Pacing: delay exponencial com jitter
    delay = random.uniform(2.0, 6.0) * (1 + 0.1 * (i % REQUESTS_PER_SESSION))
    time.sleep(delay)

Estratégia 4: Consistência de Fingerprint TLS

O JA3 do seu browser precisa corresponder ao User-Agent declarado. Use Playwright com Chromium compilado com BoringSSL (o padrão), que gera JA3 compatível com Chrome. Nunca use requests ou httpx diretamente contra sites protegidos por PerimeterX — o JA3 do Python é trivialmente detectável.

Se precisar de requests HTTP puros (sem browser), considere usar curl-impersonate ou tls-client para emular o JA3 de um Chrome real:

# curl-impersonate emulando Chrome 125
# Com proxy residencial ProxyHat
curl-impersonate-ch125 \
  -x http://user-country-US:PASSWORD@gate.proxyhat.com:8080 \
  -H "Accept-Language: en-US,en;q=0.9" \
  "https://www.example.com/"

Sites Que Usam PerimeterX

Conhecer onde o PerimeterX está deployado ajuda a calibrar expectativas. Os setores mais comuns:

Companhias aéreas — United Airlines, American Airlines, Delta Air Lines. Protegem fortemente rotas de busca de voos e pricing.
E-commerce de luxo — Neiman Marcus, Saks Fifth Avenue. Protegem catálogos e pricing contra scraping competitivo.
Retail de ingressos — Alguns sites de ticketing usam PerimeterX em combinação com outras soluções.
Marketplaces — Certos marketplaces verticais usam PerimeterX para proteger listings e dados de vendedores.

Cada deployment tem thresholds diferentes. Airlines tendem a ser mais agressivos (block sem CAPTCHA), enquanto e-commerce pode servir CAPTCHAs antes de bloquear completamente.

Enquadramento Ético: Scraping Legítimo Dentro dos Limites

Automatizar acesso a sites protegidos por PerimeterX levanta questões éticas e legais sérias. Aqui estão os princípios que recomendamos:

Respeite o robots.txt — Se o site proíbe scraping em /robots.txt, não escrapeie. Ponto.
Respeite os Termos de Serviço — Se o ToS proíbe acesso automatizado, você está violando um contrato. Busque alternativas como APIs oficiais.
Use dados para fins legítimos — Pesquisa de segurança autorizada, monitoramento de preços de produtos que você vende, auditoria de compliance.
Minimize o impacto — Rate-limit seus requests. Não sobrecarregue servidores. Use caching agressivo.
Não revenda dados — Se o dado não é seu para revender, não o faça.
Pentesting autorizado — Se você é um pesquisador de segurança fazendo pentesting autorizado, documente tudo e tenha permissão por escrito.

As técnicas descritas neste artigo existem para automatização legítima — monitoramento de preços dos próprios produtos, pesquisa autorizada, QA de aplicações que você desenvolve. Não as use para extrair dados de terceiros sem autorização.

Checklist de Consistência: O Que Verificar Antes de Cada Run

Antes de executar scraping contra um site PerimeterX-protected, verifique:

IP ↔ timezone ↔ locale — Se o IP é dos EUA, o timezone deve ser americano e o locale en-US.
User-Agent ↔ JA3 — O fingerprint TLS deve corresponder ao browser declarado no UA.
Screen metrics — screen.width/height, devicePixelRatio, colorDepth devem ser não-zero e consistentes com o dispositivo declarado.
WebGL renderer — Não deve ser SwiftShader ou Mesa. Use GPU real ou desabilite WebGL.
Behavioral signals — Sempre mova o mouse antes de clicar. Adicione delays naturais. Evite interações em sequência perfeita.
Cookie consistency — Não reuse cookies _px3 entre sessões com IPs diferentes.
Pacing — Limite requests por sessão. Rotacione sessões sticky.

Key Takeaways

1. O PerimeterX é behavioral-signal-heavy — não basta spoofar fingerprint de dispositivo. Mouse movements, timing e interação precisam ser estatisticamente humanos.

2. Contradições de fingerprint (JA3 ≠ User-Agent, IP ≠ timezone) são os sinais mais fortes de automação. Consistência é mais importante que perfeição.

3. Proxies residenciais com ASN de ISP real são essenciais. Datacenter IPs são bloqueados na maioria dos deployments PerimeterX.

4. Use Playwright com stealth plugin, contexto realista (viewport, locale, timezone), e headless: False para maximizar a compatibilidade de fingerprint.

5. Sempre opere dentro dos limites éticos: respeite robots.txt, ToS, e use os dados para fins legítimos.

Para proxies residenciais com ASN de ISP real e geo-targeting preciso, confira o ProxyHat pricing ou explore as localizações disponíveis. Se você está trabalhando com scraping web em geral, veja nosso guia de casos de uso de web scraping.

PerimeterX (HUMAN Security): Sinais de Detecção, Arquitetura e Bypass Legítimo

Por Que o PerimeterX é um Dos Desafios Mais Duros de Scraping

Arquitetura do PerimeterX: O Fluxo do Challenge JS

Cookies `_px3` e `_pxhd`

Sinais de Detecção: O Que o PerimeterX Realmente Observa

1. Device Fingerprinting (Canvas, WebGL, Screen Metrics)

2. TLS Fingerprinting (JA3 / JA4)

3. IP Reputation

4. Behavioral Signals (Mouse, Timing, Scroll)

PerimeterX vs DataDome vs Akamai: Comparação

Mitigação Concreta: Proxies Residenciais + Playwright Stealth

Estratégia 1: Proxy Residencial com Geo-Targeting Consistente

Estratégia 2: Playwright com Stealth Plugin e Contexto Realista

Estratégia 3: Rotação de IP com Sticky Sessions e Pacing

Estratégia 4: Consistência de Fingerprint TLS

Sites Que Usam PerimeterX

Enquadramento Ético: Scraping Legítimo Dentro dos Limites

Checklist de Consistência: O Que Verificar Antes de Cada Run

Key Takeaways

Pronto para começar?

Por Que o PerimeterX é um Dos Desafios Mais Duros de Scraping

Arquitetura do PerimeterX: O Fluxo do Challenge JS

Cookies _px3 e _pxhd

Sinais de Detecção: O Que o PerimeterX Realmente Observa

1. Device Fingerprinting (Canvas, WebGL, Screen Metrics)

2. TLS Fingerprinting (JA3 / JA4)

3. IP Reputation

4. Behavioral Signals (Mouse, Timing, Scroll)

PerimeterX vs DataDome vs Akamai: Comparação

Mitigação Concreta: Proxies Residenciais + Playwright Stealth

Estratégia 1: Proxy Residencial com Geo-Targeting Consistente

Estratégia 2: Playwright com Stealth Plugin e Contexto Realista

Estratégia 3: Rotação de IP com Sticky Sessions e Pacing

Estratégia 4: Consistência de Fingerprint TLS

Sites Que Usam PerimeterX

Enquadramento Ético: Scraping Legítimo Dentro dos Limites

Checklist de Consistência: O Que Verificar Antes de Cada Run

Key Takeaways

Pronto para começar?

Você também pode se interessar por

Guia de Proxies para Fiscalização MAP: Monitoramento de Preços no Varejo

Imperva Bot Management: Guia Técnico Completo para Engenheiros de Scraping

Rotação de Proxies para Pentest: Guia para Pesquisadores Autorizados

Guia Completo de Monitoramento de Fraude Affiliate com Proxies Residenciais

Cookies `_px3` e `_pxhd`