Amazon 데이터 스크래핑의 가치
Amazon은 세계 최대의 이커머스 플랫폼으로 제품 데이터, 가격, 리뷰, 순위 정보가 비즈니스에 매우 가치 있습니다. 경쟁사 분석, 가격 최적화, 시장 조사에 Amazon 데이터는 필수적입니다.
Amazon 안티봇 시스템
Amazon은 가장 정교한 안티봇 시스템 중 하나를 운영합니다:
- IP 평판 검사 — 데이터센터 IP를 즉시 감지하고 차단
- 행동 분석 — 비인간적 브라우징 패턴 감지
- CAPTCHA — 의심스러운 요청에 CAPTCHA 제시
- 세션 검증 — 유효한 쿠키와 세션 상태 확인
프록시 설정
from proxyhat import ProxyHat
client = ProxyHat(api_key="your_api_key")
def scrape_amazon(asin, marketplace="US"):
url = f"https://www.amazon.com/dp/{asin}"
response = client.get(url,
proxy_type="residential",
country=marketplace,
headers={
"Accept-Language": "en-US,en;q=0.9",
"Accept": "text/html,application/xhtml+xml",
}
)
return response
제품 데이터 파싱
from bs4 import BeautifulSoup
def parse_product(html):
soup = BeautifulSoup(html, "html.parser")
return {
"title": soup.select_one("#productTitle").text.strip() if soup.select_one("#productTitle") else None,
"price": soup.select_one(".a-price .a-offscreen").text if soup.select_one(".a-price .a-offscreen") else None,
"rating": soup.select_one("#acrPopover span").text.strip() if soup.select_one("#acrPopover span") else None,
"reviews_count": soup.select_one("#acrCustomerReviewText").text if soup.select_one("#acrCustomerReviewText") else None,
}
차단 방지 전략
- 레지덴셜 프록시 필수 — 데이터센터 IP는 사용하지 마십시오
- 3-5초 간격 — 요청 사이에 무작위 지연 추가
- 세션 관리 — 쿠키를 유지하고 자연스럽게 탐색
- 지역 매칭 — 대상 마켓플레이스 국가의 프록시 사용
- User-Agent 로테이션 — 실제 브라우저 UA를 로테이션






