일본 프록시 완벽 가이드: 라쿠텐·메루카리 데이터 수집부터 APPI 준수까지

일본 이커머스 플랫폼은 해외 IP를 차단하거나 속도 제한을 겁니다. 일본 residential 프록시로 라쿠텐, 메루카리, 야후옥션 데이터를 안정적으로 수집하는 방법을 알아봅니다.

일본 프록시 완벽 가이드: 라쿠텐·메루카리 데이터 수집부터 APPI 준수까지

글로벌 이커머스 팀을 위한 일본 프록시 필수 가이드

일본은 세계 3위 규모의 이커머스 시장입니다. 라쿠텐, 메루카리, 야후! 재팬 옥션, 가카쿠닷컴, 타베로그, 스모—각 플랫폼은 수천만 사용자와 독자적인 카탈로그를 보유하고 있습니다. 하지만 일본 사이트들은 비일본 IP에 대한 차단과 속도 제한

이 가이드에서는 일본 이커머스 데이터 수집에 residential 프록시가 왜 필수인지, 주요 플랫폼별 스크래핑 특성, Shift-JIS 인코딩 처리, APPI 준수, 편의점 결제가 재고 탐지에 미치는 영향, 그리고 도쿄·오사카 시급 지역 타겟팅 설정까지 실전 중심으로 다룹니다.

왜 일본 IP는 선택이 아닌 필수인가

일본 이커머스 사이트는 해외 트래픽을 의심스럽게 봅니다. 그 이유는 명확합니다.

  • 지역별 카탈로그 분리: 라쿠텐과 야후! 재팬은 일본 내 IP에만 전체 상품 카탈로그를 노출합니다. 해외 IP로 접속하면 축소된 카탈로그나 아예 다른 상품을 보게 됩니다.
  • 공격적 레이트 리밋: 비일본 IP는 요청 한도가 현저히 낮습니다. 몇 차례 요청만으로 403/429 응답이 반환됩니다.
  • 지역 가격 차이: 일본 내수 가격과 수출 가격이 다른 경우가 많아, 정확한 가격 인텔리전스를 위해서는 일본 IP가 필수입니다.
  • CAPTCHA 강화: 해외 IP로 접속하면 reCAPTCHA나 hCaptcha가 훨씬 빈번하게 트리거됩니다.
핵심: 일본 residential 프록시는 단순한 우회 도구가 아닙니다. 정확한 데이터를 수집하기 위한 전제 조건입니다.

주요 일본 플랫폼 스크래핑 프로필

각 플랫폼은 고유한 구조와 방어 체계를 갖추고 있습니다. 아래 표는 주요 특성을 비교한 것입니다.

플랫폼 카테고리 난이도 주요 차단 방식 핵심 데이터
라쿠텐 (Rakuten) 종합 이커머스 높음 IP 기반 카탈로그 분리, 레이트 리밋 상품가격, 리뷰, 재고, 랭킹
메루카리 (Mercari) C2C 마켓플레이스 중간 API 엔드포인트 보호, 동적 렌더링 중고가, 거래량, 카테고리 트렌드
야후! 재팬 옥션 경매 높음 엄격한 레이트 리밋, CAPTCHA 낙찰가, 입찰 이력, 인기 키워드
가카쿠닷컴 (Kakaku.com) 가격비교 중간 봇 탐지, 요청 빈도 제한 최저가, 판매자 정보, 리뷰
타베로그 (Tabelog) 식당 리뷰 중간 IP 기반 접근 제한 평점, 리뷰, 예약 가능 여부
스모 (SUUMO) 부동산 낮음~중간 검색 API 보호 임대료, 역세권, 평면정보

라쿠텐: 일본 최대 마켓플레이스

라쿠텐은 일본 이커머스의 심장입니다. 2024년 기준 연간 거래액 5조 엔 이상, 2만 개 이상의 출점 스토어를 보유하고 있습니다. 스크래핑 시 주의할 점:

  • 스토어별 독립 도메인: 각 스토어가 store.rakuten.co.jp/{shop_id} 형태의 독립 URL을 사용합니다.
  • 카테고리 트리 깊이: 최대 5단계까지 내려가야 최종 상품 페이지에 도달합니다.
  • 동적 렌더링: 일부 섹션은 JavaScript로 렌더링되어 headless 브라우저가 필요할 수 있습니다.

메루카리: C2C 데이터의 보고

메루카리는 일본 최대 C2C 플랫폼으로, 중고가 동향 파악에 필수적입니다. 2023년 누적 출품 수 20억 건 돌파. 핵심은 판매 완료 상품의 낙찰가 데이터를 수집하는 것이며, 이를 통해 시장 적정가를 역산할 수 있습니다.

야후! 재팬 옥션: 한정판과 수집품의 전장

스니커 리셀러와 수집품 트레이더에게 야후! 재팬 옥션은 빼놓을 수 없는 데이터 소스입니다. 낙찰가 이력이 공개되어 있어 가격 추이 분석에 강력합니다. 단, 비일본 IP로는 검색 결과가 제한되며, 고빈도 요청 시 즉시 차단됩니다.

가카쿠닷컴·타베로그·스모

가카쿠닷컴은 가격비교의 교과서입니다. 동일 상품의 최저가와 판매자 목록을 한눈에 볼 수 있어 경쟁 가격 모니터링에 최적입니다. 타베로그는 일본 식당 리뷰의 사실상의 독점 플랫폼이며, 스모는 부동산 데이터 수집의 핵심 소스입니다.

일본어 텍스트 처리: Shift-JIS와 CJK 토크나이제이션

일본 사이트 스크래핑에서 가장 까다로운 기술적 과제 중 하나가 문자 인코딩과 토크나이제이션입니다.

Shift-JIS 레거시 인코딩

야후! 재팬 옥션의 일부 페이지, 라쿠텐의 구형 API 엔드포인트, 그리고 다수의 일본 중소 이커머스 사이트는 아직도 Shift-JIS(Windows-31J) 인코딩을 사용합니다. UTF-8을 기대하고 파싱하면 문자가 깨지거나 파서가 크래시됩니다.

Python에서의 처리 예:

import requests

proxies = {
    "http": "http://user-country-JP:pass@gate.proxyhat.com:8080",
    "https": "http://user-country-JP:pass@gate.proxyhat.com:8080",
}

response = requests.get("https://auctions.yahoo.co.jp/...", proxies=proxies)

# Shift-JIS 감지 후 디코딩
content_type = response.headers.get("Content-Type", "")
if "shift_jis" in content_type.lower() or "x-sjis" in content_type.lower():
    text = response.content.decode("cp932")  # Windows-31J 호환
else:
    text = response.text  # requests가 자동 감지

핵심 포인트:

  • cp932는 Python에서 Shift-JIS의 상위 집합인 Windows-31J를 의미합니다. shift_jis 대신 cp932를 사용하세요.
  • Content-Type 헤더를 항상 확인하세요. 명시되지 않은 경우 chardet 라이브러리로 자동 감지합니다.
  • JSON API 응답은 대부분 UTF-8이지만, HTML 페이지는 여전히 Shift-JIS가 흔합니다.

CJK 토크나이제이션

일본어는 띄어쓰기가 없어 키워드 추출이 복잡합니다. MeCab이나 Janome 같은 형태소 분석기를 사용해 명사를 추출해야 합니다. 검색 쿼리 구성 시에도 토크나이제이션 결과를 반영해야 관련 상품을 정확히 검색할 수 있습니다.

from janome.tokenizer import Tokenizer

tokenizer = Tokenizer()
text = "限定スニーカー中古販売"
nouns = [token.surface for token in tokenizer.tokenize(text) 
         if token.part_of_speech.split(',')[0] == '명사']
# ['限定', 'スニーカー', '中古', '販売']

APPI(개인정보보호법) 준수 가이드

일본의 個人情報の保護に関する法律(APPI, Act on the Protection of Personal Information)은 GDPR에 필적하는 개인정보 보호법입니다. 2022년 개정으로 벌칙이 강화되었으며, 해외 기업도 일본 거주자 데이터를 처리하면 적용을 받습니다.

스크래핑 시 APPI 핵심 체크리스트

  • 공개 데이터의 범위: 누구나 웹에서 열람 가능한 상품명, 가격, 재고 상태는 APPI상 '개인정보'에 해당하지 않습니다. 단, 판매자의 이름·연락처·평가 내역 등은 개인정보일 수 있습니다.
  • 목적 제한: 수집한 개인정보는 당초 목적 외로 사용할 수 없습니다. 가격 모니터링 목적으로 수집한 리뷰 작성자 정보를 마케팅에 활용하면 위반입니다.
  • 제3자 제공: 일본 거주자의 개인정보를 해외로 이전하려면 적절한 보장 조치가 필요합니다.
  • 옵트아웃: 개인정보를 수집·이용하는 경우, 이용자가 옵트아웃할 수 있는 수단을 제공해야 합니다.
실무 조언: 상품 가격·재고·카테고리 등 비개인정보에 해당하는 공개 데이터만 수집하고, 리뷰 작성자 ID 등은 해시화하거나 수집 대상에서 제외하세요.

결제 흐름의 특수성: 편의점 결제가 재고 탐지에 미치는 영향

일본 이커머스의 독특한 점은 편의점 결제(コンビニ決済)입니다. 라쿠텐, 야후! 재팬 옥션 등에서는 주문 후 편의점에서 결제하는 옵션이 일반적입니다. 이것이 재고 탐지에 미치는 영향이 큽니다.

왜 문제가 되는가

  • 결제 지연: 편의점 결제는 주문 후 최대 3일까지 결제 기한이 있습니다. 이 기간 동안 재고가 '예약' 상태로 잡혀 실제 판매 가능 재고와 표시 재고가 불일치합니다.
  • 미결제 취소: 편의점 결제를 선택하고 결제하지 않는 비율이 꽤 높습니다. 스크래핑 시 '품절'로 보이던 상품이 며칠 후 다시 '판매 중'으로 돌아오는 현상을 이해해야 합니다.
  • 재고 상태 해석: 在庫あり(재고 있음)는 실시간 결제 완료 기준이 아닐 수 있습니다. 편의점 결제 대기 중인 주문이 포함되어 있을 수 있습니다.

대응 전략

  • 재고 상태를 단일 스냅샷이 아닌 시계열 데이터로 수집하여 패턴을 파악하세요.
  • 편의점 결제 옵션이 있는 상품은 재고 변동 폭이 크다는 점을 모델에 반영하세요.
  • 라쿠텐의 경우 itemAvailability 필드와 실제 재고 수치의 차이를 모니터링하세요.

도쿄·오사카 시급 지역 타겟팅

일본 residential 프록시의 진정한 가치는 시급(City-level) 지역 타겟팅에 있습니다. 라쿠텐과 야후! 재팬은 지역별 배송비, 재고, 프로모션이 다를 수 있으며, 부동산 데이터는 역세권 기준으로 수집해야 의미가 있습니다.

ProxyHat에서 도쿄·오사카 타겟팅 설정

ProxyHat의 사용자명 필드에 지역 코드를 포함하면 시급 타겟팅이 가능합니다:

# 도쿄 IP로 라쿠텐 스크래핑
curl -x http://user-country-JP-city-tokyo:pass@gate.proxyhat.com:8080 \
  "https://search.rakuten.co.jp/search/mall/限定スニーカー/"

# 오사카 IP로 메루카리 접근
curl -x http://user-country-JP-city-osaka:pass@gate.proxyhat.com:8080 \
  "https://www.mercari.com/jp/search/"

Python 세션 유지 예:

import requests

# 도쿄 sticky 세션 (5분간 동일 IP 유지)
proxies = {
    "http": "http://user-country-JP-city-tokyo-session-tokyo123:pass@gate.proxyhat.com:8080",
    "https": "http://user-country-JP-city-tokyo-session-tokyo123:pass@gate.proxyhat.com:8080",
}

session = requests.Session()
session.proxies = proxies

# 라쿠텐 로그인 후 스크래핑 (세션 유지 필요)
response = session.get("https://search.rakuten.co.jp/search/mall/スニーカー/")
print(f"상태 코드: {response.status_code}")
print(f"결과 수: {len(response.text)} 문자")

시급 타겟팅이 필요한 시나리오

  • 배송비 차이 분석: 도쿄와 오사카에서 동일 상품의 배송비가 다를 수 있습니다. 특히 냉장·냉동 식품은 배송 범위가 제한적입니다.
  • 부동산 데이터: 스모에서 도쿄 23구와 오사카 시의 임대 데이터를 각각 수집하려면 해당 지역 IP가 필요합니다.
  • 지역 한정 프로모션: 라쿠텐의 지역 쿠폰이나 야후! 재팬의 지역 한정 경매를 탐지하려면 해당 지역 IP로 접근해야 합니다.
  • 타베로그 식당 데이터: 지역 IP로 접근해야 해당 지역의 정확한 식당 정보와 리뷰가 표시됩니다.

프록시 유형별 비교: 일본 이커머스에 최적의 선택

프록시 유형 일본 사이트 신뢰도 속도 적합 용도 권장 회전 방식
Residential 매우 높음 중간 라쿠텐, 메루카리 일반 수집 요청별 회전
Mobile 최고 중간~느림 야후! 재팬 옥션, 엄격한 봇 탐지 우회 Sticky 세션
Datacenter 낮음 빠름 가카쿠닷컴 등 느슨한 사이트 요청별 회전

일본 사이트 대부분은 datacenter IP를 즉시 차단하거나 CAPTCHA를 트리거합니다. 특히 라쿠텐과 야후! 재팬 옥션은 residential 또는 mobile 프록시가 필수입니다. ProxyHat의 일본 residential 풀은 다양한 일본 도시를 커버하며, mobile 프록시는 DOCOMO·au·SoftBank 등 주요 캐리어 IP를 제공합니다.

핵심 요약

  • 일본 IP는 선택이 아닌 필수: 라쿠텐·야후! 재팬은 비일본 IP에 대해 카탈로그를 축소하고 레이트 리밋을 강화합니다.
  • Shift-JIS 인코딩에 대비: 야후! 재팬 옥션 등 구형 사이트는 여전히 Shift-JIS를 사용합니다. cp932 디코딩과 chardet 자동 감지를 구현하세요.
  • CJK 토크나이제이션은 필수: 일본어 검색 쿼리 구성과 키워드 추출에는 MeCab이나 Janome이 필요합니다.
  • APPI 준수: 공개 비개인정보(가격·재고) 수집은 가능하나, 개인정보(리뷰 작성자 식별 정보) 수집은 목적 제한 원칙을 따라야 합니다.
  • 편의점 결제를 고려한 재고 모델: 결제 지연으로 인한 재고 변동을 시계열로 추적하세요.
  • 시급 타겟팅 활용: 도쿄·오사카 IP로 지역별 가격·배송비·프로모션 차이를 포착하세요.
  • Residential·mobile 우선: 일본 사이트는 datacenter IP 차단이 엄격합니다. ProxyHat residential 요금제로 시작하세요.

일본 이커머스 데이터 인텔리전스는 올바른 프록시 인프라에서 시작됩니다. ProxyHat의 일본 residential 및 mobile 프록시로 라쿠텐, 메루카리, 야후! 재팬 옥션 데이터를 안정적으로 수집하세요. 자세한 스크래핑 구현은 웹 스크래핑 모범 사례 가이드웹 스크래핑 유스케이스를 참고하세요.

시작할 준비가 되셨나요?

AI 필터링으로 148개국 이상에서 5천만 개 이상의 레지덴셜 IP에 액세스하세요.

가격 보기레지덴셜 프록시
← 블로그로 돌아가기