Japońskie proxy: kompletny przewodnik po e-commerce w Japonii

Dowiedz się, dlaczego japońskie proxy są niezbędne do scrapingu Rakuten, Mercari i Yahoo! Japan Auctions, jak radzić sobie z Shift-JIS, APPI i płatnościami konbini.

Japońskie proxy: kompletny przewodnik po e-commerce w Japonii

Dlaczego japońskie proxy są niezbędne dla e-commerce

Japoński rynek e-commerce jest trzeci co do wielkości na świecie — w 2024 roku przekroczył 22 biliony jenów. Dla globalnych zespołów wywiadowczych to ogromna szansa, ale i poważna bariera techniczna. Japońskie platformy aktywnie blokują lub ograniczają ruch spoza Japonii. Rakuten, Yahoo! Japan Auctions czy Mercari serwują inne katalogi, inne ceny i inne stany magazynowe dla adresów IP z Japonii niż dla reszty świata.

Bez japońskich residential proxy Twoje dane będą niekompletne, a w wielu przypadkach — po prostu niedostępne. Nie chodzi o drobną niedokładność; chodzi o systematyczne zniekształcenie obrazu rynku, które prowadzi do błędnych decyzji biznesowych.

W tym przewodniku omawiamy konkretne platformy, techniczne wyzwania (Shift-JIS, tokenizacja CJK), wymogi prawne (APPI) oraz praktyczne przykłady geo-targetowania na poziomie miast Tokio i Osaka.

Japońskie platformy e-commerce — przegląd i zastosowania

Każda z głównych japońskich platform ma swoją specyfikę i wymaga innego podejścia do scrapingu. Poniższa tabela zestawia najważniejsze informacje:

Platforma Typ Główne dane do scrapingu Trudność
RakutenMarketplace B2CCeny, stany magazynowe, opinie, rankingiWysoka — silna ochrona anti-bot
MercariC2C marketplaceCeny wtórne, trendy produktowe, dostępnośćWysoka — API zamknięte, rate limiting
Yahoo! Japan AuctionsAukcje C2C/B2CCeny licytacji, historyczne zakończone aukcjeŚrednia — blokuje non-JP IP przy historii
Kakaku.comPorównywarka cenCeny minimalne, dostępność sklepów, rankingiŚrednia — rate limiting przy masowym zapytaniu
TabelogGastronomia / recenzjeOceny, menu, godziny otwarcia, recenzjeNiska-średnia — ale blokuje non-JP
SUUMONieruchomościCeny wynajmu, dostępność, metrażŚrednia — dane strukturalne, ale rate-limited

Rakuten — największy marketplace Japonii

Rakuten to najważniejsza platforma e-commerce w Japonii z ponad 100 milionami zarejestrowanych użytkowników. Dla zagranicznych zespołów wywiadowczych jest to główne źródło danych o cenach detalicznych, stanach magazynowych i trendach konsumenckich.

Rakuten aktywnie filtruje ruch spoza Japonii: produkty widoczne dla japońskiego IP mogą nie pojawić się dla amerykańskiego czy europejskiego. Kategorie takie jak „Rakuten Ranking" (rankingi sprzedaży) są dostępne wyłącznie z JP IP. Dodatkowo platforma stosuje agresywne rate limiting i CAPTCHA przy podejrzeniu automatycznego ruchu.

Mercari — wtórny rynek C2C

Mercari to dominująca platforma C2C w Japonii. Dane z Mercari są kluczowe dla analizy cen wtórnych — szczególnie w sektorach sneakers, elektronika i dobra luksusowe. Platforma nie udostępnia publicznego API, a ich zespół anti-bot jest jednym z najbardziej zaawansowanych w Japonii. Residential proxy z rotacją per-request to minimum, by utrzymać stabilny scraping.

Yahoo! Japan Auctions

Yahoo! Japan Auctions (często nazywane Yafuoku) to odpowiednik eBay w Japonii. Historyczne dane aukcyjne są niezwykle cenne dla price intelligence, ale Yahoo! blokuje dostęp do zakończonych aukcji z non-JP IP. Sticky sessions z japońskim residential IP są tu niezbędne.

Kakaku.com, Tabelog i SUUMO

Kakaku.com to najpopularniejsza porównywarka cen w Japonii — idealne źródło danych o najniższych cenach rynkowych. Tabelog to „japoński Yelp" z niezwykle rygorystycznym systemem ocen (skala 1–5, ale średnia to około 3.2). SUUMO to lider danych o nieruchomościach. Wszystkie trzy platformy ograniczają dostęp z zagranicznych IP.

Dlaczego JP-origin IP jest bezwzględnie wymagany

Japońskie platformy e-commerce stosują wielowarstwowe mechanizmy filtrowania geograficznego:

  • Geo-IP blocking — wiele stron zwraca 403 lub redirectuje na zubożoną wersję międzynarodową.
  • Rate limiting diferencjalny — non-JP IP otrzymują znacznie niższe limity (często 1/10 JP limitów).
  • Różne katalogi produktów — Rakuten i Yahoo! serwują JP-specyficzne katalogi z lokalnymi cenami w jenach, podczas gdy zagraniczny IP widzi tylko podzbiór produktów lub ceny w USD z marżą.
  • Ukryte stany magazynowe — informacja o dostępności „w sprzedaży w sklepie" jest widoczna tylko dla JP IP.
Bez japońskiego residential IP Twoje dane nie są niekompletne — są aktywnie zniekształcone. Decyzje podejmowane na ich podstawie będą systematycznie błędne.

Datacenter proxy z japońskim IP mogą działać na niektórych platformach, ale Mercari i Rakuten mają bazy znanych zakresów datacenter i je blokują. Residential proxy z JP origin to jedyna niezawodna opcja.

Obsługa tekstu japońskiego — Shift-JIS, UTF-8 i tokenizacja CJK

Scraping japońskich stron niesie unikalne wyzwania tekstowe, których nie spotkasz na rynkach zachodnich.

Shift-JIS — żywy skansen kodowania

Mimo że UTF-8 jest dziś standardem, wiele starszych japońskich stron nadal używa Shift-JIS (Shift Japanese Industrial Standards). Yahoo! Japan Auctions w niektórych sekcjach nadal serwuje strony w tym kodowaniu. Jeśli Twój scraper zakłada UTF-8, otrzymasz nieczytelne znaki (mojibake).

Rozwiązanie w Pythonie:

import requests
from bs4 import BeautifulSoup

proxies = {
    "http": "http://user-country-JP:PASSWORD@gate.proxyhat.com:8080",
    "https": "http://user-country-JP:PASSWORD@gate.proxyhat.com:8080",
}

resp = requests.get("https://auctions.yahoo.co.jp/", proxies=proxies)

# Automatyczne wykrywanie kodowania
resp.encoding = resp.apparent_encoding  # lub 'shift_jis' ręcznie
soup = BeautifulSoup(resp.text, "html.parser")

Tokenizacja CJK w wyszukiwaniu

Japoński tekst nie używa spacji jako separatorów słów. Wyszukiwania na Rakuten czy Mercari wymagają tokenizacji — japońskie silniki wyszukiwane domyślnie stosują tokenizację MeCab lub Kuromoji. Jeśli budujesz własny indeks zescrapowanych danych, musisz zastosować tokenizator CJK (np. fugashi w Pythonie), aby poprawnie wyszukiwać w zgromadzonych danych.

APPI — japoński odpowiednik GDPR

Act on the Protection of Personal Information (APPI) to japońska ustawa o ochronie danych osobowych, wielokrotnie znowelizowana, ostatnio istotnie w 2022 roku. Dla zespołów scrapujących japońskie dane kluczowe są następujące aspekty:

Zakres APPI w kontekście scrapingu

  • Dane osobowe vs publiczne — APPI chroni „personal information" (個人情報), czyli dane pozwalające zidentyfikować osobę. Publicznie dostępne ceny, opisy produktów i stany magazynowe nie są danymi osobowymi.
  • Opinie i recenzje — recenzje z nazwiskiem lub pseudonimem mogą stanowić dane osobowe. Scraping recenzji w masowej skali wymaga ostrożności — szczególnie na Tabelog, gdzie recenzje są często bardzo szczegółowe.
  • Wymóg „purpose of use" — APPI wymaga określenia celu przetwarzania. Price intelligence i market research są akceptowalnymi celami.
  • Transfer międzynarodowy — przesyłanie danych osobowych z Japonii poza kraj wymaga odpowiednich zabezpieczeń (podobnie jak GDPR). Jeśli scrapujesz dane osobowe, musisz zapewnić compliance.
Scraping publicznie dostępnych cen, stanów magazynowych i danych produktowych z japońskich platform jest zgodny z APPI. Ostrożność jest wymagana przy danych recenzentów i informacji umożliwiających identyfikację osób.

Praktyczne zasady compliance

  1. Scrapuj tylko publicznie dostępne dane — nie omijaj logowania ani paywalli.
  2. Szanuj robots.txt — japońskie firmy traktują go poważnie.
  3. Anonimizuj dane osobowe — haszuj nazwy użytkowników w recenzjach.
  4. Stosuj rozsądne rate limiting — nie obciążaj serwerów.
  5. Przechowuj dane na serwerach z odpowiednim poziomem bezpieczeństwa.

Płatności konbini — dlaczego wpływają na scraping

Japoński e-commerce ma unikalny system płatności: konbini (コンビニ), czyli płatność w sklepie convenience store (7-Eleven, Lawson, FamilyMart). Kupujący wybiera konbini jako metodę płatności, otrzymuje kod, a następnie płaci gotówką w sklepie w ciągu 24–72 godzin.

Jak to wpływa na scraping stanów magazynowych

Konbini tworzy stan pośredni: produkt jest oznaczony jako „zamówiony" (注文済み), ale płatność nie jest jeszcze potwierdzona (未入金). To oznacza, że:

  • Produkt może być oznaczony jako „w sprzedazy" na stronie, ale mieć przypisaną niepotwierdzoną płatność konbini.
  • True availability (prawdziwa dostępność) = widoczny stan magazynowy minus niepotwierdzone rezerwacje konbini.
  • Na Rakuten status „在庫あり" (w magazynie) nie oznacza, że produkt jest faktycznie dostępny do natychmiastowej wysyłki — może czekać na płatność konbini.

Dla teamów monitorujących dostępność limited-edition produktów (sneakers, kolekcje) to krytyczna informacja. Model detekcji „in stock" musi uwzględniać opóźnienie konbini — produkt może pojawić się jako dostępny na kilka godzin dłużej, niż wynikałoby to z faktycznego stanu magazynowego.

Geo-targetowanie na poziomie miast — Tokio i Osaka

Niektóre japońskie platformy serwują różne treści w zależności od lokalizacji wewnątrz Japonii. SUUMO (nieruchomości) i Tabelog (gastronomia) to najczęstsze przykłady — ceny wynajmu w Shibuya (Tokio) i w Namba (Osaka) mogą się drastycznie różnić.

Z ProxyHat możesz geo-targetować na poziomie kraju i miasta:

cURL — Tokio

curl -x http://user-country-JP-city-tokyo:PASSWORD@gate.proxyhat.com:8080 \
  "https://suumo.jp/chintai/tokyo/"

Python — Osaka

import requests

proxies = {
    "http": "http://user-country-JP-city-osaka:PASSWORD@gate.proxyhat.com:8080",
    "https": "http://user-country-JP-city-osaka:PASSWORD@gate.proxyhat.com:8080",
}

# Scraping Tabelog — restauracje w Osace
resp = requests.get(
    "https://tabelog.com/osaka/",
    proxies=proxies,
    headers={"Accept-Language": "ja"}
)
print(resp.status_code)

Node.js — sticky session dla Yahoo! Auctions

const axios = require("axios");

const proxy = {
  host: "gate.proxyhat.com",
  port: 8080,
  auth: {
    username: "user-country-JP-session-auction42",
    password: "PASSWORD",
  },
};

const resp = await axios.get(
  "https://auctions.yahoo.co.jp/search/search?p=sneakers",
  { proxy }
);
console.log(resp.status);

Sticky sessions są kluczowe dla platform aukcyjnych — Yahoo! Auctions wymaga spójnego IP w ramach jednej sesji przeglądania, aby uniknąć CAPTCHA. Parametr session- w nazwie użytkownika gwarantuje, że wszystkie zapytania w ramach tej sesji wychodzą z tego samego IP.

Residential vs datacenter vs mobile — co wybrać na rynek JP?

Typ proxy Zalety dla JP Wady dla JP Najlepsze zastosowanie
ResidentialNajwyższa wiarygodność IP, omija anti-bot Mercari/RakutenWyższy koszt, wolniejszyScraping Mercari, Yahoo! Auctions, monitorowanie cen
DatacenterSzybki, tani, wysoka przepustowośćŁatwo wykrywany przez JP platformyKakaku.com, SUUMO, Tabelog (łagodniejszy anti-bot)
MobileNajwyższy trust IP — IP operatorów komórkowych (Docomo, au, SoftBank)Najwyższy koszt, ograniczona dostępnośćMercari (najagresywniejszy anti-bot), konta testowe

Większość zespołów zaczyna od residential proxy z JP geo-targeting i dodaje mobile dla specyficznych trudnych celów. Datacenter sprawdzają się przy platformach z łagodniejszą ochroną.

Najlepsze praktyki scrapingu japońskich platform

1. Ustawiaj japońskie nagłówki

Zawsze dołączaj Accept-Language: ja i japoński User-Agent. Bez tego niektóre platformy serwują zubożone wersje stron.

2. Szanuj strefy czasowe JST

Japonia to JST (UTC+9). Wiele promocji i aktualizacji cen następuje o północy JST. Planuj scraping zgodnie z japońskim czasem.

3. Używaj rotacji per-request do odkrywania, sticky do przeglądania

Do zbierania list produktów używaj rotacji IP per-request. Do przeglądania szczegółów produktu i historii aukcji — sticky sessions.

4. Testuj kodowanie przed parsowaniem

Zawsze sprawdzaj resp.apparent_encoding lub nagłówek Content-Type przed parsowaniem HTML. Shift-JIS nadal pojawia się na starszych sekcjach Yahoo! Japan.

5. Monitoruj stany konbini

Przy modelowaniu dostępności produktów uwzględnij opóźnienie konbini — produkt może być oznaczony jako dostępny nawet gdy ma niepotwierdzone rezerwacje.

Kluczowe wnioski

  • JP-origin IP jest bezwzględnie wymagany — japońskie platformy serwują inne katalogi i ceny dla non-JP IP, a wiele sekcji jest całkowicie niedostępnych.
  • Residential proxy z JP geo-targeting to minimum dla poważnego scrapingu — datacenter IP są blokowane przez Mercari i Rakuten.
  • Shift-JIS nadal istnieje — zawsze sprawdzaj kodowanie stron, szczególnie na Yahoo! Japan Auctions.
  • APPI pozwala na scraping publicznych danych — ceny, stany magazynowe i dane produktowe są legalne do scrapingu. Ostrożność przy danych osobowych w recenzjach.
  • Konbini wpływa na detekcję dostępności — status „zamówiony" nie oznacza „zapłacony".
  • Geo-targetowanie na poziomie miast (Tokio, Osaka) jest dostępne i niezbędne dla platform lokalnych jak SUUMO czy Tabelog.

Gotowy na wejście na japoński rynek? Skonfiguruj japońskie residential proxy w ProxyHat i zacznij zbierać dane z Rakuten, Mercari i Yahoo! Japan Auctions już dziś. Sprawdź też nasz przypadek użycia web scrapingu i listę dostępnych lokalizacji.

Gotowy, aby zacząć?

Dostęp do ponad 50 mln rezydencjalnych IP w ponad 148 krajach z filtrowaniem AI.

Zobacz cenyProxy rezydencjalne
← Powrót do Bloga