Dlaczego japońskie proxy są niezbędne dla e-commerce
Japoński rynek e-commerce jest trzeci co do wielkości na świecie — w 2024 roku przekroczył 22 biliony jenów. Dla globalnych zespołów wywiadowczych to ogromna szansa, ale i poważna bariera techniczna. Japońskie platformy aktywnie blokują lub ograniczają ruch spoza Japonii. Rakuten, Yahoo! Japan Auctions czy Mercari serwują inne katalogi, inne ceny i inne stany magazynowe dla adresów IP z Japonii niż dla reszty świata.
Bez japońskich residential proxy Twoje dane będą niekompletne, a w wielu przypadkach — po prostu niedostępne. Nie chodzi o drobną niedokładność; chodzi o systematyczne zniekształcenie obrazu rynku, które prowadzi do błędnych decyzji biznesowych.
W tym przewodniku omawiamy konkretne platformy, techniczne wyzwania (Shift-JIS, tokenizacja CJK), wymogi prawne (APPI) oraz praktyczne przykłady geo-targetowania na poziomie miast Tokio i Osaka.
Japońskie platformy e-commerce — przegląd i zastosowania
Każda z głównych japońskich platform ma swoją specyfikę i wymaga innego podejścia do scrapingu. Poniższa tabela zestawia najważniejsze informacje:
| Platforma | Typ | Główne dane do scrapingu | Trudność |
|---|---|---|---|
| Rakuten | Marketplace B2C | Ceny, stany magazynowe, opinie, rankingi | Wysoka — silna ochrona anti-bot |
| Mercari | C2C marketplace | Ceny wtórne, trendy produktowe, dostępność | Wysoka — API zamknięte, rate limiting |
| Yahoo! Japan Auctions | Aukcje C2C/B2C | Ceny licytacji, historyczne zakończone aukcje | Średnia — blokuje non-JP IP przy historii |
| Kakaku.com | Porównywarka cen | Ceny minimalne, dostępność sklepów, rankingi | Średnia — rate limiting przy masowym zapytaniu |
| Tabelog | Gastronomia / recenzje | Oceny, menu, godziny otwarcia, recenzje | Niska-średnia — ale blokuje non-JP |
| SUUMO | Nieruchomości | Ceny wynajmu, dostępność, metraż | Średnia — dane strukturalne, ale rate-limited |
Rakuten — największy marketplace Japonii
Rakuten to najważniejsza platforma e-commerce w Japonii z ponad 100 milionami zarejestrowanych użytkowników. Dla zagranicznych zespołów wywiadowczych jest to główne źródło danych o cenach detalicznych, stanach magazynowych i trendach konsumenckich.
Rakuten aktywnie filtruje ruch spoza Japonii: produkty widoczne dla japońskiego IP mogą nie pojawić się dla amerykańskiego czy europejskiego. Kategorie takie jak „Rakuten Ranking" (rankingi sprzedaży) są dostępne wyłącznie z JP IP. Dodatkowo platforma stosuje agresywne rate limiting i CAPTCHA przy podejrzeniu automatycznego ruchu.
Mercari — wtórny rynek C2C
Mercari to dominująca platforma C2C w Japonii. Dane z Mercari są kluczowe dla analizy cen wtórnych — szczególnie w sektorach sneakers, elektronika i dobra luksusowe. Platforma nie udostępnia publicznego API, a ich zespół anti-bot jest jednym z najbardziej zaawansowanych w Japonii. Residential proxy z rotacją per-request to minimum, by utrzymać stabilny scraping.
Yahoo! Japan Auctions
Yahoo! Japan Auctions (często nazywane Yafuoku) to odpowiednik eBay w Japonii. Historyczne dane aukcyjne są niezwykle cenne dla price intelligence, ale Yahoo! blokuje dostęp do zakończonych aukcji z non-JP IP. Sticky sessions z japońskim residential IP są tu niezbędne.
Kakaku.com, Tabelog i SUUMO
Kakaku.com to najpopularniejsza porównywarka cen w Japonii — idealne źródło danych o najniższych cenach rynkowych. Tabelog to „japoński Yelp" z niezwykle rygorystycznym systemem ocen (skala 1–5, ale średnia to około 3.2). SUUMO to lider danych o nieruchomościach. Wszystkie trzy platformy ograniczają dostęp z zagranicznych IP.
Dlaczego JP-origin IP jest bezwzględnie wymagany
Japońskie platformy e-commerce stosują wielowarstwowe mechanizmy filtrowania geograficznego:
- Geo-IP blocking — wiele stron zwraca 403 lub redirectuje na zubożoną wersję międzynarodową.
- Rate limiting diferencjalny — non-JP IP otrzymują znacznie niższe limity (często 1/10 JP limitów).
- Różne katalogi produktów — Rakuten i Yahoo! serwują JP-specyficzne katalogi z lokalnymi cenami w jenach, podczas gdy zagraniczny IP widzi tylko podzbiór produktów lub ceny w USD z marżą.
- Ukryte stany magazynowe — informacja o dostępności „w sprzedaży w sklepie" jest widoczna tylko dla JP IP.
Bez japońskiego residential IP Twoje dane nie są niekompletne — są aktywnie zniekształcone. Decyzje podejmowane na ich podstawie będą systematycznie błędne.
Datacenter proxy z japońskim IP mogą działać na niektórych platformach, ale Mercari i Rakuten mają bazy znanych zakresów datacenter i je blokują. Residential proxy z JP origin to jedyna niezawodna opcja.
Obsługa tekstu japońskiego — Shift-JIS, UTF-8 i tokenizacja CJK
Scraping japońskich stron niesie unikalne wyzwania tekstowe, których nie spotkasz na rynkach zachodnich.
Shift-JIS — żywy skansen kodowania
Mimo że UTF-8 jest dziś standardem, wiele starszych japońskich stron nadal używa Shift-JIS (Shift Japanese Industrial Standards). Yahoo! Japan Auctions w niektórych sekcjach nadal serwuje strony w tym kodowaniu. Jeśli Twój scraper zakłada UTF-8, otrzymasz nieczytelne znaki (mojibake).
Rozwiązanie w Pythonie:
import requests
from bs4 import BeautifulSoup
proxies = {
"http": "http://user-country-JP:PASSWORD@gate.proxyhat.com:8080",
"https": "http://user-country-JP:PASSWORD@gate.proxyhat.com:8080",
}
resp = requests.get("https://auctions.yahoo.co.jp/", proxies=proxies)
# Automatyczne wykrywanie kodowania
resp.encoding = resp.apparent_encoding # lub 'shift_jis' ręcznie
soup = BeautifulSoup(resp.text, "html.parser")
Tokenizacja CJK w wyszukiwaniu
Japoński tekst nie używa spacji jako separatorów słów. Wyszukiwania na Rakuten czy Mercari wymagają tokenizacji — japońskie silniki wyszukiwane domyślnie stosują tokenizację MeCab lub Kuromoji. Jeśli budujesz własny indeks zescrapowanych danych, musisz zastosować tokenizator CJK (np. fugashi w Pythonie), aby poprawnie wyszukiwać w zgromadzonych danych.
APPI — japoński odpowiednik GDPR
Act on the Protection of Personal Information (APPI) to japońska ustawa o ochronie danych osobowych, wielokrotnie znowelizowana, ostatnio istotnie w 2022 roku. Dla zespołów scrapujących japońskie dane kluczowe są następujące aspekty:
Zakres APPI w kontekście scrapingu
- Dane osobowe vs publiczne — APPI chroni „personal information" (個人情報), czyli dane pozwalające zidentyfikować osobę. Publicznie dostępne ceny, opisy produktów i stany magazynowe nie są danymi osobowymi.
- Opinie i recenzje — recenzje z nazwiskiem lub pseudonimem mogą stanowić dane osobowe. Scraping recenzji w masowej skali wymaga ostrożności — szczególnie na Tabelog, gdzie recenzje są często bardzo szczegółowe.
- Wymóg „purpose of use" — APPI wymaga określenia celu przetwarzania. Price intelligence i market research są akceptowalnymi celami.
- Transfer międzynarodowy — przesyłanie danych osobowych z Japonii poza kraj wymaga odpowiednich zabezpieczeń (podobnie jak GDPR). Jeśli scrapujesz dane osobowe, musisz zapewnić compliance.
Scraping publicznie dostępnych cen, stanów magazynowych i danych produktowych z japońskich platform jest zgodny z APPI. Ostrożność jest wymagana przy danych recenzentów i informacji umożliwiających identyfikację osób.
Praktyczne zasady compliance
- Scrapuj tylko publicznie dostępne dane — nie omijaj logowania ani paywalli.
- Szanuj
robots.txt— japońskie firmy traktują go poważnie. - Anonimizuj dane osobowe — haszuj nazwy użytkowników w recenzjach.
- Stosuj rozsądne rate limiting — nie obciążaj serwerów.
- Przechowuj dane na serwerach z odpowiednim poziomem bezpieczeństwa.
Płatności konbini — dlaczego wpływają na scraping
Japoński e-commerce ma unikalny system płatności: konbini (コンビニ), czyli płatność w sklepie convenience store (7-Eleven, Lawson, FamilyMart). Kupujący wybiera konbini jako metodę płatności, otrzymuje kod, a następnie płaci gotówką w sklepie w ciągu 24–72 godzin.
Jak to wpływa na scraping stanów magazynowych
Konbini tworzy stan pośredni: produkt jest oznaczony jako „zamówiony" (注文済み), ale płatność nie jest jeszcze potwierdzona (未入金). To oznacza, że:
- Produkt może być oznaczony jako „w sprzedazy" na stronie, ale mieć przypisaną niepotwierdzoną płatność konbini.
- True availability (prawdziwa dostępność) = widoczny stan magazynowy minus niepotwierdzone rezerwacje konbini.
- Na Rakuten status „在庫あり" (w magazynie) nie oznacza, że produkt jest faktycznie dostępny do natychmiastowej wysyłki — może czekać na płatność konbini.
Dla teamów monitorujących dostępność limited-edition produktów (sneakers, kolekcje) to krytyczna informacja. Model detekcji „in stock" musi uwzględniać opóźnienie konbini — produkt może pojawić się jako dostępny na kilka godzin dłużej, niż wynikałoby to z faktycznego stanu magazynowego.
Geo-targetowanie na poziomie miast — Tokio i Osaka
Niektóre japońskie platformy serwują różne treści w zależności od lokalizacji wewnątrz Japonii. SUUMO (nieruchomości) i Tabelog (gastronomia) to najczęstsze przykłady — ceny wynajmu w Shibuya (Tokio) i w Namba (Osaka) mogą się drastycznie różnić.
Z ProxyHat możesz geo-targetować na poziomie kraju i miasta:
cURL — Tokio
curl -x http://user-country-JP-city-tokyo:PASSWORD@gate.proxyhat.com:8080 \
"https://suumo.jp/chintai/tokyo/"
Python — Osaka
import requests
proxies = {
"http": "http://user-country-JP-city-osaka:PASSWORD@gate.proxyhat.com:8080",
"https": "http://user-country-JP-city-osaka:PASSWORD@gate.proxyhat.com:8080",
}
# Scraping Tabelog — restauracje w Osace
resp = requests.get(
"https://tabelog.com/osaka/",
proxies=proxies,
headers={"Accept-Language": "ja"}
)
print(resp.status_code)
Node.js — sticky session dla Yahoo! Auctions
const axios = require("axios");
const proxy = {
host: "gate.proxyhat.com",
port: 8080,
auth: {
username: "user-country-JP-session-auction42",
password: "PASSWORD",
},
};
const resp = await axios.get(
"https://auctions.yahoo.co.jp/search/search?p=sneakers",
{ proxy }
);
console.log(resp.status);
Sticky sessions są kluczowe dla platform aukcyjnych — Yahoo! Auctions wymaga spójnego IP w ramach jednej sesji przeglądania, aby uniknąć CAPTCHA. Parametr session- w nazwie użytkownika gwarantuje, że wszystkie zapytania w ramach tej sesji wychodzą z tego samego IP.
Residential vs datacenter vs mobile — co wybrać na rynek JP?
| Typ proxy | Zalety dla JP | Wady dla JP | Najlepsze zastosowanie |
|---|---|---|---|
| Residential | Najwyższa wiarygodność IP, omija anti-bot Mercari/Rakuten | Wyższy koszt, wolniejszy | Scraping Mercari, Yahoo! Auctions, monitorowanie cen |
| Datacenter | Szybki, tani, wysoka przepustowość | Łatwo wykrywany przez JP platformy | Kakaku.com, SUUMO, Tabelog (łagodniejszy anti-bot) |
| Mobile | Najwyższy trust IP — IP operatorów komórkowych (Docomo, au, SoftBank) | Najwyższy koszt, ograniczona dostępność | Mercari (najagresywniejszy anti-bot), konta testowe |
Większość zespołów zaczyna od residential proxy z JP geo-targeting i dodaje mobile dla specyficznych trudnych celów. Datacenter sprawdzają się przy platformach z łagodniejszą ochroną.
Najlepsze praktyki scrapingu japońskich platform
1. Ustawiaj japońskie nagłówki
Zawsze dołączaj Accept-Language: ja i japoński User-Agent. Bez tego niektóre platformy serwują zubożone wersje stron.
2. Szanuj strefy czasowe JST
Japonia to JST (UTC+9). Wiele promocji i aktualizacji cen następuje o północy JST. Planuj scraping zgodnie z japońskim czasem.
3. Używaj rotacji per-request do odkrywania, sticky do przeglądania
Do zbierania list produktów używaj rotacji IP per-request. Do przeglądania szczegółów produktu i historii aukcji — sticky sessions.
4. Testuj kodowanie przed parsowaniem
Zawsze sprawdzaj resp.apparent_encoding lub nagłówek Content-Type przed parsowaniem HTML. Shift-JIS nadal pojawia się na starszych sekcjach Yahoo! Japan.
5. Monitoruj stany konbini
Przy modelowaniu dostępności produktów uwzględnij opóźnienie konbini — produkt może być oznaczony jako dostępny nawet gdy ma niepotwierdzone rezerwacje.
Kluczowe wnioski
- JP-origin IP jest bezwzględnie wymagany — japońskie platformy serwują inne katalogi i ceny dla non-JP IP, a wiele sekcji jest całkowicie niedostępnych.
- Residential proxy z JP geo-targeting to minimum dla poważnego scrapingu — datacenter IP są blokowane przez Mercari i Rakuten.
- Shift-JIS nadal istnieje — zawsze sprawdzaj kodowanie stron, szczególnie na Yahoo! Japan Auctions.
- APPI pozwala na scraping publicznych danych — ceny, stany magazynowe i dane produktowe są legalne do scrapingu. Ostrożność przy danych osobowych w recenzjach.
- Konbini wpływa na detekcję dostępności — status „zamówiony" nie oznacza „zapłacony".
- Geo-targetowanie na poziomie miast (Tokio, Osaka) jest dostępne i niezbędne dla platform lokalnych jak SUUMO czy Tabelog.
Gotowy na wejście na japoński rynek? Skonfiguruj japońskie residential proxy w ProxyHat i zacznij zbierać dane z Rakuten, Mercari i Yahoo! Japan Auctions już dziś. Sprawdź też nasz przypadek użycia web scrapingu i listę dostępnych lokalizacji.






