Pourquoi les proxies japonaises sont incontournables
Si votre équipe d'intelligence e-commerce se prépare à entrer sur le marché japonais, vous allez rapidement constater un fait incontournable : les sites japonais bloquent ou limitent agressivement le trafic non domestique. Rakuten, Yahoo! Japan Auctions, Mercari — tous restreignent l'accès aux IP étrangères, que ce soit par des CAPTCHAS systématiques, des pages tronquées ou des rate-limits drastiques.
Les proxies japonaises — et plus précisément les proxies résidentielles japonaises — ne sont pas un luxe : c'est la condition sine qua non pour accéder aux catalogues complets, aux prix en temps réel et aux données de stock reflétant la réalité du marché nippon.
Dans ce guide, nous couvrons les cas d'usage concrets sur les principales plateformes JP, les subtilités techniques (encodage Shift-JIS, tokenisation CJK), le cadre légal APPI, les particularités des flux de paiement konbini, et des exemples de ciblage géographique Tokyo/Osaka avec ProxyHat.
Les plateformes japonaises incontournables et leurs défis
Rakuten — Le géant du e-commerce JP
Avec plus de 100 millions de membres, Rakuten Ichiba est la plus grande marketplace du Japon. Scraper Rakuten signifie extraire des données de prix, de stock, de classements marchands et d'avis sur des millions de produits. Le défi principal : Rakuten sert un catalogue spécifique au Japon — les visiteurs non-JP voient une version internationale édulcorée, avec moins de produits et des prix convertis. Seule une IP résidentielle japonaise donne accès au catalogue complet.
Les pages de catégorie Rakuten utilisent parfois l'encodage Shift-JIS hérité, ce qui pose des problèmes de parsing si votre scraper suppose du UTF-8 pur. Nous y reviendrons.
Mercari — Le leader C2C
Mercari domine le marché C2C japonais avec plus de 20 millions d'utilisateurs actifs. Pour les équipes d'intelligence, c'est une mine d'or : tendances de revente, pricing dynamique sur les articles d'occasion, et détection de produits contrefaits. Mercari applique un anti-bot agressif — les requêtes depuis des IP datacenter sont quasi immédiatement bloquées. Les proxies résidentielles japonaises sont obligatoires.
Yahoo! Japan Auctions — L'équivalent d'eBay
Contrairement à eBay qui a fermé ses opérations japonaises, Yahoo! Japan Auctions (ヤフオク!) reste le site d'enchères dominant. Les données d'enchères permettent de comprendre la demande réelle, les prix de transaction et la rareté des articles. Yahoo! Japan bloque systématiquement les IP hors Japon sur de nombreuses catégories d'enchères.
Kakaku.com — Comparateur de prix de référence
Kakaku.com est le comparateur de prix n°1 au Japon. Pour les équipes de pricing compétitif, c'est la source de vérité sur les prix de détail. Le site rate-limite sévèrement les IP étrangères et sert des résultats incomplets aux IP non-JP.
Tabelog — Le Yelp japonais
Tabelog (食べログ) est la plateforme de référence pour les avis sur les restaurants au Japon. Les chaînes de restauration et les équipes de location y extraient des données de fréquentation, d'avis et de localisation. Tabelog restreint l'accès massif depuis des IP non japonaises.
SUUMO — Immobilier résidentiel
SUUMO est le portail immobilier dominant au Japon. Les équipes d'analyse immobilière y scrapent des annonces de location et de vente, des prix au m² et des données de disponibilité. SUUMO bloque les scrapers étrangers avec des CAPTCHAS et des pages d'erreur HTTP 403.
| Plateforme | Type de données | Blocage non-JP | Proxy recommandé |
|---|---|---|---|
| Rakuten Ichiba | Prix, stock, avis, classements | Catalogue tronqué + rate-limit | Résidentielle JP |
| Mercari | Prix C2C, tendances, photos | Blocage agressif des IP datacenter | Résidentielle JP |
| Yahoo! Japan Auctions | Prix d'enchères, historique | Blocage par catégorie | Résidentielle JP |
| Kakaku.com | Prix comparatifs, disponibilité | Résultats incomplets | Résidentielle JP |
| Tabelog | Avis restaurants, fréquentation | CAPTCHA + 403 | Résidentielle JP |
| SUUMO | Annonces immobilières, prix | CAPTCHA + 403 | Résidentielle JP |
Pourquoi les IP japonaises sont non-négociables
Les plateformes japonaises ne se contentent pas de « préférer » le trafic domestique — elles discriminent activement les IP étrangères de plusieurs manières :
- Catalogue différent : Rakuten et Yahoo! Japan servent un catalogue JP complet uniquement aux IP japonaises. Les visiteurs internationaux voient une version réduite avec moins de marchands et des prix convertis.
- Rate-limiting asymétrique : Une IP non-JP peut être limitée à 5-10 requêtes/minute, tandis qu'une IP résidentielle JP peut en tolérer 50-100.
- CAPTCHAS systématiques : Tabelog, SUUMO et d'autres affichent des CAPTCHAS presque systématiquement pour les IP étrangères, rendant le scraping impraticable.
- Blocage pur et simple : Certains endpoints de l'API Rakuten et de Yahoo! Japan Auctions renvoient un 403 direct pour les plages d'IP hors JP.
Les proxies résidentielles japonaises contournent ces restrictions car elles attribuent à vos requêtes des adresses IP réelles de FAI japonais — KDDI, NTT, SoftBank — qui sont indistinguables du trafic légitime.
Gestion du texte japonais : Shift-JIS, UTF-8 et tokenisation CJK
L'encodage Shift-JIS, un héritage tenace
De nombreux sites japonais — particulièrement les plus anciens comme certaines sections de Yahoo! Japan et Rakuten — utilisent encore l'encodage Shift-JIS (Shift Japanese Industrial Standards). C'est un format hérité des années 90, avant l'ère UTF-8.
Si votre scraper suppose du UTF-8 et parsese du Shift-JIS, vous obtiendrez des mojibake (文字化け) — des caractères illisibles. La solution :
import requests
proxies = {
"http": "http://user-country-JP:pass@gate.proxyhat.com:8080",
"https": "http://user-country-JP:pass@gate.proxyhat.com:8080",
}
response = requests.get("https://auctions.yahoo.co.jp/", proxies=proxies)
# Détecter et convertir Shift-JIS vers UTF-8
encoding = response.encoding
if encoding and "shift" in encoding.lower():
content = response.content.decode("shift_jis", errors="replace")
else:
content = response.text
print(content[:500])
Conseil : vérifiez toujours l'en-tête Content-Type et la balise <meta charset> pour détecter l'encodage réel. Certains sites déclarent UTF-8 mais servent du Shift-JIS.
Tokenisation CJK pour le search scraping
Le japonais n'utilise pas d'espaces entre les mots. Les moteurs de recherche internes de Rakuten et Yahoo! Japan appliquent une tokenisation morphologique (MeCab, Kuromoji) qui détermine comment les requêtes sont comprises. Pour le scraping de SERP japonaises, cela signifie :
- Utilisez des termes de recherche en caractères japonais (hiragana, katakana, kanji) — pas de translittération romaji.
- Testez vos requêtes avec les mêmes tokeniseurs que les plateformes utilisent pour comprendre comment vos mots-clés sont découpés.
- Les variantes de caractères (半角/全角, hankaku/zenkaku) affectent les résultats — « iPhone » et 「IPhone」 peuvent produire des résultats différents.
Conformité APPI : le GDPR japonais
Le Act on the Protection of Personal Information (APPI — 個人情報保護法) est l'équivalent japonais du RGPD. Voici ce que les équipes de scraping doivent savoir :
- Données personnelles vs données publiques : L'APPI s'applique aux « informations personnelles » — données qui identifient un individu. Les données de prix, de stock et de catalogue sur les marketplaces publiques ne sont généralement pas considérées comme des données personnelles.
- Scraping de données publiques : Extraire des prix, des descriptions de produits et des classements marchands depuis des pages publiquement accessibles tombe généralement dans le cadre légal, à condition de respecter les
robots.txtet les conditions d'utilisation. - Avis et profils utilisateurs : Les noms d'utilisateur, photos et avis sur Tabelog ou Mercari peuvent constituer des données personnelles sous l'APPI. Leur collecte à grande échelle nécessite une base légale.
- Transfert hors Japon : Si vous transférez des données personnelles hors du Japon (vers l'UE, les US, etc.), l'APPI exige des garanties équivalentes — un cadre adéquat ou des clauses contractuelles types.
Recommandation : Limitez votre scraping aux données de prix, stock et catalogue (données commerciales publiques). Évitez la collecte systématique de données personnelles identifiables. Consultez un juriste japonais si votre use case implique des données utilisateurs.
Les particularités des flux de paiement japonais : konbini et détection de stock
Le Japon a des habitudes de paiement uniques qui affectent directement l'interprétation des données de stock :
- Konbini payment (コンビニ決済) : Environ 20% des achats en ligne au Japon sont payés en magasin konbini (7-Eleven, Lawson, FamilyMart). Le client commande en ligne, reçoit un code-barres, et paie en espèces au konbini dans les 3 à 7 jours.
- Impact sur la détection de stock : Sur Rakuten, un produit peut apparaître « en stock pour commande » mais être en réalité en rupture chez le marchand — car la commande konbini est en attente de paiement. Le stock affiché ne reflète pas toujours la disponibilité réelle.
- Statuts de commande : Les commandes konbini passent par un statut « en attente de paiement » qui peut durer plusieurs jours. Votre scraper doit distinguer entre « en stock et expédiable immédiatement » et « en stock mais en attente de paiement konbini ».
Pour un suivi précis de la disponibilité, combinez le scraping de la page produit avec le monitoring du statut de paiement dans le flux de commande.
Ciblage géographique : Tokyo et Osaka
Certaines plateformes japonaises servent du contenu localisé par région. Rakuten, par exemple, peut afficher des promotions régionales, et SUUMO est fortement géo-dépendant. Avec ProxyHat, vous pouvez cibler des villes spécifiques :
Exemple : proxy résidentielle Tokyo
# Ciblage Tokyo — idéal pour Rakuten, SUUMO Tokyo
curl -x "http://user-country-JP-city-tokyo:pass@gate.proxyhat.com:8080" \
"https://www.rakuten.co.jp/"
Exemple : proxy résidentielle Osaka
# Ciblage Osaka — utile pour les données immobilières Kansai
curl -x "http://user-country-JP-city-osaka:pass@gate.proxyhat.com:8080" \
"https://suumo.jp/osaka/"
Exemple Python avec sticky session pour Mercari
import requests
# Session persistante (sticky) pour naviguer sur Mercari
# sans déclencher de vérification d'identité à chaque requête
proxies = {
"http": "http://user-country-JP-city-tokyo-session-mercari01:pass@gate.proxyhat.com:8080",
"https": "http://user-country-JP-city-tokyo-session-mercari01:pass@gate.proxyhat.com:8080",
}
headers = {
"User-Agent": "Mozilla/5.0 (iPhone; CPU iPhone OS 16_0 like Mac OS X) AppleWebKit/605.1.15",
"Accept-Language": "ja-JP;q=0.9,en;q=0.1",
}
response = requests.get(
"https://www.mercari.com/jp/search/?keyword=ヴィトン",
proxies=proxies,
headers=headers,
)
print(f"Status: {response.status_code}")
print(f"Encoding: {response.encoding}")
Le paramètre session- crée une session sticky qui maintient la même IP pour toute la durée de votre session — essentiel pour les sites comme Mercari qui détectent les changements d'IP en milieu de navigation.
Bonnes pratiques pour le scraping japonais
- Respectez les horaires japonais : Limitez le trafic intensif entre 2h et 6h JST (UTC+9) quand les serveurs sont moins sollicités.
- Utilisez des User-Agents localisés : Incluez
ja-JPdans l'en-têteAccept-Languageet utilisez des User-Agents de navigateurs populaires au Japon (Chrome mobile sur iPhone, Safari). - Rotation intelligente : Alternez entre rotation par requête (pour le crawl massif de catalogue) et sticky sessions (pour la navigation séquentielle sur Mercari ou Yahoo! Auctions).
- Gérez Shift-JIS : Implémentez systématiquement la détection d'encodage dans votre pipeline de scraping.
- Surveillez les rate-limits : Même avec des IP résidentielles, les plateformes JP limitent les comportements anormaux. Maintenez un rythme de 1-2 requêtes/seconde par IP.
Points clés à retenir
- Les proxies résidentielles japonaises sont indispensables — les IP non-JP obtiennent des catalogues tronqués, des rate-limits sévères ou des blocages purs.
- Les six plateformes clés — Rakuten, Mercari, Yahoo! Japan Auctions, Kakaku.com, Tabelog, SUUMO — exigent toutes des IP JP pour un accès complet.
- Gérez l'encodage Shift-JIS et la tokenisation CJK dans votre pipeline de parsing.
- L'APPI régit les données personnelles au Japon — le scraping de données commerciales publiques est généralement acceptable, mais les données utilisateurs nécessitent une base légale.
- Les paiements konbini faussent la détection de stock — distinguez « en stock » de « en attente de paiement ».
- Utilisez le ciblage géographique Tokyo/Osaka pour les données localisées avec ProxyHat.
Prêt à accéder au marché japonais ? Découvrez les offres ProxyHat avec des proxies résidentielles dans toutes les préfectures du Japon, ou explorez nos cas d'usage de scraping web pour d'autres marchés.






