Pourquoi la collecte de données indiennes est un défi unique
L'Inde représente le deuxième marché internet au monde avec plus de 800 millions d'utilisateurs connectés. Pour les équipes data, growth et entrée sur le marché, c'est une mine d'or — mais une mine verrouillée. Les grandes plateformes indiennes comme Flipkart, MakeMyTrip ou Naukri restreignent massivement le trafic non indien. Les prix, les catalogues et même les pages visibles changent radicalement selon que votre requête vient de Mumbai ou de New York. Sans proxies indiens, vos données sont fausses, incomplètes ou tout simplement inaccessibles.
Ce guide vous montre comment configurer des proxies résidentiels indiens, quelles plateformes cibler, ce que dit la loi indienne sur le scraping, et comment gérer les subtilités locales — scripts Indic, flux UPI/COD, et ciblage ville par ville.
Pourquoi les IPs d'origine indienne sont indispensables
Flipkart est le cas d'école le plus frappant. Le marketplace affiche des catalogues et prix significativement différents selon la région de la requête. Un produit listé à ₹1 299 pour un utilisateur de Delhi peut apparaître à ₹1 499 pour un utilisateur de Bangalore — ou ne pas apparaître du tout si la requête vient d'une IP hors Inde. Les algorithmes de tarification dynamique de Flipkart prennent en compte la ville, l'historique de recherche et le mode de paiement.
Les restrictions sur le trafic non-indien sont agressives :
- Flipkart : bloque ou sert des pages dégradées aux IPs non-indiennes ; les prix affichés diffèrent par zone pin.
- Amazon India : redirige vers Amazon.com avec des catalogues différents ; les offres « Lightning Deals » ne sont visibles que depuis l'Inde.
- MakeMyTrip : affiche des tarifs vols/hôtels variant de 15 à 30 % entre IPs indiennes et étrangères.
- Naukri : limite le nombre de résultats visibles sans session indienne authentifiée.
Un proxy datacenter indien peut contourner le blocage géographique, mais les plateformes de e-commerce indiennes détectent et bloquent les IPs datacenter connues. Seuls des proxies résidentiels indiens offrent les IPs réelles d'utilisateurs ISP indiens (Jio, Airtel, BSNL, Vi) qui passent inaperçues.
Cas d'usage par secteur
E-commerce : Flipkart et Amazon India
Le scraping Flipkart est probablement le cas d'usage numéro un. Les équipes de pricing surveillent les prix catalogue, les offres flash, les remises de festival (Diwali Sale, Big Billion Days) et la disponibilité des stocks par code pin. Amazon India nécessite le même traitement pour les offres « Deal of the Day » et les variations de prix régionales.
Données ciblées : prix catalogue, prix barrés, évaluations, disponibilité par pincode, offres EMI, badges « Bestseller ».
Voyage : MakeMyTrip et Goibibo
Les agrégateurs de voyage indiens ajustent leurs tarifs en temps réel. MakeMyTrip et Goibibo proposent des bundles vol+hôtel avec des réductions combinées visibles uniquement depuis des IPs indiennes. Les données de tarification aérienne varient aussi selon la ville de départ — un proxy à Bangalore ne verra pas les mêmes offres qu'un proxy à Delhi.
Emploi : Naukri et InstaHyre
Naukri domine le marché du recrutement indien avec plus de 70 millions de profils. Les équipes de talent intelligence extraisent les tendances salariales, les compétences demandées et la densité de candidats par ville. InstaHyre, plus récent, cible les profils tech avec des données de salaire transparentes — précieuses pour le benchmarking.
Immobilier : 99acres et MagicBricks
Le marché immobilier indien est hyper-local. Les prix au m² à Bandra (Mumbai) n'ont rien à voir avec ceux de Whitefield (Bangalore). 99acres et MagicBricks servent des listes filtrées par localité avec des prix en ₹/sq.ft. qui changent par quartier. Le scraping de ces plateformes permet de construire des indices de prix immobiliers en temps réel.
| Plateforme | Secteur | Données clés | Raison du proxy IN |
|---|---|---|---|
| Flipkart | E-commerce | Prix, stocks, offres EMI | Prix régionaux, blocage non-IN |
| Amazon India | E-commerce | Lightning Deals, prix dynamiques | Catalogue différent hors Inde |
| MakeMyTrip | Voyage | Tarifs vols/hôtels, bundles | 15-30 % de différence hors-IN |
| Goibibo | Voyage | Offres combinées, cashback gocash | Offres locales uniquement |
| Naukri | Emploi | Salaires, compétences, localisations | Résultats limités sans IP IN |
| InstaHyre | Emploi | Salaires tech, profils candidats | Accès complet depuis IN |
| 99acres | Immobilier | Prix ₹/sq.ft., tendances quartier | Données hyper-locales |
| MagicBricks | Immobilier | Listings, prix tendance | Filtres géo-restreints |
Cadre juridique : IT Act 2000 et DPDP Act 2023
L'Inde a deux textes clés pour le scraping de données publiques :
Information Technology Act 2000 (IT Act) — Section 43 pénalise l'accès non autorisé à un système informatique. Toutefois, accéder à des pages web publiquement disponibles (sans authentification, sans contournement de mesures de sécurité actives) est généralement considéré comme légal. Le scraping de données de prix affichées publiquement sur Flipkart ou Amazon India entre dans ce cadre.
Digital Personal Data Protection Act 2023 (DPDP Act) — Ce texte, entré en vigueur en août 2023, protège les données personnelles numériques. Il s'applique aux données identifiables de personnes physiques indiennes. Les implications pour le scraping :
- Les données de prix, catalogues et stocks sont des données commerciales publiques, pas des données personnelles — le DPDP ne s'applique pas directement.
- Les profils utilisateurs, avis avec noms, et données de candidats sur Naukri sont potentiellement couverts par le DPDP. Leur collecte à grande échelle sans consentement est risquée.
- Le DPDP exige un consentement explicite pour traiter des données personnelles — le scraping automatisé ne satisfait pas cette exigence.
Bonne pratique : Limitez votre scraping aux données commerciales publiques (prix, stocks, listings anonymisés). Évitez la collecte systématique de données personnelles identifiables (noms, emails, numéros de téléphone) sans base légale.
Respectez toujours le fichier robots.txt des plateformes. Si Flipkart interdit un chemin dans robots.txt, ne le scrapez pas — même si techniquement possible. En cas de litige, le non-respect de robots.txt est un argument majeur contre vous.
Gestion des scripts Indic : Hindi, Tamil, Bengali
L'Inde a 22 langues officielles et des millions de pages web en scripts non-latins. Voici les défis techniques :
- Devanagari (Hindi, Marathi) : utilisé sur Flipkart, Amazon India et Naukri pour les descriptions produits et les intitulés de postes. Les caractères combinent des signes diacritiques (matras) avec des consonnes de base.
- Tamil : dominant au Tamil Nadu. Les marketplaces localisées et les portails d'emploi régionaux utilisent l'écriture tamoule.
- Bengali : langue la plus parlée en Inde de l'Est. Les portails immobiliers et d'emploi au Bengale occidental utilisent fréquemment le bengali.
Bonnes pratiques Unicode :
- Utilisez toujours l'encodage UTF-8 dans vos scripts de scraping et vos bases de données.
- Normalisez avec NFC (Normalization Form Canonical Composition) pour éviter les doublons causés par des représentations Unicode multiples du même caractère.
- Testez vos pipelines avec des chaînes mixtes Hindi-Anglais — très courantes sur les marketplaces indiennes (ex. : « स्मार्टफोन (Smartphone) »).
- Utilisez des bibliothèques comme
ftfyen Python pour corriger les encodages cassés fréquemment rencontrés sur les sites indiens.
import unicodedata
def normalize_indic(text: str) -> str:
"""Normalise le texte Indic en NFC pour éviter les doublons Unicode."""
return unicodedata.normalize('NFC', text)
# Exemple : description Flipkart en Hindi
raw = "\u0938\u094d\u092e\u093e\u0930\u094d\u091f\u092b\u094b\u0928" # स्मार्टफोन
print(normalize_indic(raw)) # Sortie normalisée
Flux de paiement : UPI, COD et EMI affectent le prix final
Le e-commerce indien a des particularités de paiement qui impactent directement le prix affiché et collectable :
- UPI (Unified Payments Interface) : plus de 75 % des transactions digitales en Inde. Les plateformes affichent souvent des cashbacks UPI spécifiques (₹100-500) qui réduisent le prix effectif. Si vous scrapez uniquement le prix catalogue, vous manquez ces réductions.
- COD (Cash On Delivery) : encore 40-60 % des commandes en Inde tier-2/3. Les vendeurs ajoutent parfois des frais COD (₹40-100) qui n'apparaissent pas dans le prix de liste.
- EMI (Equated Monthly Installments) : très courant pour les électroniques. Les options « No Cost EMI » et les EMI avec intérêt changent le prix total payé. Flipkart affiche ces options directement sur la page produit.
Pour un scraping de prix complet en Inde, vous devez capturer : le prix catalogue, le prix après offre UPI/bancaire, les frais COD éventuels, et les options EMI. C'est le checkout price — le vrai prix que paie le consommateur.
Ciblage géographique au niveau des villes
L'Inde est vaste et les données varient énormément d'une ville à l'autre. Avec ProxyHat, vous pouvez cibler des IPs au niveau ville :
Mumbai (Bombay)
Capitale financière. Données e-commerce premium, prix immobiliers parmi les plus élevés d'Inde, offres d'emploi finance/tech concentrées. Code pays : IN, ville : mumbai.
Delhi (NCR)
La région capitale nationale (NCR) inclut Gurgaon, Noida, Faridabad. Hub pour les startups et les entreprises tech. Les prix Flipkart et Amazon India varient entre Delhi NCR et Mumbai pour les mêmes produits.
Bangalore (Bengaluru)
La Silicon Valley indienne. Salaires tech les plus élevés, marché immobilier tendu, forte concentration de listings InstaHyre et Naukri pour les profils IT.
Chennai
Important marché du Sud avec des particularités linguistiques (Tamil). Les contenus e-commerce et immobilier sont souvent en tamoul. Les prix peuvent différer de 10-20 % par rapport au marché hindiophone du Nord.
Implémentation avec ProxyHat
ProxyHat offre des proxies résidentiels indiens avec ciblage au niveau ville. Voici comment configurer vos requêtes :
Configuration de base — IP indienne aléatoire
# curl avec proxy résidentiel indien
curl -x "http://user-country-IN:PASSWORD@gate.proxyhat.com:8080" \
"https://www.flipkart.com/samsung-galaxy-s24/p/itm12345"
Ciblage ville — Mumbai
# Python avec requests
import requests
proxies = {
"http": "http://user-country-IN-city-mumbai:PASSWORD@gate.proxyhat.com:8080",
"https": "http://user-country-IN-city-mumbai:PASSWORD@gate.proxyhat.com:8080",
}
# Scrape MakeMyTrip depuis Mumbai
response = requests.get(
"https://www.makemytrip.com/flights",
proxies=proxies,
timeout=30
)
print(f"Status: {response.status_code}")
print(f"Encoding: {response.encoding}") # Vérifiez UTF-8 pour contenu Indic
Session sticky pour le scraping séquentiel
Quand vous devez naviguer sur plusieurs pages avec la même identité (par exemple, ajouter au panier puis vérifier les frais COD), utilisez une session sticky :
# Session sticky pour simulation de checkout
proxies = {
"http": "http://user-country-IN-city-delhi-session-checkout42:PASSWORD@gate.proxyhat.com:8080",
"https": "http://user-country-IN-city-delhi-session-checkout42:PASSWORD@gate.proxyhat.com:8080",
}
# 1. Page produit
product = requests.get("https://www.flipkart.com/product/xyz", proxies=proxies)
# 2. Panier — même session/IP
basket = requests.get("https://www.flipkart.com/viewcart", proxies=proxies)
# 3. Checkout — même session/IP, capture des frais COD/EMI
checkout = requests.get("https://www.flipkart.com/checkout", proxies=proxies)
Rotation par requête pour le monitoring de prix à grande échelle
Pour surveiller les prix sur des centaines de produits sans déclencher de rate limits, utilisez la rotation automatique (sans flag session) :
# Node.js — rotation automatique d'IP par requête
const axios = require('axios');
const HttpsProxyAgent = require('https-proxy-agent');
const agent = new HttpsProxyAgent('http://user-country-IN:PASSWORD@gate.proxyhat.com:8080');
async function scrapeFlipkart(urls) {
for (const url of urls) {
// Chaque requête obtient une nouvelle IP résidentielle IN
const res = await axios.get(url, {
httpsAgent: agent,
proxy: false,
timeout: 30000
});
console.log(`Scraped: ${url} — Length: ${res.data.length}`);
await new Promise(r => setTimeout(r, 2000)); // Rate limiting prudent
}
}
scrapeFlipkart([
'https://www.flipkart.com/mobiles/pr?sid=tyy,4io',
'https://www.flipkart.com/computers/pr?sid=6bo,b5t',
]);
Pour plus de détails sur les emplacements disponibles, consultez notre page de localisations proxy.
Points clés à retenir
- Les IPs indiennes sont obligatoires — Flipkart, Amazon India, MakeMyTrip et d'autres servent des contenus radicalement différents (ou bloquent) les IPs non-indiennes.
- Les proxies résidentiels sont préférables aux datacenter — Les plateformes indiennes détectent et bloquent les IPs datacenter. Les IPs résidentielles (Jio, Airtel, BSNL) passent inaperçues.
- Le ciblage ville est essentiel — Les prix, stocks et disponibilités varient entre Mumbai, Delhi, Bangalore et Chennai. Utilisez le flag
city-dans votre identifiant ProxyHat. - Capturez le vrai prix de checkout — Le prix catalogue ne suffit pas. Les cashbacks UPI, frais COD et options EMI changent le prix effectif.
- Normalisez Unicode en NFC — Les contenus en Hindi, Tamil et Bengali nécessitent une normalisation Unicode pour éviter les doublons dans vos données.
- Scrapez uniquement les données publiques commerciales — Les prix, stocks et listings anonymisés sont généralement sûrs. Les données personnelles identifiables sont couvertes par le DPDP Act 2023.
- Respectez robots.txt — C'est votre première ligne de défense légale en cas de litige.
Prêt à collecter des données fiables sur le marché indien ? Découvrez les plans ProxyHat et commencez avec des proxies résidentiels indiens dès aujourd'hui. Pour des cas d'usage avancés de scraping web, consultez notre guide de scraping.






