Ürün yöneticileri ve pazar araştırma ekipleri olarak müşteri sesini anlamak en kritik yetkinliğinizdir. Ama binlerce yorumu manuel okuyarak bir örüntü yakalamak imkânsızdır. Ürün yorumları kazıma ve duygu analizi, bu veriyi ölçeklenebilir hâle getirir: hangi özellikler kullanıcıyı kızdırıyor, hangi rakip zayıf noktası fırsat yaratıyor, lansman sonrası sentiment hangi yönde hareket ediyor—hepsini veriyle cevaplayabilirsiniz.
Bu rehberde, hangi platformlardan hangi veriyi çıkarabileceğinizi, proxy seçiminin neden kritik olduğunu, veri boru hattınızı nasıl kuracağınızı ve hukuki sınırları nasıl çizeceğinizi adım adım ele alıyoruz.
Neden Ürün Yorumları Kazımalıyız?
Rakip analizi, lansman öncesi pazar doğrulama ve lansman sonrası izleme—bu üç senaryonun da ortak noktası yapılandırılmamış metin verisidir. Yıldız puanları tek başına yetmez; yorum metnindeki duygu, tema ve öfke seviyesi asıl karar verici veridir.
Manuel analizle 500 yorumu okumak ~20 saat sürer. Otomatik kazıma + LLM tabanlı duygu analizi ile aynı işi 2 saatte, 50.000 yorum üzerinde yapabilirsiniz. ROI farkı net.
Hedef Platformlar ve Erişilebilir Veriler
Her platform farklı veri noktaları sunar ve farklı koruma mekanizmalarına sahiptir. İşte ana kaynaklar ve her birinden elde edebileceğiniz veriler:
Amazon Yorumları
- Yıldız puanı (1–5), yorum başlığı, yorum metni
- Doğrulanmış satın alma bayrağı — sahte yorum filtreleme için kritik
- Yorum tarihi ve faydalı oy sayısı
- Yorumcu profili: genellikle anonimleştirilmiş, bazen reviewer rank ve yorum sayısı
Amazon en sıkı bot korumasına sahip platformlardan biridir. Amazon yorum kazıma işlemi için residential proxy neredeyse zorunludur; datacenter IP'ler genellikle ilk istekte bloklanır.
Trustpilot
- Yıldız puanı, yorum metni, yorum tarihi
- Şirket yanıtı (response) — müşteri hizmetleri kalitesi göstergesi
- Reviewer display name (anonimleştirilmiş)
Trustpilot'un bot koruması Amazon kadar agresif değildir; datacenter proxy ile büyük ölçüde erişilebilir.
Google Yorumları (Google Maps / Google Play)
- Yıldız puanı, yorum metni, tarih
- Reviewer adı ve profil fotoğrafı — PII olarak ele alınmalı
- Lokasyon bilgisi (Google Maps)
- Cevap sayısı ve işletme yanıtları
Google, residential proxy gerektirir; özellikle yoğun kazıma senaryolarında IP rotasyonu kritiktir.
G2 ve Capterra (B2B SaaS)
- Yıldız puanı, artı/eksi yorumlar (pros/cons)
- Kullanıcı rolü ve şirket büyüklüğü segmenti
- Özellik seviyesi değerlendirme (ease-of-use, support vb.)
B2B ürün yöneticileri için altın madenidir. Rakip zayıf noktalarını "cons" alanından çıkarabilirsiniz. Datacenter proxy genellikle yeterlidir.
App Store ve Google Play
- Yıldız puanı, yorum metni, uygulama sürümü
- Cihaz ve OS bilgisi
- Developer yanıtı
Mobil ürün ekipleri için sürüm bazlı sentiment takibi kritik: 3.2 güncellemesi sonrası yorumlar ne yönde değişti?
Proxy Seçimi: Hangi Platform İçin Hangi Proxy?
Proxy seçimi, kazıma başarınızı belirleyen en önemli altyapı kararlarından biridir. Yanlış proxy tipi, %90+ bloklanma oranı anlamına gelir.
| Platform | Residential Proxy | Datacenter Proxy | Mobile Proxy | Önerilen Rotasyon |
|---|---|---|---|---|
| Amazon | Gerekli | Yetersiz | İsteğe bağlı | Per-request |
| Google Yorumları | Gerekli | Riskli | İsteğe bağlı | Per-request |
| Trustpilot | İsteğe bağlı | Yeterli | Gerekmez | Sticky session |
| G2 / Capterra | İsteğe bağlı | Yeterli | Gerekmez | Sticky session |
| App Store | Önerilir | Riskli | İsteğe bağlı | Per-request |
| Google Play | Önerilir | Riskli | İsteğe bağlı | Per-request |
Kural: Bot koruması agresif olan platformlar (Amazon, Google) için residential proxy zorunludur. Trustpilot ve G2 gibi daha açık platformlarda datacenter proxy maliyet avantajı sağlar.
Duygu analizi proxy'leri seçerken göz önünde bulundurmanız gereken üç metrik: başarı oranı (hedef %95+), latency (real-time analiz gerektirmiyorsa ikincil) ve coğrafi hedefleme (Amazon .com vs .de vs .co.uk).
ProxyHat ile Örnek Konfigürasyon
Amazon ABD yorumlarını kazımak için residential proxy, Trustpilot için datacenter proxy kullanmak istiyorsunuz:
# Amazon ABD - Residential proxy (per-request rotation)
http://user-country-US:password@gate.proxyhat.com:8080
# Trustpilot - Datacenter proxy (sticky session)
http://user-session-sticky01:password@gate.proxyhat.com:8080
# Amazon Almanya - Residential proxy, Berlin IP
http://user-country-DE-city-berlin:password@gate.proxyhat.com:8080
Python ile temel bir istek örneği:
import requests
proxies = {
"http": "http://user-country-US:password@gate.proxyhat.com:8080",
"https": "http://user-country-US:password@gate.proxyhat.com:8080",
}
response = requests.get(
"https://www.amazon.com/product/B0EXAMPLE/reviews",
proxies=proxies,
headers={"User-Agent": "Mozilla/5.0 ..."},
timeout=15
)
Proxy seçimi ve rotasyon stratejisi hakkında daha fazla detay için proxy rotasyon stratejileri rehberimizi inceleyin.
Veri Boru Hattı Tasarımı
Kazıma sadece ilk adımdır. Yorumları anlamlı duygu verisine dönüştürmek için yapılandırılmış bir boru hattı (pipeline) gerekir.
1. Kazıma ve Ham Veri Toplama
Her platformdan gelen veriyi normalize edin. Ortak şema:
source: amazon, trustpilot, g2, google_play, app_storeproduct_id: platformdaki ürün tanımlayıcıreview_id: benzersiz yorum ID'si (dedup için)rating: 1–5 arası yıldıztext: yorum metni (orijinal dil)date: yorum tarihi (ISO 8601)verified_purchase: boolean (mümkünse)helpful_votes: integer
2. Deduplikasyon
Aynı yorum birden fazla platformda veya farklı kazıma çalışmasında görünebilir. review_id + source kombinasyonunu birincil anahtar olarak kullanın. Hash-based dedup ile %5–15 oranında tekrar eden veriyi filtreleyebilirsiniz.
3. Dil Tespiti ve Çeviri
Küresel ürünler için yorumlar 20+ dilde gelebilir. fasttext veya langdetect ile dili tespit edin, ardından LLM tabanlı çeviri (veya Google Translate API) ile İngilizce'ye çevirin. Duygu analizi modelleri İngilizce'de en yüksek doğruluğa sahiptir.
Küresel sentiment analizi için dil tespiti ve çeviri, doğruluk kaybını %8–12 azaltır. Ham çok dilli duygu analizi yapmaktansa, çeviri + İngilizce duygu analizi yapmak genellikle daha doğru sonuçlar verir.
4. LLM Tabanlı Duygu ve Tema Çıkarımı
Geleneksel VADER veya TextBlob yaklaşımları yıldız puanı ile yetinir. LLM tabanlı analiz ile şunları çıkarabilirsiniz:
- Duygu skoru: -1.0 (çok negatif) ile +1.0 (çok pozitif) arası sürekli değer
- Tema etiketleri: "kargo gecikmesi", "müşteri hizmetleri", "kullanıcı arayüzü", "fiyat-performans" gibi kategoriler
- Duygu yoğunluğu: "kızgın" vs "hayal kırıklığı" vs "memnun" gibi alt duygu sınıfları
- Özellik-sentiment eşleştirmesi: Hangi özellik hangi duygu ile ilişkili
Prompt tasarımı kritik: her yorum için yapılandırılmış JSON çıktısı isteyin. Örnek prompt şablonu:
Bu ürün yorumunu analiz et ve JSON formatında döndür:
{
"sentiment_score": -1 ile 1 arası,
"emotions": ["kızgın", "hayal kırıklığı", ...],
"themes": ["kargo", "kalite", ...],
"feature_sentiment": {"özellik": "duygu"},
"summary": "1 cümlelik özet"
}
5. Depolama ve Görselleştirme
Analiz sonucunu bir veri ambarında (BigQuery, Snowflake) saklayın ve Looker / Metabase ile dashboard oluşturun. Haftalık sentiment trendi, tema dağılımı ve rakip karşılaştırması için otomatik raporlar ayarlayın.
Kullanım Senaryoları ve ROI Hesaplama
Senaryo 1: Lansman Öncesi Pazar Araştırması
Yeni bir proje yönetim aracı geliştiren bir SaaS ekibi, mevcut rakiplerin (Asana, Monday, ClickUp) G2 yorumlarını kazır ve duygu analizi yapar.
Sonuç: Rakiplerin "müşteri desteği" temasında sentiment skoru ortalama -0.35 (negatif). Ekip, lansman mesajlaşmasında "7/24 canlı destek" vurgusu yapar. İlk 6 ayda %22 daha yüksek deneme oranına ulaşır.
Senaryo 2: Lansman Sonrası Sentiment Takibi
E-ticaret şirketi yeni ürün lansmanı sonrası Amazon yorumlarını haftalık kazır. 3. haftada "kargo hasarı" temasında sentiment -0.62'ye düşer. Ekip kargo sağlayıcısını değiştirir; 2 hafta sonra sentiment -0.15'e yükselir.
Senaryo 3: Rakip Zayıf Nokta Tespiti
B2B SaaS şirketi, rakibin Trustpilot ve G2 yorumlarını analiz eder. "Entegrasyon zorluğu" teması %38 oranında negatif. Pazarlama ve ürün ekibi, entegrasyon kolaylığını vurgulayan bir kampanya başlatır.
ROI Hesaplama Örneği
Somut bir hesaplama yapalım:
- Elde manuel analiz maliyeti: 500 yorum × 3 dakika = 25 saat × 50€/saat = 1.250€
- Otomatik kazıma + analiz maliyeti: Proxy (aylık ~200€) + LLM API (~50€/ay) + geliştirme (tek seferlik ~2.000€, amortisman 6 ay = 333€/ay) = ~583€/ay
- Veri hacmi artışı: 500 yorumdan 50.000 yorumaya scale
- Net ROI: İlk ayda 2x, 6. ayda 10x+ verimlilik
Daha fazla scraping kullanım senaryosu için web scraping kullanım alanları sayfamızı inceleyin.
Yap- mı Al- mı? Altyapı Kararı
Bu noktada ürün yöneticisi olarak kritik bir karar vermeniz gerekir: kazıma altyapısını kendiniz mi kuracaksınız, yoksa hazır bir proxy servisi + in-house parser mı kullanacaksınız?
| Kriter | Kendin Yap (DIY) | Proxy Servisi + In-house Parser | Tamamen Outsourced API |
|---|---|---|---|
| Kontrol | Tam | Yüksek | Düşük |
| Başlangıç maliyeti | Yüksek (6–12 hafta geliştirme) | Orta (1–2 hafta) | Düşük |
| İşletme maliyeti | Düşük (sunucu + bakım) | Orta (proxy ücreti) | Yüksek (API çağrı başına) |
| Özelleştirme | Tam | Yüksek | Sınırlı |
| Bakım yükü | Yüksek (site değişiklikleri) | Orta | Düşük |
Öneri: Proxy servisi + in-house parser yaklaşımı, kontrol ve maliyet dengesini en iyi sunar. ProxyHat gibi bir residential/datacenter proxy sağlayıcısı ile IP rotasyonunu çözer, parser tarafında tam özelleştirme elde edersiniz.
Hukuki ve Etik Çerçeve
Yorum kazıma, teknik olarak mümkün olsa da hukuki sınırları aşmamak zorundasınız. İşte temel ilkeler:
1. Platform Hizmet Şartları (ToS)
Birçok platform ToS'ında kazımayı yasaklar. ToS ihlali, hesap yasaklanmasına neden olabilir. Ancak ABD'de hiQ Labs v. LinkedIn kararı, kamuya açık verinin kazınmasının CFAA kapsamında suç olmadığını belirtir—ancak bu her yargı alanında geçerli değildir.
2. Kişisel Veri (PII) Koruması
Yorumcu adı, profil fotoğrafı ve e-posta gibi veriler GDPR ve CCPA kapsamında kişisel veridir. Bu verileri saklamayın veya anonimleştirin. Duygu analizi için sadece yorum metni ve yıldız puanı yeterlidir.
3. robots.txt Saygısı
Her platformun robots.txt dosyasını kontrol edin. Kazımayı açıkça yasaklayan path'lerden kaçının.
4. Oran Sınırlama
Agresif kazıma, platform altyapısına zarar verebilir ve hukuki risk oluşturabilir. Saniyede 1–2 istek oranını aşmayın; residential proxy ile bu doğal olarak sağlanır.
5. Veri Kullanım Amacı
Kazınan veriyi yalnızca iç pazar araştırması için kullanın. Yorumları yeniden yayınlayarak rakip platform oluşturmak, telif ve haksız rekabet riski taşır.
Etik ilke: Kamuya açık yorumları analiz edebilirsiniz, ancak yorumcuların kimliğini ifşa etmeden ve platformun teknik altyapısını zorlamadan.
En İyi Uygulamalar
- Küçük başlayın: Önce bir platform, bir ürün kategorisi ile test edin. Boru hattınızı doğrulayın, sonra scale edin.
- Verified purchase filtresi: Amazon yorumlarında doğrulanmış satın alma bayrağı olmayan yorumları filtreleyin; sahte yorum oranı %30–40 daha yüksek.
- Zaman serisi analizi: Sentiment trendini günlük veya haftalık izleyin. Tek nokta analizi yanıltıcıdır.
- Rakip karşılaştırması: Aynı tema etiketlerini birden fazla rakip için çıkarın ve yan yana kıyaslayın.
- Proxy maliyet optimizasyonu: Amazon ve Google için residential, Trustpilot ve G2 için datacenter proxy kullanarak maliyeti %40–60 düşürebilirsiniz.
- Veri kalitesi kontrolü: Her kazıma çalışmasında örneklem kontrolü yapın; eksik veya bozuk veri oranını %2'nin altında tutun.
Temel Çıkarımlar
- Ürün yorumları kazıma, duygu analizi ile birleştiğinde pazar araştırmasının en güçlü veri kaynağıdır.
- Amazon ve Google için residential proxy zorunlu; Trustpilot ve G2 için datacenter proxy yeterlidir.
- Kazıma sadece ilk adımdır: dedup, dil tespiti, çeviri ve LLM tabanlı duygu analizi ile veriyi eyleme dönüştürülebilir içgörüye çevirin.
- PII koruması ve platform ToS'una saygı, hukuki riski minimize eder.
- Proxy + in-house parser yaklaşımı, kontrol ve maliyet dengesini en iyi sunar.
- Somut ROI: manuel analize kıyasla 10x+ verimlilik, 50x+ veri hacmi.
Başlamaya hazır mısınız? ProxyHat proxy planları ile residential ve datacenter proxy'lerinizi hemen yapılandırın, 200+ lokasyon ile küresel yorum kazımaya başlayın.






