Ürün Yorumları Kazıma ve Duygu Analizi: Ürün Yöneticileri İçin Stratejik Rehber

Amazon, Trustpilot, G2 ve uygulama mağazalarından ürün yorumları kazıyarak duygu analizi yapmak için proxy stratejileri, veri boru hattı tasarımı ve hukuki çerçeve rehberi.

Ürün Yorumları Kazıma ve Duygu Analizi: Ürün Yöneticileri İçin Stratejik Rehber

Ürün yöneticileri ve pazar araştırma ekipleri olarak müşteri sesini anlamak en kritik yetkinliğinizdir. Ama binlerce yorumu manuel okuyarak bir örüntü yakalamak imkânsızdır. Ürün yorumları kazıma ve duygu analizi, bu veriyi ölçeklenebilir hâle getirir: hangi özellikler kullanıcıyı kızdırıyor, hangi rakip zayıf noktası fırsat yaratıyor, lansman sonrası sentiment hangi yönde hareket ediyor—hepsini veriyle cevaplayabilirsiniz.

Bu rehberde, hangi platformlardan hangi veriyi çıkarabileceğinizi, proxy seçiminin neden kritik olduğunu, veri boru hattınızı nasıl kuracağınızı ve hukuki sınırları nasıl çizeceğinizi adım adım ele alıyoruz.

Neden Ürün Yorumları Kazımalıyız?

Rakip analizi, lansman öncesi pazar doğrulama ve lansman sonrası izleme—bu üç senaryonun da ortak noktası yapılandırılmamış metin verisidir. Yıldız puanları tek başına yetmez; yorum metnindeki duygu, tema ve öfke seviyesi asıl karar verici veridir.

Manuel analizle 500 yorumu okumak ~20 saat sürer. Otomatik kazıma + LLM tabanlı duygu analizi ile aynı işi 2 saatte, 50.000 yorum üzerinde yapabilirsiniz. ROI farkı net.

Hedef Platformlar ve Erişilebilir Veriler

Her platform farklı veri noktaları sunar ve farklı koruma mekanizmalarına sahiptir. İşte ana kaynaklar ve her birinden elde edebileceğiniz veriler:

Amazon Yorumları

  • Yıldız puanı (1–5), yorum başlığı, yorum metni
  • Doğrulanmış satın alma bayrağı — sahte yorum filtreleme için kritik
  • Yorum tarihi ve faydalı oy sayısı
  • Yorumcu profili: genellikle anonimleştirilmiş, bazen reviewer rank ve yorum sayısı

Amazon en sıkı bot korumasına sahip platformlardan biridir. Amazon yorum kazıma işlemi için residential proxy neredeyse zorunludur; datacenter IP'ler genellikle ilk istekte bloklanır.

Trustpilot

  • Yıldız puanı, yorum metni, yorum tarihi
  • Şirket yanıtı (response) — müşteri hizmetleri kalitesi göstergesi
  • Reviewer display name (anonimleştirilmiş)

Trustpilot'un bot koruması Amazon kadar agresif değildir; datacenter proxy ile büyük ölçüde erişilebilir.

Google Yorumları (Google Maps / Google Play)

  • Yıldız puanı, yorum metni, tarih
  • Reviewer adı ve profil fotoğrafı — PII olarak ele alınmalı
  • Lokasyon bilgisi (Google Maps)
  • Cevap sayısı ve işletme yanıtları

Google, residential proxy gerektirir; özellikle yoğun kazıma senaryolarında IP rotasyonu kritiktir.

G2 ve Capterra (B2B SaaS)

  • Yıldız puanı, artı/eksi yorumlar (pros/cons)
  • Kullanıcı rolü ve şirket büyüklüğü segmenti
  • Özellik seviyesi değerlendirme (ease-of-use, support vb.)

B2B ürün yöneticileri için altın madenidir. Rakip zayıf noktalarını "cons" alanından çıkarabilirsiniz. Datacenter proxy genellikle yeterlidir.

App Store ve Google Play

  • Yıldız puanı, yorum metni, uygulama sürümü
  • Cihaz ve OS bilgisi
  • Developer yanıtı

Mobil ürün ekipleri için sürüm bazlı sentiment takibi kritik: 3.2 güncellemesi sonrası yorumlar ne yönde değişti?

Proxy Seçimi: Hangi Platform İçin Hangi Proxy?

Proxy seçimi, kazıma başarınızı belirleyen en önemli altyapı kararlarından biridir. Yanlış proxy tipi, %90+ bloklanma oranı anlamına gelir.

Platform Residential Proxy Datacenter Proxy Mobile Proxy Önerilen Rotasyon
Amazon Gerekli Yetersiz İsteğe bağlı Per-request
Google Yorumları Gerekli Riskli İsteğe bağlı Per-request
Trustpilot İsteğe bağlı Yeterli Gerekmez Sticky session
G2 / Capterra İsteğe bağlı Yeterli Gerekmez Sticky session
App Store Önerilir Riskli İsteğe bağlı Per-request
Google Play Önerilir Riskli İsteğe bağlı Per-request

Kural: Bot koruması agresif olan platformlar (Amazon, Google) için residential proxy zorunludur. Trustpilot ve G2 gibi daha açık platformlarda datacenter proxy maliyet avantajı sağlar.

Duygu analizi proxy'leri seçerken göz önünde bulundurmanız gereken üç metrik: başarı oranı (hedef %95+), latency (real-time analiz gerektirmiyorsa ikincil) ve coğrafi hedefleme (Amazon .com vs .de vs .co.uk).

ProxyHat ile Örnek Konfigürasyon

Amazon ABD yorumlarını kazımak için residential proxy, Trustpilot için datacenter proxy kullanmak istiyorsunuz:

# Amazon ABD - Residential proxy (per-request rotation)
http://user-country-US:password@gate.proxyhat.com:8080

# Trustpilot - Datacenter proxy (sticky session)
http://user-session-sticky01:password@gate.proxyhat.com:8080

# Amazon Almanya - Residential proxy, Berlin IP
http://user-country-DE-city-berlin:password@gate.proxyhat.com:8080

Python ile temel bir istek örneği:

import requests

proxies = {
    "http": "http://user-country-US:password@gate.proxyhat.com:8080",
    "https": "http://user-country-US:password@gate.proxyhat.com:8080",
}

response = requests.get(
    "https://www.amazon.com/product/B0EXAMPLE/reviews",
    proxies=proxies,
    headers={"User-Agent": "Mozilla/5.0 ..."},
    timeout=15
)

Proxy seçimi ve rotasyon stratejisi hakkında daha fazla detay için proxy rotasyon stratejileri rehberimizi inceleyin.

Veri Boru Hattı Tasarımı

Kazıma sadece ilk adımdır. Yorumları anlamlı duygu verisine dönüştürmek için yapılandırılmış bir boru hattı (pipeline) gerekir.

1. Kazıma ve Ham Veri Toplama

Her platformdan gelen veriyi normalize edin. Ortak şema:

  • source: amazon, trustpilot, g2, google_play, app_store
  • product_id: platformdaki ürün tanımlayıcı
  • review_id: benzersiz yorum ID'si (dedup için)
  • rating: 1–5 arası yıldız
  • text: yorum metni (orijinal dil)
  • date: yorum tarihi (ISO 8601)
  • verified_purchase: boolean (mümkünse)
  • helpful_votes: integer

2. Deduplikasyon

Aynı yorum birden fazla platformda veya farklı kazıma çalışmasında görünebilir. review_id + source kombinasyonunu birincil anahtar olarak kullanın. Hash-based dedup ile %5–15 oranında tekrar eden veriyi filtreleyebilirsiniz.

3. Dil Tespiti ve Çeviri

Küresel ürünler için yorumlar 20+ dilde gelebilir. fasttext veya langdetect ile dili tespit edin, ardından LLM tabanlı çeviri (veya Google Translate API) ile İngilizce'ye çevirin. Duygu analizi modelleri İngilizce'de en yüksek doğruluğa sahiptir.

Küresel sentiment analizi için dil tespiti ve çeviri, doğruluk kaybını %8–12 azaltır. Ham çok dilli duygu analizi yapmaktansa, çeviri + İngilizce duygu analizi yapmak genellikle daha doğru sonuçlar verir.

4. LLM Tabanlı Duygu ve Tema Çıkarımı

Geleneksel VADER veya TextBlob yaklaşımları yıldız puanı ile yetinir. LLM tabanlı analiz ile şunları çıkarabilirsiniz:

  • Duygu skoru: -1.0 (çok negatif) ile +1.0 (çok pozitif) arası sürekli değer
  • Tema etiketleri: "kargo gecikmesi", "müşteri hizmetleri", "kullanıcı arayüzü", "fiyat-performans" gibi kategoriler
  • Duygu yoğunluğu: "kızgın" vs "hayal kırıklığı" vs "memnun" gibi alt duygu sınıfları
  • Özellik-sentiment eşleştirmesi: Hangi özellik hangi duygu ile ilişkili

Prompt tasarımı kritik: her yorum için yapılandırılmış JSON çıktısı isteyin. Örnek prompt şablonu:

Bu ürün yorumunu analiz et ve JSON formatında döndür:
{
  "sentiment_score": -1 ile 1 arası,
  "emotions": ["kızgın", "hayal kırıklığı", ...],
  "themes": ["kargo", "kalite", ...],
  "feature_sentiment": {"özellik": "duygu"},
  "summary": "1 cümlelik özet"
}

5. Depolama ve Görselleştirme

Analiz sonucunu bir veri ambarında (BigQuery, Snowflake) saklayın ve Looker / Metabase ile dashboard oluşturun. Haftalık sentiment trendi, tema dağılımı ve rakip karşılaştırması için otomatik raporlar ayarlayın.

Kullanım Senaryoları ve ROI Hesaplama

Senaryo 1: Lansman Öncesi Pazar Araştırması

Yeni bir proje yönetim aracı geliştiren bir SaaS ekibi, mevcut rakiplerin (Asana, Monday, ClickUp) G2 yorumlarını kazır ve duygu analizi yapar.

Sonuç: Rakiplerin "müşteri desteği" temasında sentiment skoru ortalama -0.35 (negatif). Ekip, lansman mesajlaşmasında "7/24 canlı destek" vurgusu yapar. İlk 6 ayda %22 daha yüksek deneme oranına ulaşır.

Senaryo 2: Lansman Sonrası Sentiment Takibi

E-ticaret şirketi yeni ürün lansmanı sonrası Amazon yorumlarını haftalık kazır. 3. haftada "kargo hasarı" temasında sentiment -0.62'ye düşer. Ekip kargo sağlayıcısını değiştirir; 2 hafta sonra sentiment -0.15'e yükselir.

Senaryo 3: Rakip Zayıf Nokta Tespiti

B2B SaaS şirketi, rakibin Trustpilot ve G2 yorumlarını analiz eder. "Entegrasyon zorluğu" teması %38 oranında negatif. Pazarlama ve ürün ekibi, entegrasyon kolaylığını vurgulayan bir kampanya başlatır.

ROI Hesaplama Örneği

Somut bir hesaplama yapalım:

  • Elde manuel analiz maliyeti: 500 yorum × 3 dakika = 25 saat × 50€/saat = 1.250€
  • Otomatik kazıma + analiz maliyeti: Proxy (aylık ~200€) + LLM API (~50€/ay) + geliştirme (tek seferlik ~2.000€, amortisman 6 ay = 333€/ay) = ~583€/ay
  • Veri hacmi artışı: 500 yorumdan 50.000 yorumaya scale
  • Net ROI: İlk ayda 2x, 6. ayda 10x+ verimlilik

Daha fazla scraping kullanım senaryosu için web scraping kullanım alanları sayfamızı inceleyin.

Yap- mı Al- mı? Altyapı Kararı

Bu noktada ürün yöneticisi olarak kritik bir karar vermeniz gerekir: kazıma altyapısını kendiniz mi kuracaksınız, yoksa hazır bir proxy servisi + in-house parser mı kullanacaksınız?

Kriter Kendin Yap (DIY) Proxy Servisi + In-house Parser Tamamen Outsourced API
Kontrol Tam Yüksek Düşük
Başlangıç maliyeti Yüksek (6–12 hafta geliştirme) Orta (1–2 hafta) Düşük
İşletme maliyeti Düşük (sunucu + bakım) Orta (proxy ücreti) Yüksek (API çağrı başına)
Özelleştirme Tam Yüksek Sınırlı
Bakım yükü Yüksek (site değişiklikleri) Orta Düşük

Öneri: Proxy servisi + in-house parser yaklaşımı, kontrol ve maliyet dengesini en iyi sunar. ProxyHat gibi bir residential/datacenter proxy sağlayıcısı ile IP rotasyonunu çözer, parser tarafında tam özelleştirme elde edersiniz.

Hukuki ve Etik Çerçeve

Yorum kazıma, teknik olarak mümkün olsa da hukuki sınırları aşmamak zorundasınız. İşte temel ilkeler:

1. Platform Hizmet Şartları (ToS)

Birçok platform ToS'ında kazımayı yasaklar. ToS ihlali, hesap yasaklanmasına neden olabilir. Ancak ABD'de hiQ Labs v. LinkedIn kararı, kamuya açık verinin kazınmasının CFAA kapsamında suç olmadığını belirtir—ancak bu her yargı alanında geçerli değildir.

2. Kişisel Veri (PII) Koruması

Yorumcu adı, profil fotoğrafı ve e-posta gibi veriler GDPR ve CCPA kapsamında kişisel veridir. Bu verileri saklamayın veya anonimleştirin. Duygu analizi için sadece yorum metni ve yıldız puanı yeterlidir.

3. robots.txt Saygısı

Her platformun robots.txt dosyasını kontrol edin. Kazımayı açıkça yasaklayan path'lerden kaçının.

4. Oran Sınırlama

Agresif kazıma, platform altyapısına zarar verebilir ve hukuki risk oluşturabilir. Saniyede 1–2 istek oranını aşmayın; residential proxy ile bu doğal olarak sağlanır.

5. Veri Kullanım Amacı

Kazınan veriyi yalnızca iç pazar araştırması için kullanın. Yorumları yeniden yayınlayarak rakip platform oluşturmak, telif ve haksız rekabet riski taşır.

Etik ilke: Kamuya açık yorumları analiz edebilirsiniz, ancak yorumcuların kimliğini ifşa etmeden ve platformun teknik altyapısını zorlamadan.

En İyi Uygulamalar

  • Küçük başlayın: Önce bir platform, bir ürün kategorisi ile test edin. Boru hattınızı doğrulayın, sonra scale edin.
  • Verified purchase filtresi: Amazon yorumlarında doğrulanmış satın alma bayrağı olmayan yorumları filtreleyin; sahte yorum oranı %30–40 daha yüksek.
  • Zaman serisi analizi: Sentiment trendini günlük veya haftalık izleyin. Tek nokta analizi yanıltıcıdır.
  • Rakip karşılaştırması: Aynı tema etiketlerini birden fazla rakip için çıkarın ve yan yana kıyaslayın.
  • Proxy maliyet optimizasyonu: Amazon ve Google için residential, Trustpilot ve G2 için datacenter proxy kullanarak maliyeti %40–60 düşürebilirsiniz.
  • Veri kalitesi kontrolü: Her kazıma çalışmasında örneklem kontrolü yapın; eksik veya bozuk veri oranını %2'nin altında tutun.

Temel Çıkarımlar

  • Ürün yorumları kazıma, duygu analizi ile birleştiğinde pazar araştırmasının en güçlü veri kaynağıdır.
  • Amazon ve Google için residential proxy zorunlu; Trustpilot ve G2 için datacenter proxy yeterlidir.
  • Kazıma sadece ilk adımdır: dedup, dil tespiti, çeviri ve LLM tabanlı duygu analizi ile veriyi eyleme dönüştürülebilir içgörüye çevirin.
  • PII koruması ve platform ToS'una saygı, hukuki riski minimize eder.
  • Proxy + in-house parser yaklaşımı, kontrol ve maliyet dengesini en iyi sunar.
  • Somut ROI: manuel analize kıyasla 10x+ verimlilik, 50x+ veri hacmi.

Başlamaya hazır mısınız? ProxyHat proxy planları ile residential ve datacenter proxy'lerinizi hemen yapılandırın, 200+ lokasyon ile küresel yorum kazımaya başlayın.

Başlamaya hazır mısınız?

148+ ülkede 50M+ konut IP'sine AI destekli filtreleme ile erişin.

Fiyatlandırmayı GörüntüleKonut Proxy'leri
← Bloga Dön