Haber Sitelerini Toplu Kazıma Neden Zor?
Medya izleme ve rekabet istihbaratı ekipleri her gün binlerce haber sitesini, trade press yayınını ve düzenleyici duyuruyu takip etmek zorundadır. Ancak haber sitelerini toplu kazıma, sıradan bir web scraping işleminden çok farklıdır. Paywall'lar, Cloudflare koruması, bölgesel içerik varyasyonları ve hızla değişen sayfa yapıları, veri toplama süreçlerinizi durdurabilir.
News scraping proxies kullanmadan 10.000+ kaynağı izlemeye çalışmak, engelleme oranlarının %60'ı aşması anlamına gelir. Bu rehberde, medya monitoring scraping altyapınızı nasıl kuracağınızı, hangi proxy türünü seçeceğinizi ve etik sınırları nasıl koruyacağınızı adım adım anlatıyoruz.
Hedef Kaynak Türleri ve Stratejileri
Her haber kaynağı farklı teknik zorluklar taşır. Kaynak türüne göre yaklaşımınızı değiştirmek, hem maliyeti hem de başarı oranını doğrudan etkiler.
Ana Akım Haber Siteleri
WSJ, Bloomberg, Reuters, Financial Times gibi büyük yayıncılar, en değerli ama en zor erişilen kaynaklardır. Çoğu hard paywall (tam içerik kilidi) veya metered paywall (aylık ücretsiz makale sınırı) uygular. İçeriğin tamamını kazımak yerine, başlıklar, meta açıklamalar ve özetler genellikle ücretsiz erişilebilir durumdadır — bunlar bile medya izleme için değerlidir.
- Bloomberg & Reuters: API erişimi sunar ancak fiyatlandırma kurumsal düzeydedir. Scraping için residential proxy gereklidir.
- WSJ & FT: Metered paywall uygular. Aynı IP'den 5+ makale okunduğunda içerik kilitlenir.
- Regional liderler (Die Welt, Le Monde, El País, Nikkei): Bölgesel Cloudflare kuralları ve dil-specific korumalar içerir.
Trade Press ve Sektörel Yayıncılar
Healthcare, fintech, enerji, lojistik gibi dikey sektörlerde uzman yayıncılar, rekabet istihbaratı için altın değerindedir. Bu siteler genellikle daha az koruma uygular ancak daha az RSS desteği sunar. Teknik yapıları standart olmayabilir; her yayıncı için ayrı parser geliştirmeniz gerekir.
Bloglar ve Bağımsız Yayıncılar
Substack, Medium, WordPress tabanlı bloglar düşük korumalıdır. Ancak hacimli olabilir — 10.000 kaynağın %40'ı bu kategoridedir. RSS-first yaklaşım burada en verimli stratejidir.
Düzenleyici Duyurular ve Resmi Gazeteler
SEC EDGAR, EU Official Journal, BDDK duyuruları, RG (Resmi Gazete) gibi kaynaklar, press release monitoring için kritiktir. Bu kaynaklar genellikle scraping dostudur ancak yapıları zaman zaman değişir ve kesintisiz izleme gerektirir.
Neden Residential Proxy Gerekli?
Haber siteleri, datacenter IP'leri hızla tanır ve engeller. Bu, medya izleme scraping operasyonlarında residential proxy kullanımını zorunlu kılar.
Paywall'lar DC IP'leri Engeller
Metered paywall sistemleri, datacenter IP'lerden gelen trafiği otomatik olarak işaretler. Bir AWS veya GCP IP bloğundan gelen istekler, normal kullanıcı trafiğinden çok farklı bir behavioral pattern gösterir. Sonuç: içerik erişimi sıfır.
Cloudflare ve Anti-Bot Koruması
Bloomberg, Reuters ve yüzlerce küçük haber sitesi Cloudflare Enterprise koruması kullanır. Bu koruma, browser fingerprinting, TLS parmak izi ve IP itibar skorlaması yapar. Residential IP'ler bu kontrolleri doğal olarak geçer çünkü gerçek ISP'lerden gelir.
Bölgesel Paywall Varyasyonları
Aynı yayıncı, farklı ülkelerden erişimde farklı kurallar uygular. Örneğin, bazı siteler ABD'den erişimde 5 ücretsiz makale sunarken, AB'den erişimde GDPR duvarı gösterir. Geo-targeted residential proxy kullanarak her bölgenin gerçek görünümünü elde edebilirsiniz.
| Kriter | Residential Proxy | Datacenter Proxy | Mobile Proxy |
|---|---|---|---|
| Paywall geçişi | Yüksek başarı | Düşük (hemen engellenir) | En yüksek |
| Cloudflare bypass | İyi | Zayıf | Çok iyi |
| Hız (latency) | Orta (1-3 sn) | Hızlı (<0.5 sn) | Yavaş (2-5 sn) |
| Maliyet / GB | Orta | Düşük | Yüksek |
| En iyi kullanım | Genel haber kazıma | RSS ve açık API'ler | Mobil-specific siteler |
ProxyHat ile ülke bazlı residential proxy kullanmak için kullanıcı adınıza geo-targeting ekleyebilirsiniz:
# ABD'den erişim (WSJ metered paywall için)
curl -x http://user-country-US:pass@gate.proxyhat.com:8080 \
https://www.wsj.com/articles/example-article
# Almanya'dan erişim (Die Welt için)
curl -x http://user-country-DE:pass@gate.proxyhat.com:8080 \
https://www.welt.de/article12345
# Sticky session ile aynı IP'den 5 makale okuma
# (metered paywall'da session tutarlılığı için)
curl -x http://user-country-US-session-abc123:pass@gate.proxyhat.com:8080 \
https://www.wsj.com/articles/first-article
Veri Mimarisi: RSS-Öncelikli Yaklaşım
10.000+ kaynağı izlerken her siteyi her saat tam sayfa kazımak, maliyet ve hız açısından sürdürülebilir değildir. Akıllı bir veri mimarisi, kaynak türüne göre farklı stratejiler uygular.
Katman 1: RSS ve Açık API'ler (Öncelik)
Kaynakların yaklaşık %30-40'ı RSS feed sunar. Bu en ucuz ve en güvenilir katmandır. RSS feed'leri genellikle datacenter proxy ile bile erişilebilir çünkü koruma uygulanmaz. Her 15-30 dakikada bir poll yaparak yeni içerikleri tespit edebilirsiniz.
- Reuters, AP, AFP gibi ajanslar RSS sunar
- Çoğu blog ve WordPress sitesi /feed adresinden RSS sağlar
- Düzenleyici kurumlar genellikle RSS ve JSON API sunar
Katman 2: HTML Scraping (Fallback)
RSS olmayan veya RSS'te sadece özet gösteren kaynaklar için HTML scraping gerekir. Bu katmanda residential proxy zorunludur. Sadece yeni makale tespit edildiğinde veya RSS özeti yetersiz olduğunda tam sayfa çekilir.
Katman 3: Content-Hash Dedup
Aynı haber 15 farklı kaynakta ortaya çıkabilir. URL bazlı dedup yeterli değildir — aynı haberin farklı URL'lerle yayınlandığı durumlar yaygındır. Content-hash deduplication uygulayın:
- Başlık + yayın tarihi + kaynağın SHA-256 hash'ini hesaplayın
- Hash eşleşmesi olan makaleleri tek bir cluster olarak gruplayın
- Farklı kaynaklardaki aynı haberi tek bir olay olarak işleyin
Çok Dilli Normalizasyon
Global medya izlemede, aynı olayı 20 dilde takip edersiniz. Normalizasyon pipeline'ı şunları içermelidir:
- Dil tespiti: fastText veya langdetect ile otomatik sınıflandırma
- Varlık normalizasyonu: "Türkiye", "Turquie", "Türkei" → tek bir entity ID
- Zaman normalizasyonu: Farklı saat dilimlerindeki yayın tarihlerini UTC'ye çevirme
- Duyarlılık puanlama: Her dilde farklı kurallarla sentiment analizi
Kullanım Senaryoları
Marka Bahsedilme İzleme
Şirketinizin, ürünlerinizin veya yöneticilerinizin adı ne zaman geçiyor? 10.000+ kaynakta gerçek zamanlı arama, kriz anında ilk 15 dakikada müdahale şansı verir. Media monitoring scraping ile marka bahsedilmelerini dakikalar içinde tespit edebilirsiniz.
Kriz Tespiti ve Erken Uyarı
Negatif haber hacminde ani artış, potansiyel kriz sinyalidir. Anomali tespiti algoritması ile normalin 3 standart sapma üzerindeki bahsedilme artışlarını otomatik uyarıya çevirin. E-posta ve Slack entegrasyonu ile 7/24 izleme sağlayın.
Rekabet Hareketi Takibi
Rakiplerinizin ürün lansmanları, yönetim değişiklikleri, ortaklık duyuruları ve finansal sonuçları hakkında bilgi, stratejik kararlar için kritiktir. Trade press ve sektörel yayınlardaki rakip haberlerini otomatik sınıflandırın.
Düzenleyici Duyuru Beslemeleri
SEC dosyaları, AB düzenlemeleri, BDDK kararları ve sektör regülasyonları değişiklikleri, compliance ekipleri için acil bilgidir. Press release monitoring ile bu duyuruları yayımlandıkları ilk dakikada yakalayın.
Paywall Etikği: Ne Yasal, Ne Değil?
Bu konu, medya izleme ekiplerinin en sık sorduğu sorudur. Etik ve yasal çerçeveyi net anlamak önemlidir.
Ücretsiz Erişilebilir Meta Veriler
Çoğu haber sitesi, makale başlıklarını, meta açıklamalarını ve özetlerini arama motorları için ücretsiz erişime açar. Bu verileri toplamak, robots.txt'e uyduğunuz sürece genellikle yasal ve etiktir. Bu veriler, medya izleme için genellikle yeterlidir:
- Başlık ve alt başlık
- Yayın tarihi ve yazar
- Meta description (genellikle makalenin ilk 1-2 cümlesi)
- Og:image ve kategori etiketleri
Ücretli İçeriğin Tam Kazınması
Paywall arkasındaki tam makale içeriğini kazımak, yayıncının abonelik modelini doğrudan ihlal eder. Bu hem etik olarak sorunlu hem de çoğu yargı alanında hukuki risk taşır. Önerimiz: tam içerik kazıma yerine meta veri ve özet ile yetinin, veya yayıncı ile doğrudan lisans anlaşması yapın.
robots.txt ve ToS Uyumu
Her zaman hedef sitenin robots.txt dosyasını kontrol edin. Birçok yayıncı, belirli bot'ları açıkça engeller. Disallow kurallarına uymak, yalnızca etik değil aynı zamanda hukuki açıdan da koruma sağlar.
Önemli: Medya izleme amacıyla başlık ve meta veri toplamak çoğu durumda yasal ve etiktir. Ancak tam makale içeriğini paywall arkasından kazımak, yayıncı haklarını ihlal eder. Bu rehber, etik sınırlar içinde kalan meta veri odaklı izleme stratejisini savunur.
Ölçeklenebilir Mimari: 10.000 Kaynak, Küçük Ekip
Büyük medya izleme şirketleri 100+ kişilik ekiplerle çalışır. Ancak 3-5 kişilik bir ekip de doğru mimari ile 10.000+ kaynağı izleyebilir. İşte nasıl:
Adım 1: Kaynak Sınıflandırması
Tüm kaynakları öncelik ve erişim zorluğuna göre sınıflandırın:
- Tier 1 (Kritik): 200-500 ana kaynak — her 5 dakikada bir kontrol, residential proxy ile scraping
- Tier 2 (Önemli): 2.000-3.000 trade press ve blog — her 30 dakikada bir, RSS + fallback scraping
- Tier 3 (Arşiv): 7.000+ küçük kaynak — günlük kontrol, RSS-only mümkünse
Adım 2: Otomatik Keşif Pipeline'ı
Yeni kaynakları manuel eklemek sürdürülebilir değildir. Şu otomasyonları kurun:
- Google News RSS'lerinden anahtar kelime bazlı yeni kaynak keşfi
- Mevcut kaynakların link graph'ından yeni kaynak tespiti
- Sektör dizinleri ve medya veritabanlarından otomatik import
Adım 3: Proxy Yönetimi ve Rotasyon
Farklı kaynak tipleri için farklı proxy stratejileri kullanın:
- RSS feed'leri: Datacenter proxy (düşük maliyet, yüksek hız)
- Paywall'lı ana kaynaklar: Residential proxy with sticky sessions (aynı IP'den doğal davranış)
- Mobil-specific siteler: Mobile proxy (gerektiğinde)
Örnek ROI Hesaplaması
Diyelim ki 5 kişilik bir medya izleme ekibiniz var:
- Manuel izleme maliyeti: 5 kişi × $6.000/ay = $30.000/ay (10.000 kaynağın %15'ini ancak izleyebilir)
- Otomatik izleme maliyeti: 1 mühendis + ProxyHat ($2.000/ay proxy) + altyapı ($1.000) = ~$9.000/ay (10.000 kaynağın %95'ini izler)
- Net tasarruf: $21.000/ay + %80 daha fazla kaynak kapsama
- Yıllık ROI: 233%
Adım 4: Build vs. Buy Kararı
Kendiniz mi yapmalı, hazır bir platform mu kullanmalı? Karar kriterleri:
- Özelleştirme ihtiyacı yüksekse: Build — kendi scraping pipeline'ınızı kurun, ProxyHat ile proxy katmanını yönetin
- Hızlı başlangıç gerekiyorsa: Buy — Meltwater, Brandwatch gibi platformlar 1-2 haftada canlı olur
- Hibrit yaklaşım (önerilen): Kritik kaynaklar için custom scraper, diğerleri için platform + ProxyHat proxy altyapısı
ProxyHat ile Python tabanlı basit bir haber kazıma pipeline'ı örneği:
import requests
from bs4 import BeautifulSoup
import hashlib
PROXY = "http://user-country-US:pass@gate.proxyhat.com:8080"
proxies = {"http": PROXY, "https": PROXY}
def fetch_article(url):
resp = requests.get(url, proxies=proxies, timeout=15)
soup = BeautifulSoup(resp.text, "html.parser")
title = soup.find("meta", property="og:title")["content"]
desc = soup.find("meta", property="og:description")["content"]
content_hash = hashlib.sha256(
f"{title}{desc}".encode()
).hexdigest()
return {"title": title, "desc": desc, "hash": content_hash}
Temel Çıkarımlar
- RSS-öncelikli yaklaşım benimseyin: Kaynakların %30-40'ı RSS ile ücretsiz erişilebilir — scraping maliyetini düşürür.
- Residential proxy kullanın: Paywall'lı ve Cloudflare korumalı haber siteleri için datacenter IP'ler yetersizdir.
- Meta veri ile yetinin: Başlık, özet ve meta description, medya izleme için genellikle yeterlidir ve etik sınırlar içindedir.
- Content-hash dedup uygulayın: Aynı haberi 15 farklı kaynakta takip etmek yerine tek bir olay olarak gruplayın.
- Kaynakları tier'lara bölün: 10.000 kaynağa eşit frekansta erişmek maliyet israfıdır; kritik kaynaklara yüksek öncelik verin.
- Build-vs-buy kararını hibrit yapın: Kritik kaynaklar için özel scraper, diğerleri için platform + ProxyHat proxy altyapısı.
Medya izleme scraping altyapınızı kurmaya hazır mısınız? ProxyHat fiyatlandırma sayfasından residential proxy paketlerini inceleyin ve 195+ lokasyondaki proxy ağımızı test edin. Sorularınız için ekibimiz her zaman yardıma hazır.






