Haber sitelerini kazımak yasal mı?

Başlıklar, meta açıklamalar ve özet gibi herkese açık meta verileri toplamak, robots.txt kurallarına uyulduğu sürece genellikle yasal ve etiktir. Ancak paywall arkasındaki tam makale içeriğini kazımak, yayıncı haklarını ihlal edebilir. Her zaman hedef sitenin kullanım koşullarını kontrol edin ve mümkünse lisans anlaşması yapın.

Haber kazıma için residential proxy neden gerekli?

Haber siteleri datacenter IP'leri hızla tanır ve engeller. Cloudflare koruması, metered paywall sistemleri ve bölgesel içerik varyasyonları, gerçek ISP'lerden gelen residential IP'ler gerektirir. Residential proxy'ler, scraping isteklerini normal kullanıcı trafiğinden ayırt edilemez kılar.

10.000 haber kaynağını kaç kişiyle izleyebilirsiniz?

Doğru otomasyon mimarisi ile 3-5 kişilik bir ekip 10.000+ kaynağı izleyebilir. RSS-öncelikli yaklaşım, tier-based önceliklendirme ve ProxyHat gibi residential proxy altyapısı kullanarak, manuel izlemenin 5-10 katı kapsama elde edebilirsiniz. Yıllık ROI %200'ü aşabilir.

Sticky session nedir ve neden önemlidir?

Sticky session, aynı proxy IP'sini belirli bir süre boyunca tutmanızı sağlar. Metered paywall'lı sitelerde (5 ücretsiz makale gibi), aynı IP'den doğal bir kullanıcı gibi davranarak birden fazla makale okuyabilirsiniz. ProxyHat'ta kullanıcı adınıza session flag ekleyerek sticky session oluşturabilirsiniz.

Aynı haberi farklı kaynaklarda nasıl deduplikasyon yaparsınız?

URL bazlı dedup yeterli değildir çünkü aynı haber farklı URL'lerle yayınlanır. Bunun yerine başlık + yayın tarihi + kaynağın SHA-256 hash'ini hesaplayın. Hash eşleşmesi olan makaleleri tek bir olay cluster'ı olarak gruplayın. Bu yöntem, %90+ dedup doğruluğu sağlar.

Haber Kazıma Proxy Rehberi | ProxyHat

Haber Sitelerini Toplu Kazıma Neden Zor?

Medya izleme ve rekabet istihbaratı ekipleri her gün binlerce haber sitesini, trade press yayınını ve düzenleyici duyuruyu takip etmek zorundadır. Ancak haber sitelerini toplu kazıma, sıradan bir web scraping işleminden çok farklıdır. Paywall'lar, Cloudflare koruması, bölgesel içerik varyasyonları ve hızla değişen sayfa yapıları, veri toplama süreçlerinizi durdurabilir.

News scraping proxies kullanmadan 10.000+ kaynağı izlemeye çalışmak, engelleme oranlarının %60'ı aşması anlamına gelir. Bu rehberde, medya monitoring scraping altyapınızı nasıl kuracağınızı, hangi proxy türünü seçeceğinizi ve etik sınırları nasıl koruyacağınızı adım adım anlatıyoruz.

Hedef Kaynak Türleri ve Stratejileri

Her haber kaynağı farklı teknik zorluklar taşır. Kaynak türüne göre yaklaşımınızı değiştirmek, hem maliyeti hem de başarı oranını doğrudan etkiler.

Ana Akım Haber Siteleri

WSJ, Bloomberg, Reuters, Financial Times gibi büyük yayıncılar, en değerli ama en zor erişilen kaynaklardır. Çoğu hard paywall (tam içerik kilidi) veya metered paywall (aylık ücretsiz makale sınırı) uygular. İçeriğin tamamını kazımak yerine, başlıklar, meta açıklamalar ve özetler genellikle ücretsiz erişilebilir durumdadır — bunlar bile medya izleme için değerlidir.

Bloomberg & Reuters: API erişimi sunar ancak fiyatlandırma kurumsal düzeydedir. Scraping için residential proxy gereklidir.
WSJ & FT: Metered paywall uygular. Aynı IP'den 5+ makale okunduğunda içerik kilitlenir.
Regional liderler (Die Welt, Le Monde, El País, Nikkei): Bölgesel Cloudflare kuralları ve dil-specific korumalar içerir.

Trade Press ve Sektörel Yayıncılar

Healthcare, fintech, enerji, lojistik gibi dikey sektörlerde uzman yayıncılar, rekabet istihbaratı için altın değerindedir. Bu siteler genellikle daha az koruma uygular ancak daha az RSS desteği sunar. Teknik yapıları standart olmayabilir; her yayıncı için ayrı parser geliştirmeniz gerekir.

Bloglar ve Bağımsız Yayıncılar

Substack, Medium, WordPress tabanlı bloglar düşük korumalıdır. Ancak hacimli olabilir — 10.000 kaynağın %40'ı bu kategoridedir. RSS-first yaklaşım burada en verimli stratejidir.

Düzenleyici Duyurular ve Resmi Gazeteler

SEC EDGAR, EU Official Journal, BDDK duyuruları, RG (Resmi Gazete) gibi kaynaklar, press release monitoring için kritiktir. Bu kaynaklar genellikle scraping dostudur ancak yapıları zaman zaman değişir ve kesintisiz izleme gerektirir.

Neden Residential Proxy Gerekli?

Haber siteleri, datacenter IP'leri hızla tanır ve engeller. Bu, medya izleme scraping operasyonlarında residential proxy kullanımını zorunlu kılar.

Paywall'lar DC IP'leri Engeller

Metered paywall sistemleri, datacenter IP'lerden gelen trafiği otomatik olarak işaretler. Bir AWS veya GCP IP bloğundan gelen istekler, normal kullanıcı trafiğinden çok farklı bir behavioral pattern gösterir. Sonuç: içerik erişimi sıfır.

Cloudflare ve Anti-Bot Koruması

Bloomberg, Reuters ve yüzlerce küçük haber sitesi Cloudflare Enterprise koruması kullanır. Bu koruma, browser fingerprinting, TLS parmak izi ve IP itibar skorlaması yapar. Residential IP'ler bu kontrolleri doğal olarak geçer çünkü gerçek ISP'lerden gelir.

Bölgesel Paywall Varyasyonları

Aynı yayıncı, farklı ülkelerden erişimde farklı kurallar uygular. Örneğin, bazı siteler ABD'den erişimde 5 ücretsiz makale sunarken, AB'den erişimde GDPR duvarı gösterir. Geo-targeted residential proxy kullanarak her bölgenin gerçek görünümünü elde edebilirsiniz.

Kriter	Residential Proxy	Datacenter Proxy	Mobile Proxy
Paywall geçişi	Yüksek başarı	Düşük (hemen engellenir)	En yüksek
Cloudflare bypass	İyi	Zayıf	Çok iyi
Hız (latency)	Orta (1-3 sn)	Hızlı (<0.5 sn)	Yavaş (2-5 sn)
Maliyet / GB	Orta	Düşük	Yüksek
En iyi kullanım	Genel haber kazıma	RSS ve açık API'ler	Mobil-specific siteler

ProxyHat ile ülke bazlı residential proxy kullanmak için kullanıcı adınıza geo-targeting ekleyebilirsiniz:

# ABD'den erişim (WSJ metered paywall için)
curl -x http://user-country-US:pass@gate.proxyhat.com:8080 \
  https://www.wsj.com/articles/example-article

# Almanya'dan erişim (Die Welt için)
curl -x http://user-country-DE:pass@gate.proxyhat.com:8080 \
  https://www.welt.de/article12345

# Sticky session ile aynı IP'den 5 makale okuma
# (metered paywall'da session tutarlılığı için)
curl -x http://user-country-US-session-abc123:pass@gate.proxyhat.com:8080 \
  https://www.wsj.com/articles/first-article

Veri Mimarisi: RSS-Öncelikli Yaklaşım

10.000+ kaynağı izlerken her siteyi her saat tam sayfa kazımak, maliyet ve hız açısından sürdürülebilir değildir. Akıllı bir veri mimarisi, kaynak türüne göre farklı stratejiler uygular.

Katman 1: RSS ve Açık API'ler (Öncelik)

Kaynakların yaklaşık %30-40'ı RSS feed sunar. Bu en ucuz ve en güvenilir katmandır. RSS feed'leri genellikle datacenter proxy ile bile erişilebilir çünkü koruma uygulanmaz. Her 15-30 dakikada bir poll yaparak yeni içerikleri tespit edebilirsiniz.

Reuters, AP, AFP gibi ajanslar RSS sunar
Çoğu blog ve WordPress sitesi /feed adresinden RSS sağlar
Düzenleyici kurumlar genellikle RSS ve JSON API sunar

Katman 2: HTML Scraping (Fallback)

RSS olmayan veya RSS'te sadece özet gösteren kaynaklar için HTML scraping gerekir. Bu katmanda residential proxy zorunludur. Sadece yeni makale tespit edildiğinde veya RSS özeti yetersiz olduğunda tam sayfa çekilir.

Katman 3: Content-Hash Dedup

Aynı haber 15 farklı kaynakta ortaya çıkabilir. URL bazlı dedup yeterli değildir — aynı haberin farklı URL'lerle yayınlandığı durumlar yaygındır. Content-hash deduplication uygulayın:

Başlık + yayın tarihi + kaynağın SHA-256 hash'ini hesaplayın
Hash eşleşmesi olan makaleleri tek bir cluster olarak gruplayın
Farklı kaynaklardaki aynı haberi tek bir olay olarak işleyin

Çok Dilli Normalizasyon

Global medya izlemede, aynı olayı 20 dilde takip edersiniz. Normalizasyon pipeline'ı şunları içermelidir:

Dil tespiti: fastText veya langdetect ile otomatik sınıflandırma
Varlık normalizasyonu: "Türkiye", "Turquie", "Türkei" → tek bir entity ID
Zaman normalizasyonu: Farklı saat dilimlerindeki yayın tarihlerini UTC'ye çevirme
Duyarlılık puanlama: Her dilde farklı kurallarla sentiment analizi

Kullanım Senaryoları

Marka Bahsedilme İzleme

Şirketinizin, ürünlerinizin veya yöneticilerinizin adı ne zaman geçiyor? 10.000+ kaynakta gerçek zamanlı arama, kriz anında ilk 15 dakikada müdahale şansı verir. Media monitoring scraping ile marka bahsedilmelerini dakikalar içinde tespit edebilirsiniz.

Kriz Tespiti ve Erken Uyarı

Negatif haber hacminde ani artış, potansiyel kriz sinyalidir. Anomali tespiti algoritması ile normalin 3 standart sapma üzerindeki bahsedilme artışlarını otomatik uyarıya çevirin. E-posta ve Slack entegrasyonu ile 7/24 izleme sağlayın.

Rekabet Hareketi Takibi

Rakiplerinizin ürün lansmanları, yönetim değişiklikleri, ortaklık duyuruları ve finansal sonuçları hakkında bilgi, stratejik kararlar için kritiktir. Trade press ve sektörel yayınlardaki rakip haberlerini otomatik sınıflandırın.

Düzenleyici Duyuru Beslemeleri

SEC dosyaları, AB düzenlemeleri, BDDK kararları ve sektör regülasyonları değişiklikleri, compliance ekipleri için acil bilgidir. Press release monitoring ile bu duyuruları yayımlandıkları ilk dakikada yakalayın.

Paywall Etikği: Ne Yasal, Ne Değil?

Bu konu, medya izleme ekiplerinin en sık sorduğu sorudur. Etik ve yasal çerçeveyi net anlamak önemlidir.

Ücretsiz Erişilebilir Meta Veriler

Çoğu haber sitesi, makale başlıklarını, meta açıklamalarını ve özetlerini arama motorları için ücretsiz erişime açar. Bu verileri toplamak, robots.txt'e uyduğunuz sürece genellikle yasal ve etiktir. Bu veriler, medya izleme için genellikle yeterlidir:

Başlık ve alt başlık
Yayın tarihi ve yazar
Meta description (genellikle makalenin ilk 1-2 cümlesi)
Og:image ve kategori etiketleri

Ücretli İçeriğin Tam Kazınması

Paywall arkasındaki tam makale içeriğini kazımak, yayıncının abonelik modelini doğrudan ihlal eder. Bu hem etik olarak sorunlu hem de çoğu yargı alanında hukuki risk taşır. Önerimiz: tam içerik kazıma yerine meta veri ve özet ile yetinin, veya yayıncı ile doğrudan lisans anlaşması yapın.

robots.txt ve ToS Uyumu

Her zaman hedef sitenin robots.txt dosyasını kontrol edin. Birçok yayıncı, belirli bot'ları açıkça engeller. Disallow kurallarına uymak, yalnızca etik değil aynı zamanda hukuki açıdan da koruma sağlar.

Önemli: Medya izleme amacıyla başlık ve meta veri toplamak çoğu durumda yasal ve etiktir. Ancak tam makale içeriğini paywall arkasından kazımak, yayıncı haklarını ihlal eder. Bu rehber, etik sınırlar içinde kalan meta veri odaklı izleme stratejisini savunur.

Ölçeklenebilir Mimari: 10.000 Kaynak, Küçük Ekip

Büyük medya izleme şirketleri 100+ kişilik ekiplerle çalışır. Ancak 3-5 kişilik bir ekip de doğru mimari ile 10.000+ kaynağı izleyebilir. İşte nasıl:

Adım 1: Kaynak Sınıflandırması

Tüm kaynakları öncelik ve erişim zorluğuna göre sınıflandırın:

Tier 1 (Kritik): 200-500 ana kaynak — her 5 dakikada bir kontrol, residential proxy ile scraping
Tier 2 (Önemli): 2.000-3.000 trade press ve blog — her 30 dakikada bir, RSS + fallback scraping
Tier 3 (Arşiv): 7.000+ küçük kaynak — günlük kontrol, RSS-only mümkünse

Adım 2: Otomatik Keşif Pipeline'ı

Yeni kaynakları manuel eklemek sürdürülebilir değildir. Şu otomasyonları kurun:

Google News RSS'lerinden anahtar kelime bazlı yeni kaynak keşfi
Mevcut kaynakların link graph'ından yeni kaynak tespiti
Sektör dizinleri ve medya veritabanlarından otomatik import

Adım 3: Proxy Yönetimi ve Rotasyon

Farklı kaynak tipleri için farklı proxy stratejileri kullanın:

RSS feed'leri: Datacenter proxy (düşük maliyet, yüksek hız)
Paywall'lı ana kaynaklar: Residential proxy with sticky sessions (aynı IP'den doğal davranış)
Mobil-specific siteler: Mobile proxy (gerektiğinde)

Örnek ROI Hesaplaması

Diyelim ki 5 kişilik bir medya izleme ekibiniz var:

Manuel izleme maliyeti: 5 kişi × $6.000/ay = $30.000/ay (10.000 kaynağın %15'ini ancak izleyebilir)
Otomatik izleme maliyeti: 1 mühendis + ProxyHat ($2.000/ay proxy) + altyapı ($1.000) = ~$9.000/ay (10.000 kaynağın %95'ini izler)
Net tasarruf: $21.000/ay + %80 daha fazla kaynak kapsama
Yıllık ROI: 233%

Adım 4: Build vs. Buy Kararı

Kendiniz mi yapmalı, hazır bir platform mu kullanmalı? Karar kriterleri:

Özelleştirme ihtiyacı yüksekse: Build — kendi scraping pipeline'ınızı kurun, ProxyHat ile proxy katmanını yönetin
Hızlı başlangıç gerekiyorsa: Buy — Meltwater, Brandwatch gibi platformlar 1-2 haftada canlı olur
Hibrit yaklaşım (önerilen): Kritik kaynaklar için custom scraper, diğerleri için platform + ProxyHat proxy altyapısı

ProxyHat ile Python tabanlı basit bir haber kazıma pipeline'ı örneği:

import requests
from bs4 import BeautifulSoup
import hashlib

PROXY = "http://user-country-US:pass@gate.proxyhat.com:8080"
proxies = {"http": PROXY, "https": PROXY}

def fetch_article(url):
    resp = requests.get(url, proxies=proxies, timeout=15)
    soup = BeautifulSoup(resp.text, "html.parser")
    title = soup.find("meta", property="og:title")["content"]
    desc = soup.find("meta", property="og:description")["content"]
    content_hash = hashlib.sha256(
        f"{title}{desc}".encode()
    ).hexdigest()
    return {"title": title, "desc": desc, "hash": content_hash}

Temel Çıkarımlar

RSS-öncelikli yaklaşım benimseyin: Kaynakların %30-40'ı RSS ile ücretsiz erişilebilir — scraping maliyetini düşürür.
Residential proxy kullanın: Paywall'lı ve Cloudflare korumalı haber siteleri için datacenter IP'ler yetersizdir.
Meta veri ile yetinin: Başlık, özet ve meta description, medya izleme için genellikle yeterlidir ve etik sınırlar içindedir.
Content-hash dedup uygulayın: Aynı haberi 15 farklı kaynakta takip etmek yerine tek bir olay olarak gruplayın.
Kaynakları tier'lara bölün: 10.000 kaynağa eşit frekansta erişmek maliyet israfıdır; kritik kaynaklara yüksek öncelik verin.
Build-vs-buy kararını hibrit yapın: Kritik kaynaklar için özel scraper, diğerleri için platform + ProxyHat proxy altyapısı.

Medya izleme scraping altyapınızı kurmaya hazır mısınız? ProxyHat fiyatlandırma sayfasından residential proxy paketlerini inceleyin ve 195+ lokasyondaki proxy ağımızı test edin. Sorularınız için ekibimiz her zaman yardıma hazır.

Haber Sitelerini Toplu Kazıma: Medya İzleme ve Rekabet İstihbaratı Rehberi

Haber Sitelerini Toplu Kazıma Neden Zor?