HR-tech ekipleri ve işgücü analitiği profesyonellerinin en büyük zorluğu, dağınık iş ilanı verilerini tutarlı bir yapıda bir araya getirmektir. Her platform farklı şema, farklı koruma katmanı ve farklı kullanım koşullarına sahip. Bu rehber, iş ilanlarını kazımak isteyen ürün yöneticileri ve veri ekipleri için kaynak seçiminden mimari tasarıma, proxy stratejisinden yasal çerçeveye kadar tüm karar noktalarını ele alıyor.
Neden İş İlanlarını Kazımak Zor?
İş piyasası verileri 50'den fazla büyük platforma dağılmış durumda. LinkedIn Jobs tek başına aylık 20 milyonun üzerinde ilan barındırıyor; Indeed ise 60'tan fazla ülkede faaliyet gösteriyor. Her platform veriyi farklı biçimlendiriyor, farklı anti-bot mekanizmaları uyguluyor ve kullanım koşullarında farklı kısıtlamalar getiriyor. Tek bir API'den tüm veriyi almak mümkün değil — bu nedenle stratejik bir kazıma yaklaşımı zorunlu.
Temel zorluklar şunlar:
- Anti-bot koruması: LinkedIn ve Indeed, davranışsal analiz ile bot tespiti yapıyor; datacenter IP'leri hızla engelleniyor.
- Veri formatı farklılıkları: Her platform maaş, uzaktan çalışma ve kıdem bilgilerini farklı şekilde temsil ediyor.
- Ölçek: Günlük milyonlarca ilanın değişimini yakalamak, kararlı bir altyapı gerektiriyor.
- Yasal belirsizlik: TOS kısıtlamaları ve GDPR uyumluluğu, mimari kararları doğrudan etkiliyor.
Hedef Veri Kaynakları
Küresel Platformlar
LinkedIn Jobs — En zengin şirket ve profil verisini sunuyor. Seniority level, uzaktan çalışma etiketi ve şirket büyüklüğü gibi alanlar burada en yapılandırılan haliyle mevcut. Ancak LinkedIn, anti-bot koruması en agresif platformlardan biri; residential proxy zorunlu.
Indeed — En yüksek ilan hacmine sahip platform. Maaş tahminleri ve şirket değerlendirmeleri ayrı uç noktalarda. Indeed de agresif bot tespiti uyguluyor; residential proxy gerekiyor.
Glassdoor — Maaş verisi ve şirket değerlendirmeleri için benzersiz bir kaynak. İş ilanları daha az ama maaş analitiği için kritik. Orta düzey anti-bot koruması var.
Monster — Eski ama hâlâ ABD ve Avrupa'da anlamlı ilan hacmine sahip. Anti-bot koruması nispeten zayıf; datacenter proxy ile erişilebilir.
ZipRecruiter — ABD pazarında güçlü; AI tabanlı eşleştirme verileri ilginç sinyaller sunuyor. Orta düzey koruma mevcut.
Bölgesel Liderler
Xing (Almanya) — DACH bölgesi için LinkedIn'e benzer bir profesyonel ağ. Almanca iş ilanlarında en zengin kaynak. Anti-bot mekanizmaları LinkedIn kadar katı değil ama residential proxy tercih edilmeli.
Naukri (Hindistan) — Hint iş piyasasının tartışmasız lideri. Günlük 1 milyonun üzerinde ilan. Koruması orta düzeyde; datacenter proxy ile mümkün ama residential daha kararlı sonuç veriyor.
Diğer dikkat edilmesi gereken bölgesel oyuncular: StepStone (Almanya), Reed (İngiltere), Seek (Avustralya), Zhaopin (Çin).
Kaynak Karşılaştırma Tablosu
| Platform | Aylık İlan Hacmi | Anti-Bot Seviyesi | Önerilen Proxy | Benzersiz Veri |
|---|---|---|---|---|
| LinkedIn Jobs | 20M+ | Çok Yüksek | Residential (zorunlu) | Seniority, şirket büyüklüğü |
| Indeed | 50M+ | Yüksek | Residential (zorunlu) | Maaş tahminleri, değerlendirmeler |
| Glassdoor | 5M+ | Orta-Yüksek | Residential (önerilen) | Maaş verisi, şirket puanları |
| ZipRecruiter | 8M+ | Orta | Residential veya DC | AI eşleştirme sinyalleri |
| Monster | 3M+ | Düşük | Datacenter (yeterli) | Geleneksel ilanlar |
| 2M+ | Orta | Residential (önerilen) | DACH bölgesi uzmanlığı | |
| Naukri | 1M+ | Orta | Residential (önerilen) | Hindistan pazar verisi |
Erişilebilir Veri Alanları
Her platformdan çekilebilecek ortak veri alanları ve bunların normalizasyon zorlukları:
- İş unvanı (title): Her platformda mevcut ama standart olmayan; "Senior Software Engineer" vs "Sr. SWE" gibi varyasyonlar normalizasyon gerektiriyor.
- Şirket adı: Neredeyse her yerde mevcut; ancak aynı şirketin farklı yazılımları ("Google" vs "Google LLC" vs "Alphabet") eşleştirme gerektiriyor.
- Konum: Her platformda var ama hiyerarşi farklı; şehir + ülke vs şehir + eyalet + ülke formatları birleştirilmeli.
- İş tanımı: En zengin ama en karmaşık alan; HTML temizleme ve metin çıkarma gerekiyor.
- Maaş: En değerli ama en eksik alan. Indeed ve Glassdoor maaş verisi sunuyor; LinkedIn ise yalnızca ilan sahibi belirtirse gösteriyor. Mevcut ilanların yalnızca %15-25'inde maaş bilgisi bulunuyor.
- İlan tarihi: Her platformda mevcut ama zaman damgası formatları farklı.
- Kıdem seviyesi (seniority): LinkedIn en yapılandırılan kaynak; diğer platformlarda genellikle unvandan çıkarım yapılıyor.
- Uzaktan çalışma durumu: Post-COVID döneminde kritik; LinkedIn ve Indeed etiket bazlı sunuyor, diğerleri iş tanımından çıkarım gerektiriyor.
Proxy Seçimi: Hangi Kaynak İçin Hangi Proxy?
İş ilanı kazıma projelerinde proxy seçimi, doğrudan başarı oranını belirliyor. Yanlış proxy tipi, IP engellemeleri ve veri kaybı anlamına geliyor.
Residential Proxy Neden Zorunlu?
LinkedIn ve Indeed, datacenter IP aralıklarını gerçek zamanlı olarak tespit ediyor ve engelliyor. Bu platformlar, gelen trafiğin davranışsal analizini yapıyor: sayfa geçiş hızı, mouse hareketleri, oturum süresi. Residential proxy, trafiği gerçek ISP'lerden yönlendirerek bu analizleri atlatmanızı sağlıyor.
ProxyHat residential proxy ile LinkedIn'e erişim örneği:
curl -x http://user-country-US:PASSWORD@gate.proxyhat.com:8080 \
"https://www.linkedin.com/jobs/search/?keywords=data+engineer&location=New+York"
Ülke hedeflemeli istekler, yerel iş piyasası verisini çekmek için kritik. Almanya'daki Xing ilanlarına erişmek için:
curl -x http://user-country-DE-city-berlin:PASSWORD@gate.proxyhat.com:8080 \
"https://www.xing.com/jobs/search?q=data+engineer&location=Berlin"
Datacenter Proxy Ne Zaman Yeterli?
Monster ve bazı bölgesel platformlar, datacenter IP'leri engellemiyor. Bu kaynaklar için residential proxy maliyeti gereksiz. Ancak şu kuralı benimseyin: yeni bir kaynak kazımaya başlamadan önce, datacenter proxy ile test edin; engelleme olursa residential'a geçin.
IP Rotasyon Stratejisi
Agresif anti-bot korumasına sahip platformlar için istek başına rotasyon zorunlu. Her HTTP isteğinde yeni bir IP kullanmak, parmak izi oluşumunu önlüyor. Daha az korumalı platformlar için sticky session (5-30 dakika aynı IP'yi tutma) yeterli ve maliyeti düşürüyor.
ProxyHat ile sticky session oluşturmak için kullanıcı adında session parametresi kullanın:
# 30 dakikalık sticky session
http://user-session-abc123-country-US:PASSWORD@gate.proxyhat.com:8080
Mimari Tasarım: Ölçeklenebilir İş İlanı Kazıma Altyapısı
Birden fazla kaynaktan veri çeken bir sistem tasarlamak, her katmanda doğru kararlar gerektiriyor. İşte kanıtlanmış bir mimari yaklaşım:
Kaynak Başına Bir Kazıyıcı (One-Scraper-Per-Source)
Her iş platformu için bağımsız bir kazıyıcı modülü tasarlayın. Neden? Her platformun farklı DOM yapısı, farklı anti-bot mekanizması ve farklı hız sınırları var. Tek bir kazıyıcı tüm platformları desteklemeye çalışmak, bakım kabusu yaratır.
Her modül şunları içermeli:
- URL oluşturucu: Arama parametrelerini platform URL formatına çeviren bileşen.
- Sayfa çeker: Proxy yönetimi, hız sınırlama ve retry mantığı ile HTTP isteklerini yöneten katman.
- Çıkarıcı (extractor): Ham HTML'den yapılandırılmış veriyi çıkaran parser.
- Anti-bot işleyici: CAPTCHA tespiti, rate-limit yanıtları ve bot tespiti için özel stratejiler.
Normalizasyon Katmanı
Farklı kaynaklardan gelen ham veriyi tek bir şemada birleştiren ara katman. Bu katman şunları yapmalı:
- İş unvanlarını standart sınıflandırmalara eşlemek (ör. O*NET SOC kodları).
- Şirket adlarını temizleyip eşleştirmek (fuzzy matching ile).
- Konum verilerini standart bir hiyerarşiye dönüştürmek (şehir → bölge → ülke).
- Maaş verisini tek bir para birimi ve periyoda normalize etmek (yıllık USD).
- Kıdem seviyesini standart bir ölçeğe maplemek (entry → mid → senior → executive).
Tekilleştirme (Dedup)
Aynı ilan birden fazla platformda yayımlanıyor. Örneğin bir şirket, aynı pozisyonu hem LinkedIn'de hem Indeed'de paylaşabilir. Tekilleştirme stratejisi:
- Kesin eşleşme: Aynı şirket adı + aynı unvan + aynı konum = aynı ilan.
- Olası eşleşme: Fuzzy matching ile benzer unvanlar ve şirket adları kontrol edilir; manuel onay kuyruğuna alınır.
- İlan tarihi karşılaştırması: Aynı ilanın farklı platformlardaki yayım tarihleri karşılaştırılır; en erken tarih kaynak olarak işaretlenir.
Kullanım Senaryoları ve ROI Hesaplama
Senaryo: İş Piyasası İstihbarat Platformu
Bir HR-tech startup, ABD pazarında gerçek zamanlı iş piyasası istihbaratı sunuyor. Hedef: 5 büyük platformdan (LinkedIn, Indeed, Glassdoor, ZipRecruiter, Monster) günlük 500.000 ilan çekmek.
Maliyet tahmini (aylık):
- Residential proxy (LinkedIn + Indeed + Glassdoor): ~$2.000-3.500
- Datacenter proxy (Monster + ZipRecruiter): ~$200-400
- Altyapı (sunucular, veritabanı, queue): ~$800-1.200
- Geliştirme ve bakım (2 mühendis): ~$15.000-20.000
- Toplam aylık maliyet: ~$18.000-25.000
Gelir potansiyeli:
- 50 kurumsal müşteri × $500-2.000/ay = $25.000-100.000/ay
- API erişimi ile veri satışı: $10.000-30.000/ay ek gelir
- Toplam aylık gelir potansiyeli: $35.000-130.000
ROI: İlk 3 ayda negatif, 4-6 ayda break-even, 7. aydan itibaren 2-5x getiri. Bu, iş piyasası verisinin değerine ve müşteri segmentine göre değişir.
Diğer Kullanım Senaryoları
Rakip işe alım sinyalleri: Bir şirketin hangi pozisyonlara hızla işe alım yaptığını izleyerek stratejik hamleleri tespit etmek. Örneğin, bir fintech şirketinin ani crypto pozisyonları açması, yeni bir ürün hattı sinyali verir.
Maaş kıyaslaması (salary benchmarking): Pozisyon, bölge ve kıdem bazında maaş trendlerini izleyerek rekabetçi maaş teklifleri oluşturmak. Maaş verisi içeren ilanların %15-25'inden anlamlı trendler çıkarılabilir.
İş ilanı toplayıcı (aggregator) iş modeli: Birden fazla kaynaktan toplanan ilanları normalize edip, niche bir dikeyde (ör. sadece uzaktan çalışmalar veya sadece AI pozisyonları) sunmak.
Daha fazla kazıma kullanım senaryosu için web scraping kullanım senaryoları sayfamıza göz atın.
Yasal Çerçeve: TOS ve GDPR
İş ilanı kazıma projelerinde yasal uyumluluk, mimari kararları doğrudan etkiliyor. İşte dikkat edilmesi gereken başlıklar:
Kullanım Koşulları (Terms of Service)
Çoğu platform, TOS'larında otomatik veri toplamayı açıkça yasaklıyor. Ancak yasal durum karmaşık:
- ABD: hiQ Labs v. LinkedIn davasında mahkeme, herkese açık verilerin kazınmasının CFAA kapsamında suç olmadığına hükmetti. Bu emsal karar önemli ama nihai değil.
- AB: Veri koruma yasaları daha katı; ancak iş ilanları genellikle herkese açık bilgi olarak kabul ediliyor.
- Pragmatik yaklaşım: TOS ihlali, platformun sizi engellemesine neden olur; bu bir teknik sorun. Ancak kişisel veri toplamıyorsanız, cezai risk sınırlı.
GDPR Uyumluluğu
Bu rehber, iş ilanlarını kazımayı kapsıyor — aday profillerini değil. Bu ayrım kritik:
- İş ilanları: Şirket tarafından yayımlanan, herkese açık ilanlardır. GDPR kapsamında kişisel veri olarak değerlendirilmezler (şirket verisi olarak kabul edilir).
- Aday profilleri: Kişisel veridir; GDPR'nin kapsamına girer. Bu rehber, aday profili kazımasını önermiyor ve desteklemiyor.
- İlan içindeki kişisel veriler: İş ilanında geçen işe alım yöneticisinin adı gibi veriler, makul bir amaca (ilanı sınıflandırmaya) hizmet ediyorsa işlenebilir; ancak saklama süresi sınırlı olmalı.
Etik İlkeler
- Robots.txt dosyalarına saygı gösterin — hedef platformun kural setini okuyun.
- Hız sınırlama uygulayın — platformu kesintiye uğratacak trafik üretmeyin.
- Sadece herkese açık veriyi kazıyın — giriş gerektiren sayfalardan veri çekmeyin.
- Veriyi saklama süresini belirleyin — GDPR'nin veri minimizasyon ilkesine uyun.
- Hukuki danışmanlık alın — her pazarın kendine özgü düzenlemeleri var.
İnşa Et vs Satın Al (Build vs Buy)
İş ilanı verisini kendi başınıza kazımak mı, yoksa mevcut bir veri sağlayıcıdan satın almak mı? Bu karar, ekibinizin kapasitesine ve zaman çizelgenize bağlı.
| Kriter | Kendi Kazı | Veri Satın Al |
|---|---|---|
| Başlangıç maliyeti | Düşük (proxy maliyeti) | Yüksek ($5K-50K/ay) |
| Veri tazelik | Gerçek zamanlı | Gecikmeli (saatlik/günlük) |
| Veri kalitesi | Kendi kontrolünüzde | Sağlayıcıya bağlı |
| Bakım yükü | Yüksek (site değişiklikleri) | Düşük |
| Özelleştirme | Tam esneklik | Sınırlı |
| Rekabet avantajı | Yüksek (benzersiz veri) | Düşük (rakipler de alabilir) |
Öneri: Hibrit yaklaşım. Stratejik olarak en değerli kaynakları (LinkedIn, Indeed) kendi başınıza kazıyın; commodity kaynakları (Monster, bölgesel platformlar) için veri sağlayıcıları değerlendirin. Proxy maliyetleri için ProxyHat fiyatlandırma sayfasına göz atın.
Önemli Çıkarımlar
1. LinkedIn ve Indeed için residential proxy zorunlu; datacenter IP'ler hızla engelleniyor. Daha az korumalı platformlar için datacenter proxy yeterli.
2. Her kaynak için bağımsız kazıyıcı modülü tasarlayın; tek kazıyıcı tüm platformları desteklemeye çalışmayın.
3. Normalizasyon ve tekilleştirme katmanları, ham veriyi işlenebilir veriye dönüştüren en kritik bileşenlerdir.
4. İş ilanları GDPR kapsamında kişisel veri değildir; ancak aday profilleri kesinlikle kişisel veridir ve bu rehber kapsamında değildir.
5. ROI hesaplaması yapın: aylık $18-25K maliyet, 4-6 ayda break-even, 7. aydan itibaren 2-5x getiri hedeflenebilir.
6. Hibrit yaklaşım benimseyin: en değerli kaynakları kendiniz kazıyın, commodity kaynakları için sağlayıcıları değerlendirin.
İş ilanı kazıma altyapınızı kurmaya başlamaya hazır mısınız? ProxyHat'ın 190+ ülkedeki proxy lokasyonları ile küresel iş piyasası verisine erişin ve SERP izleme çözümlerimizle veri akışınızı güçlendirin.






