Sync «çalışıyor» görünüp neden bozulur?
Entegrasyon cron'u düzenli tetikleniyor olabilir; ancak batch %40 hata ile dönüyorsa operasyonel olarak sync bozuktur. «Son çalışma: 5 dk önce» göstergesi tek başına sağlık kanıtı değildir.
Sync sağlığı üç boyutla ölçülür: kapsam (hangi SKU'lar etkilendi), doğruluk (kanal değeri SSOT ile uyumlu mu), zamanlılık (değişiklikten yansımaya geçen süre). 7/24 izleme bu üç boyutu eşik değerlerle alarm üretir.
Temel metrikler ve eşikler
Push başarı oranı (son 24 saat), ortalama ve p95 gecikme, kuyrukta bekleyen job sayısı, credential hatası frekansı ve stok sapma yüzdesi minimum metrik setidir. Eşikler kanal ve sezona göre farklılaşır; Black Friday'de p95 gecikme normalin üç katına kadar tolerans gösterebilir.
Batch job'lar için «gönderildi» ile «onaylandı» arasındaki süre ayrı izlenmelidir. Trendyol batch API gibi asenkron sistemlerde request kabul edilip saatler sonra reddedilebilir; yalnızca HTTP 200 takibi yanıltıcıdır.
- success_rate_24h < %98 → uyarı
- stock_drift_pct > %0.5 → kritik
- order_pull_lag > 10 dk → kritik
- credential_fail > 3/saat → acil
Pratik izleme rutini
Mesai başlangıcında «gece özeti» raporu: başarısız batch listesi, en çok hata veren SKU grubu, credential durumu. Gün içinde gerçek zamanlı dashboard; mesai dışı PagerDuty veya e-posta eskalasyonu.
Haftalık trend analizi aynı hatanın tekrar edip etmediğini gösterir. Kalıcı hata sınıfları (ör. sürekli reddedilen kategori attribute) runbook'a «kalıcı düzeltme» maddesi olarak eklenir; sadece retry ile kapatılmaz.
Incident müdahale akışı
Sync incident'lerinde ilk adım kapsam tespiti: tüm kanal mı, tek SKU grubu mu, tek işlem tipi mi (stok / fiyat / sipariş)? İkinci adım geçici risk azaltma: şüpheli SKU'ları satışa kapat, güvenlik stoğu artır veya manuel mutabakat başlat.
Kök neden analizi sonrası post-mortem: ne zaman başladı, neden gece fark edilmedi, hangi alarm eksikti. Sync sağlığı olgunluğu alarm sayısından çok false positive oranının düşük olmasıyla ölçülür.
Proaktif sağlık kontrolleri
Sentetik kontrol: saatlik «test SKU» üzerinde bilinçli miktar değişikliği gönderip kanal panelinde doğrulama. Credential süresi dolmadan 14 gün önce uyarı. Kanal API status page RSS veya webhook ile dahili incident kanalına bağlama.
Stok sayım günlerinde sync eşiklerini geçici gevşetmek yerine sayım moduna alın; sayım bitince tam reconcile job çalıştırın. Aksi halde sayım farkları otomatik push ile kanallara yanlış yansır.
Sık sorulan sorular
Sync sağlığı için minimum ekip büyüklüğü?
7/24 izleme için en az iki kişilik rotasyon veya managed alerting gerekir. Tek kişi mesai dışı on-call ile hafta sonu incident'leri kaçınılmaz biçimde gecikir.
Stok sapması ne sıklıkla kabul edilebilir?
Sürekli %0.1 altı iyi; %0.5 üzeri araştırma gerektirir; %1 üzeri satış durdurma eşiği olarak değerlendirilmelidir. Yüksek hacimli SKU'larda mutlak adet farkı da önemlidir.
Kanal tarafı kesintisinde ne yapılır?
Outbound push'u duraklat, kuyruğu biriktir, kesinti bitince rate limit'e dikkat ederek kademeli boşalt. Sipariş çekmeyi mümkünse alternatif polling ile sürdür.
Pillar rehber
Pazaryeri yazılımı seçerken «kaç kanal bağlanıyor?» sorusundan önce «operasyonu tek merkezden yönetebiliyor muyuz?» sorusunu sorun.
Pazaryeri yönetimi: kanal değil, operasyon