Sorun Giderme
Tahmine dayalı müdahale yerine kanıt tabanlı ilerleyen, MTTR düşürmeye odaklı incident çözüm akışı.
Ne çözer
Kök neden bulmayı hızlandırır, ekipler arası devir teslim kalitesini artırır.
Kimler için
- •On-call ekipleri
- •QA ve platform operasyonu
- •Cross-team incident yöneticileri
Ön koşullar
- •Incident owner atanmış olmalı
- •Run ID ve zaman bilgisi toplanmış olmalı
- •Etki kapsamı tanımlanmış olmalı
Adım adım
1. Arıza domenini sınıflandır
Scan, workflow, analytics veya integration alanını netleştir.
2. Temel sinyalleri kontrol et
Queue, run durumu ve son hata trendlerini incele.
3. Karar ağacını uygula
Evet/Hayır akışında kök nedeni izole ederek ilerle.
4. Kanıtla escalation yap
Zaman çizelgesi, payload ve denenen aksiyonları ekle.
Operasyonel çıktılar
- •Sınıflandırılmış incident kaydı
- •Kök neden hipotezi
- •Escalation kanıt paketi
Plan uygunluğu
- •Sorun giderme yaklaşımı tüm planlar için geçerlidir
- •Telemetri derinliği plan seviyesine göre farklılaşabilir
- •Enterprise destek modelinde daha geniş operasyon akışı uygulanabilir
Limitler ve guardrail’ler
- •Sınıflandırma yapmadan doğrudan müdahale etme
- •Owner belirlenmeden paralel değişiklik başlatma
- •İç timeout aşılırsa escalation geciktirme
Beklenen sonuç
- •Mean-time-to-resolution azalır
- •Escalation kalitesi artar
- •Postmortem çıktıları iyileşir
Sorun giderme yolları
- •Karar ağacındaki ilk doğrulanan nedeni hedef al
- •Queue saturation durumunda workflow owner’ını devreye al
- •Payload sorunu varsa integration owner’a örnekle ilet
Sorun giderme karar ağacı
Adımları sırayla izleyin. İlk doğrulanan kök nedeni sabitleyin ve ardından remediation/elevation adımına geçin.
1. Sorun scan çalıştırma gecikmesi veya başarısızlığı mı?
Evet: Scan hattı
Queue lag, worker durumu ve run hatalarını incele; kapasite düzelmeden tekrar başlatma.
Hayır: Devam et
Workflow ve integration hattına geçerek tetikleme kaynaklı arızayı doğrula.
2. Workflow çalıştı ama partial_failure ile mi bitti?
Evet: Workflow hattı
Başarısız URL setini ayır, retry politikasını ve dedupe davranışını yeniden doğrula.
Hayır: Devam et
Analytics/read-path hattına geçip çıktı tutarlılığını kontrol et.
3. Analytics çıktıları eksik veya tutarsız mı?
Evet: Analytics hattı
Tracker kurulumunu, ingest penceresini ve cache politikasını kontrol et.
Hayır: Devam et
Webhook/payload sözleşmesini doğrulamak için integration hattına geç.
4. Webhook callback imza veya payload doğrulamasında mı düşüyor?
Evet: Integration hattı
Secret, signature doğrulaması ve idempotency kurallarını tekrar test et.
Hayır: Escalate et
Run ID, zaman çizelgesi ve etki analiziyle escalation paketi oluştur.
Eskalasyon
Kritik incident’te hızlı destek mi gerekiyor?
Run kanıtlarıyla birlikte eskale edin; çözüm yolunu en kısa sürede netleştirelim.