Troubleshooting
Flujo de resolución de incidentes con foco en MTTR bajo y evidencia de alta calidad.
Qué resuelve
Reduce prueba-error durante incidentes y mejora handoff entre equipos.
Para quién es
- •Equipos on-call
- •Operación QA/plataforma
- •Coordinadores de incidentes
Prerequisitos
- •Owner del incidente definido
- •Run IDs y timestamps recolectados
- •Impacto delimitado
Paso a paso
1. Clasificar dominio de fallo
Determina si el problema está en scan, workflow, analytics o integración.
2. Revisar señales base
Inspecciona cola, estado de runs y fallos recientes.
3. Aplicar árbol de decisión
Sigue flujo sí/no hasta confirmar causa raíz.
4. Escalar con evidencia
Incluye timeline, payloads y acciones realizadas.
Salidas operativas
- •Registro de incidente clasificado
- •Hipótesis de causa raíz
- •Paquete de escalación listo
Disponibilidad por plan
- •Enfoque de troubleshooting disponible en todos los planes
- •Profundidad de telemetría depende del plan
- •Enterprise puede incluir rutas de soporte ampliadas
Límites y guardrails
- •No remediar sin clasificar el fallo
- •Evitar cambios paralelos sin ownership
- •Escalar si se supera timeout interno
Resultado esperado
- •Menor MTTR
- •Escalaciones más accionables
- •Mejor aprendizaje post-incidente
Rutas de troubleshooting
- •Ataca primero la primera causa validada
- •Si hay saturación de cola, involucra owner de workflow
- •Si falla payload, escala con ejemplos concretos
Árbol de decisión de troubleshooting
Sigue los pasos en orden. Cuando confirmes una causa raíz, documenta evidencia y recién ahí aplica remediación o escalación.
1. ¿El problema es falla o demora de ejecución de scan?
Sí: Ruta scan
Revisa queue lag, salud de workers y errores de run antes de reintentar.
No: Continuar
Pasa a workflow/integración para validar si el origen es de trigger.
2. ¿El workflow terminó en partial_failure?
Sí: Ruta workflow
Aísla URLs fallidas y revisa política de retry/dedupe.
No: Continuar
Pasa a analytics para validar consistencia de lecturas y métricas.
3. ¿Analytics muestra datos incompletos o inconsistentes?
Sí: Ruta analytics
Valida tracker, ventana de ingestión y política de cache.
No: Continuar
Pasa a integración para revisar contrato de webhook/payload.
4. ¿El callback webhook falla por firma o payload?
Sí: Ruta integración
Revisa rotación de secretos, validación de firma e idempotencia.
No: Escalar
Escala con run IDs, timeline de impacto y acciones ya intentadas.
Escalación
¿Incidente crítico en curso?
Escala con evidencia de run para activar respuesta más rápida y efectiva.