Observabilidad y alertas en tiempo real
Implementación de Zabbix, Nagios y Grafana con alertas instantáneas por bot de Telegram para routers y servidores críticos. Antes: sin visibilidad unificada, detección de fallos reactiva y dependiente de reportes de usuarios.
Métricas destacadas
- Hosts monitoreados: 0 → +200
- Checks por minuto: 5k
- MTTR: 90 min → 30 min (67% menos)
- Alertas: Telegram < 60 s
- Cobertura: 100% infra crítica
Contexto
La operación del ISP dependía de detección manual de fallos. Las alertas llegaban por llamadas de clientes, no por monitoreo. No existía un dashboard unificado ni métricas de tiempo de respuesta. Se necesitaba visibilidad en tiempo real y alertas accionables para el equipo de guardia.
Acciones
- Despliegue de Zabbix para monitoreo de infraestructura y servicios core (SNMP, ICMP, checks personalizados).
- Dashboards en Grafana para seguimiento en tiempo real de tráfico, salud de routers y servidores.
- Integración de alertas con bot de Telegram: notificaciones por prioridad, grupo de guardia y escalado automático.



Resultados
- Reducción del MTTR de 90 a 30 minutos: respuesta a incidentes 3 veces más rápida.
- Alertas en menos de 60 segundos para eventos críticos (caída de link, alto consumo de CPU/memoria, disco lleno).
- Dashboard operativo unificado: el equipo de NOC pasó de monitoreo reactivo a proactivo.