Observabilidad y alertas en tiempo real

Implementación de Zabbix, Nagios y Grafana con alertas instantáneas por bot de Telegram para routers y servidores críticos. Antes: sin visibilidad unificada, detección de fallos reactiva y dependiente de reportes de usuarios.

Métricas destacadas

Hosts monitoreados: 0 → +200
Checks por minuto: 5k
MTTR: 90 min → 30 min (67% menos)
Alertas: Telegram < 60 s
Cobertura: 100% infra crítica

Datos clave

Alcance: routers y servidores core en producción (+200 hosts).
Alertas: notificaciones en menos de 60 s vía Telegram.
Objetivo: visibilidad operativa, reducción de MTTR y respuesta rápida.

Stack

Zabbix
Nagios
Grafana
Telegram Bot

Diagrama sanitizado de observabilidad

Routers/servidores
Zabbix/Nagios
Grafana
Alertas Telegram

Vista lógica sin hosts, IPs, umbrales internos ni nombres de servicios sensibles.

Contexto

La operación del ISP dependía de detección manual de fallos. Las alertas llegaban por llamadas de clientes, no por monitoreo. No existía un dashboard unificado ni métricas de tiempo de respuesta. Se necesitaba visibilidad en tiempo real y alertas accionables para el equipo de guardia.

Acciones

Despliegue de Zabbix para monitoreo de infraestructura y servicios core (SNMP, ICMP, checks personalizados).
Dashboards en Grafana para seguimiento en tiempo real de tráfico, salud de routers y servidores.
Integración de alertas con bot de Telegram: notificaciones por prioridad, grupo de guardia y escalado automático.

Vista global anonimizada de Zabbix con problemas, hosts y métricas de monitoreo — Zabbix anonimizado: vista global de problemas, hosts y estado operativo.

Resumen anonimizado de Nagios con grupos de hosts, servicios y estado de chequeos — Nagios anonimizado: resumen de estado para hosts y servicios críticos.

Dashboard anonimizado de Grafana con métricas de tráfico, CPU, memoria y almacenamiento — Grafana anonimizado: métricas operativas de tráfico, recursos y disponibilidad.

Resultados

Reducción del MTTR de 90 a 30 minutos: respuesta a incidentes 3 veces más rápida.
Alertas en menos de 60 segundos para eventos críticos (caída de link, alto consumo de CPU/memoria, disco lleno).
Dashboard operativo unificado: el equipo de NOC pasó de monitoreo reactivo a proactivo.