Saltar al contenido
← Volver a casos

Observabilidad y alertas en tiempo real

Implementación de Zabbix, Nagios y Grafana con alertas instantáneas por bot de Telegram para routers y servidores críticos. Antes: sin visibilidad unificada, detección de fallos reactiva y dependiente de reportes de usuarios.

Métricas destacadas

Datos clave

  • Alcance: routers y servidores core en producción (+200 hosts).
  • Alertas: notificaciones en menos de 60 s vía Telegram.
  • Objetivo: visibilidad operativa, reducción de MTTR y respuesta rápida.

Stack

  • Zabbix
  • Nagios
  • Grafana
  • Telegram Bot

Contexto

La operación del ISP dependía de detección manual de fallos. Las alertas llegaban por llamadas de clientes, no por monitoreo. No existía un dashboard unificado ni métricas de tiempo de respuesta. Se necesitaba visibilidad en tiempo real y alertas accionables para el equipo de guardia.

Acciones

Vista global anonimizada de Zabbix con problemas, hosts y métricas de monitoreo
Zabbix anonimizado: vista global de problemas, hosts y estado operativo.
Resumen anonimizado de Nagios con grupos de hosts, servicios y estado de chequeos
Nagios anonimizado: resumen de estado para hosts y servicios críticos.
Dashboard anonimizado de Grafana con métricas de tráfico, CPU, memoria y almacenamiento
Grafana anonimizado: métricas operativas de tráfico, recursos y disponibilidad.

Resultados