📊 Метрики

Метрика — числовой показатель, отражающий состояние системы.

📌 Примеры:

  • Загрузка CPU, использование RAM
  • Аптайм, отклик сервера
  • Кол-во HTTP 5xx ошибок
  • Время ответа базы данных
  • Количество активных сессий

🔹 Метрики бывают:

  • Системные (инфраструктура)
  • Прикладные (сервисы и приложения)
  • Бизнесовые (доход, заказы, клики)

🚨 Алерты

Алерт — автоматическое уведомление о нарушении условия.

📌 Примеры:

  • CPU > 90% дольше 5 минут
  • Время ответа > 1 сек
  • 10+ ошибок входа за 1 мин

🔹 Виды алертов:

  • Пороговые (по значению)
  • Аномалии (отклонения от нормы)
  • Составные (набор условий)

Событие != алерт


✅ Лучшие практики

  • Сначала метрики → потом алерты
  • Не алертим на шум
  • Используем SLO для настройки алертов
    SLI, SLO, SLA
  • Каждый алерт = конкретное действие