Метрики и алерты
📊 Метрики
Метрика — числовой показатель, отражающий состояние системы.
📌 Примеры:
- Загрузка CPU, использование RAM
- Аптайм, отклик сервера
- Кол-во HTTP 5xx ошибок
- Время ответа базы данных
- Количество активных сессий
🔹 Метрики бывают:
- Системные (инфраструктура)
- Прикладные (сервисы и приложения)
- Бизнесовые (доход, заказы, клики)
🚨 Алерты
Алерт — автоматическое уведомление о нарушении условия.
📌 Примеры:
- CPU > 90% дольше 5 минут
- Время ответа > 1 сек
- 10+ ошибок входа за 1 мин
🔹 Виды алертов:
- Пороговые (по значению)
- Аномалии (отклонения от нормы)
- Составные (набор условий)
Событие != алерт
✅ Лучшие практики
- Сначала метрики → потом алерты
- Не алертим на шум
- Используем SLO для настройки алертов
SLI, SLO, SLA - Каждый алерт = конкретное действие