Alerting

Наблюдение/Инциденты alerting
Описание

Инструменты мониторинга создают оповещения об инцидентах, чтобы уведомить команду об изменениях, опасных действиях или сбоях в ИТ-среде. Цель ИТ-оповещений заключается в том, чтобы быстро выявлять и решать проблемы, влияющие на время безотказной работы, скорость и функциональные возможности продукта, причем делать это круглосуточно и без использования ручного режима мониторинга.

Ценность
Критерии оценки 17
SURVEY

Простой вопрос?

Варианты по умолчанию: Да / Нет / Частично
SURVEY

Вопрос с несколькими вариантами ответа?

Варианты ответа:
  • +1 Вариант 1
  • 0 Вариант 2
  • -1 Вариант 3
CHECK

Наличие ранбуков в алертах.

CHECK

Алерты настроены для всех критически важных компонентов для работы системы.

CHECK

До дежурного доходят оповещения об эскалации проблемы по различным каналам (sms, email, звонок).

CHECK

Отсутствуют ложные срабатывания алертов или их минимальное количество.

CHECK

Существуют механизмы автоматической реакции на алерты.

CHECK

Каналы оповещения об алертах тестируются.

CHECK

По алерту можно однозначно определить какой компонент системы сломался.

CHECK

Осуществляется контроль за частотой отправляемых алертов.

CHECK

Определены и зафиксированы правила по созданию алертов.

CHECK

Определен и зафиксирован механизм актуализации алертов.

CHECK

Алерты хранятся as a code.

CHECK

Определены и зафиксированы правила по эскалации.

CHECK -1

Alert Fatigue. Усталость от оповещений (т. е. сигналов тревоги) возникает, когда из-за чрезмерного количества оповещений у людей, ответственных за реагирование на инциденты, притупляются чувства и они начинают пропускать или игнорировать оповещения или реагировать на них с задержкой.

CHECK -1

Проблема с количеством оповещений — реагировать на одно оповещение несложно, даже если из-за него дежурному приходится прервать обычную работу или досуг. Реагировать на десяток оповещений подряд сложнее. И чем больше их становится, тем больше риск того, что сотрудник упустит нечто важное.

CHECK -1

Многие оповещения оказываются ложной тревогой, что усугубляет проблему.

Ресурсы 1
  • Модуль Deckhouse Prometheus+Grafana предоставляет готовый набор правил оповещений для всей инфраструктуры Deckhouse [URL - https://deckhouse.ru/products/kubernetes-platform/documentation/v1.67/modules/prometheus/]
Метаданные
ID:
c46c40c3-8499-45d7-9987-4e24df8f2cb7
Slug:
alerting
Версия:
2.0
Проекты:
Pravo(tech) Naumen
Критерии:
2 survey 15 check
Создано:
2026-04-30
Обновлено:
2026-04-30