Incident Management

Инфраструктурные практики incident-management
Описание

Управление инцидентами — это процесс, используемый командами для реагирования на инциденты. Инцидент — событие, не являющееся частью нормального функционирования системы, которое привело или может привести к нарушению или снижению качества предоставления ИТ-услуг. Инцидент можно определить как событие, которое приводит к сбою или снижению качества обслуживания, требующему экстренного реагирования.

Ценность
Преимущества:
  • Целью процесса управления инцидентами является скорейшее восстановление нормального функционирования системы и предоставления услуг, минимизация влияния Инцидентов на бизнес в дальнейшем. Инцидент разрешается, когда затронутая служба возобновляет работу в предполагаемом состоянии.
Последствия отсутствия:
  • Инциденты становятся повторяющимися,
  • инциденты могут принять массовый характер,
  • у команды нет понимания причин возникновения инцидентов и способов их устранения,
  • инциденты могут затронуть смежные системы и негативно повлиять на их функционирование,
  • команда тратит значительные ресурсы на устранение каждого нового инцидента,
  • система несет риски для бизнеса.
Критерии оценки 24
SURVEY

Простой вопрос?

Варианты по умолчанию: Да / Нет / Частично
SURVEY

Вопрос с несколькими вариантами ответа?

Варианты ответа:
  • +1 Вариант 1
  • 0 Вариант 2
  • -1 Вариант 3
CHECK

Регистрация - Ведение журнала инцидентов (т. е. заявки) включает: имя человека, сообщившего о происшествии, - дата и время сообщения о происшествии, - описание инцидента (что не работает или работает неправильно), - уникальный идентификационный номер, присвоенный инциденту, для его дальнейшего отслеживания, - регистрация инцидентов должна быть интуитивно понятной и канал регистрации должен быть только один.

CHECK

Категоризация - назначение интуитивно понятной категории (и, при необходимости, подкатегории) каждому происшествию. Это помогает анализировать данные на наличие тенденций и шаблонов, что является важной частью эффективного управления проблемами и предотвращения будущих инцидентов.

CHECK

Приоритизация - каждое происшествие должно быть приоритетным. Начните с оценки его влияния на бизнес, количества людей, которые будут затронуты, любых применимых соглашений об уровне обслуживания, а также потенциальных финансовых последствий инцидента, безопасности и соблюдения нормативных требований. Сравните этот инцидент со всеми другими открытыми инцидентами, чтобы определить его относительный приоритет.

CHECK

Реагирование: - Первоначальная диагностика - в некоторых командах поддержка первой линии может отслеживать инцидент от диагностики до закрытия. Если это невозможно, то следующим шагом будет регистрация всей соответствующей информации и передача ее команде следующего уровня. - Эскалация - следующая команда берет зарегистрированные данные и продолжает процесс диагностики, и, если эта следующая команда не может диагностировать инцидент, она переходит к следующей команде. - Общение - команда регулярно делится обновлениями с затронутыми внутренними и внешними заинтересованными сторонами. - Расследование и диагностика - продолжается до тех пор, пока не будет установлена ​​природа инцидента. Иногда команды привлекают внешние ресурсы или других сотрудников отдела для консультаций и помощи в решении проблемы. - Разрешение и восстановление - на этом этапе команда ставит диагноз и выполняет необходимые действия для разрешения инцидента. - Восстановление просто подразумевает количество времени, которое может потребоваться для полного восстановления операций, поскольку некоторые исправления (например, исправления ошибок и т. д.) могут потребовать тестирования и развертывания даже после того, как правильное решение было определено. - Закрытие - если инцидент был эскалирован, он передается обратно в службу поддержки для закрытия. Для поддержания качества и обеспечения бесперебойного процесса только сотрудники службы поддержки могут закрывать инциденты, и владелец инцидента должен связаться с лицом, сообщившим об инциденте, чтобы подтвердить, что решение является удовлетворительным и инцидент действительно может быть закрыт;

CHECK

Команда регулярно проводит анализ «всплесков» количества инцидентов, особенно после выкатки изменений в PROD-окружение.

CHECK

Определен и зафиксирован процесс управления инцидентами

CHECK

Определена и зафиксирована классификация инцидентов

CHECK

Инциденты доступны для всей команды в единой системе регистрации инцидентов

CHECK

Определены и зафиксированы роли и обязанности в процессе реагирования на инциденты

CHECK

Используется автоматизация для обработки или эскалации инцидента

CHECK

Определены и зафиксированы каналы внутри и вне компании для информирования об инциденте

CHECK

Проводится post-mortem для анализа действий после каждого инцидента

CHECK

Проводятся регулярные учения по реагированию на инциденты

CHECK

Используется инструменты автоматической диагностики и устранения некоторых типов инцидентов

CHECK

Производится ли замер среднего времени восстановления системы(MTTR)

CHECK

Определены и зафиксированы цели по времени реакции на инцидент(SLA)

CHECK -1

команда не обладает инструментами мониторинга и алертинга - нет системы раннего оповещения об инциденте или вероятном его наступлении;

CHECK -1

поступившие инциденты не регистрируются или это делается нерегулярно;

CHECK -1

у команды нет согласованного перечня мер и шагов по диагностике проблемы, ее решению и устранению;

CHECK -1

критичные инциденты остаются без указания корневой причины;

CHECK -1

команда не соблюдает SLA, высокие инциденты не закрываются больше месяца;

CHECK -1

команда не проводит анализ Post-mortem.

Ресурсы 1
Метаданные
ID:
b1c7faf9-d0cf-47cb-ba15-8d3f7f70917b
Slug:
incident-management
Версия:
2.0
Проекты:
Pravo(tech) Naumen
Критерии:
2 survey 22 check
Создано:
2026-04-30
Обновлено:
2026-04-30