Практики
Всего найдено: 18 практик
Alerting
Наблюдение/Инциденты Алертинг, Оповещения
Инструменты мониторинга создают оповещения об инцидентах, чтобы уведомить команду об изменениях, опасных действиях или сбоях в ИТ-среде. Цель ИТ-оповещений заключается в том, чтобы быстро выявлять и ...
Audit
Наблюдение/Инциденты Альтернативное название
Audit (аудит) в ИТ используется для контроля, анализа и отслеживания активности пользователей, систем и приложений. Основной задачей является выявление аномалий, отслеживание изменений конфигурации и ...
Capacity management
Наблюдение/Инциденты Альтернативное название
Процесс управления ресурсами ИТ-систем для обеспечения их достаточности под текущие и прогнозируемые нагрузки, оптимизации производительности и минимизации затрат.
Cascade failure
Наблюдение/Инциденты Альтернативное название
Ситуация, когда сбой в одном компоненте системы вызывает цепную реакцию сбоев в других компонентах, приводя к масштабным отказам.
Disaster recovery
Наблюдение/Инциденты Альтернативное название
Ситуация, когда сбой в одном компоненте системы вызывает цепную реакцию сбоев в других компонентах, приводя к масштабным отказам.
Error budget
Наблюдение/Инциденты Альтернативное название
Допустимый лимит сбоев или недоступности системы, который балансирует потребность в стабильности и скорости внедрения новых функций.
Health Checks
Наблюдение/Инциденты Проверка здоровья
Практика, при которой каждый сервис отдает свое состояние (работает, частично не работает, не работает) оркестратору, который производит перезапуск сервиса или выводит его из балансировки при необходи...
Load Balancing
Наблюдение/Инциденты Балансировка нагрузки
Метод распределения входящего сетевого трафика или вычислительных задач между несколькими серверами для обеспечения высокой доступности и оптимальной производительности.
Load Balancing
Наблюдение/Инциденты Альтернативное название
Процесс выявления и устранения корневых причин повторяющихся инцидентов для предотвращения их возникновения в будущем.
Monitoring
Наблюдение/Инциденты Альтернативное название
Практика сбора и анализа системных и бизнес метрик приложения.
Observability
Наблюдение/Инциденты Наблюдаемость
Obsevability (наблюдаемость) — это способность измерять текущее состояние системы на основе генерируемых ею данных, таких как журналы, метрики и трассировки. Observability — это показатель того, наск...
Post-mortem
Наблюдение/Инциденты Альтернативное название
Post-mortem — это задокументированный отчет об инциденте, его последствиях, предпринятых действиях для минимизации или устранения причин, а также предотвращения повторения инцидента. Ретроспективны...
Visualization and metrics
Наблюдение/Инциденты Альтернативное название
Визуализация бизнес и системных метрик, аналитических данных из логов, построение дашбордов.
Дежурство
Наблюдение/Инциденты Альтернативное название
Организация дежурств сотрудников, которые круглосуточно готовы реагировать на инциденты и оперативно восстанавливать работоспособность систем. Это ключевой компонент стратегии высокой доступности и на...