Event Management: от мониторинга к автоматическим инцидентам

Событие, алерт, инцидент — это не одно и то же

В ITIL 4 событие (event) — любое изменение состояния, значимое для управления услугой. Не каждое событие — проблема. Классическая классификация по типам:

Информационные — «бэкап выполнен», «деплой прошёл». Логируем, не реагируем.
Предупреждения (warning) — «диск заполнен на 80%», «латентность растёт». Порог приближается — стоит вмешаться до сбоя.
Исключения (exception) — «сервис не отвечает», «диск 100%». Это уже сбой → кандидат на инцидент.

Ошибка большинства внедрений — гнать ВСЕ события как алерты и все алерты как инциденты. Получается шум, в котором тонет реальный exception. Event Management начинается с классификации: какие события вообще достойны реакции, а какие — просто запись в лог.

Фильтрация шума и корреляция

Главная ценность Event Management — не «создать тикет на каждый чих», а наоборот: превратить 500 алертов в 3 инцидента. Инструменты:

Дедупликация — 200 одинаковых алертов «сервер X недоступен» за 10 минут = один инцидент, а не 200.
Подавление в окно обслуживания — во время планового релиза алерты по затронутым сервисам глушатся (иначе ночной деплой = шквал ложных инцидентов).
Корреляция — «упал балансировщик» + «5 бэкендов недоступны» = один корневой инцидент по балансировщику, а не шесть.
Пороги и гистерезис — алерт только если метрика держится выше порога N минут, не на мгновенном спайке.

Без фильтрации авто-создание инцидентов делает только хуже: дежурный получает 50 тикетов и перестаёт смотреть на любой. Сначала шумоподавление — потом автоматизация.

Автоматическое создание инцидента

Когда событие классифицировано как exception и прошло фильтры — оно становится инцидентом автоматически, без участия человека. Типовой путь интеграции в helpdesk:

Мониторинг (Zabbix/Prometheus Alertmanager)
   │  webhook при срабатывании правила
   ▼
ServiceDesk: POST /api/... (или входящий webhook)
   │  маппинг: severity → приоритет, host → услуга/CI
   ▼
Авто-инцидент: назначен на дежурную команду, SLA пошёл

Ключевое — маппинг полей: severity алерта → приоритет инцидента, имя хоста/сервиса → услуга и затронутый CI из CMDB. Тогда инцидент сразу маршрутизируется на нужную команду с правильным SLA. В TIQQET это делается через входящие webhooks/API — Alertmanager шлёт JSON, система создаёт заявку.

Авто-закрытие и обратная связь

Зрелый Event Management работает в обе стороны. Если мониторинг прислал «recovery» (сервис снова доступен) — инцидент, созданный автоматически и ещё никем не взятый, можно автоматически закрыть (флапнул на секунду — не дёргаем людей). Но осторожно:

Авто-закрывать стоит только инциденты, которые никто не взял в работу и которые были созданы тем же правилом. Взятый оператором инцидент закрывает человек.
Серия «упал → поднялся → упал» (flapping) — это не «всё ок», а сигнал нестабильности. Такой паттерн лучше эскалировать в проблему, а не молча авто-закрывать каждый раз.

Метрика здоровья процесса — доля авто-созданных инцидентов, подтверждённых как реальные (signal-to-noise). Если 90% авто-инцидентов закрываются как ложные — пороги и корреляция настроены плохо.

С чего начать

Внедрять Event Management имеет смысл поэтапно, не «подключить всё и сразу»:

Только критичные сервисы. 5–10 ключевых услуг, по которым простой реально больно. Не весь парк серверов.
Сначала уведомление, потом авто-создание. На первом этапе алерт → уведомление дежурному (он сам решает, заводить ли инцидент). Когда правила отлажены — включаем авто-создание.
Маппинг host → услуга. Без связи алерта с услугой/CI авто-инцидент бесполезен (некуда маршрутизировать). Это требует актуальной карты услуг.
Ревизия раз в месяц. Смотрите топ шумных правил и глушите/правьте их.

Event Management — это мост между «железной» observability и «процессным» ServiceDesk. Сделанный аккуратно, он сокращает время обнаружения сбоя с «когда позвонит пользователь» до «через минуту после события».

Попробуйте TIQQET в деле

On-premise ServiceDesk с полным циклом заявок, SLA-контролем и мобильными приложениями. Развёртывание за 1 день.

Посмотреть демо

Частые вопросы

Чем событие отличается от инцидента?

Событие — любое значимое изменение состояния (бэкап, деплой, рост метрики). Инцидент — только незапланированное нарушение работы услуги. Большинство событий информационные и инцидентом не становятся — их нужно классифицировать, а не заводить тикет на каждое.

Стоит ли создавать инцидент на каждый алерт?

Нет. Сначала фильтрация: дедупликация, подавление в окнах обслуживания, корреляция связанных алертов, пороги с гистерезисом. Цель — превратить сотни алертов в единицы реальных инцидентов, иначе дежурный перестанет реагировать на любой.

Как связать мониторинг с ServiceDesk?

Через webhook/API: система мониторинга (например, Prometheus Alertmanager) шлёт JSON при срабатывании правила, ServiceDesk создаёт инцидент, маппя severity→приоритет и host→услугу/CI для маршрутизации и SLA.

Можно ли автоматически закрывать инциденты?

Только авто-созданные и ещё не взятые в работу, по сигналу recovery от того же правила. Взятый оператором инцидент закрывает человек. Повторяющийся flapping не закрывайте молча — это сигнал завести проблему.

С чего начать внедрение Event Management?

С 5–10 критичных услуг, сначала в режиме уведомлений (без авто-создания), с обязательным маппингом host→услуга и ежемесячной ревизией шумных правил. Расширять по мере отладки.