← Процессы ITIL

Event Management: от мониторинга к автоматическим инцидентам

Мониторинг есть почти у всех — Zabbix, Prometheus, заббикс-подобные системы шлют сотни сообщений в день. Но между «алерт прилетел» и «инцидент в работе» обычно зияет дыра: письма теряются в почте, дежурный глушит уведомления, реальный сбой замечают по звонку пользователя. Event Management — практика, которая превращает поток событий в управляемый вход для поддержки: классифицирует, отсеивает шум, коррелирует и при необходимости автоматически заводит инцидент. Разбираем, как это устроить.

10 мин чтения Команда TIQQET
ITILEvent ManagementМониторингАвтоматизация
Event Management: от мониторинга к автоматическим инцидентам

Событие, алерт, инцидент — это не одно и то же

В ITIL 4 событие (event) — любое изменение состояния, значимое для управления услугой. Не каждое событие — проблема. Классическая классификация по типам:

Ошибка большинства внедрений — гнать ВСЕ события как алерты и все алерты как инциденты. Получается шум, в котором тонет реальный exception. Event Management начинается с классификации: какие события вообще достойны реакции, а какие — просто запись в лог.

Фильтрация шума и корреляция

Главная ценность Event Management — не «создать тикет на каждый чих», а наоборот: превратить 500 алертов в 3 инцидента. Инструменты:

Без фильтрации авто-создание инцидентов делает только хуже: дежурный получает 50 тикетов и перестаёт смотреть на любой. Сначала шумоподавление — потом автоматизация.

Автоматическое создание инцидента

Когда событие классифицировано как exception и прошло фильтры — оно становится инцидентом автоматически, без участия человека. Типовой путь интеграции в helpdesk:

Мониторинг (Zabbix/Prometheus Alertmanager)
   │  webhook при срабатывании правила
   ▼
ServiceDesk: POST /api/... (или входящий webhook)
   │  маппинг: severity → приоритет, host → услуга/CI
   ▼
Авто-инцидент: назначен на дежурную команду, SLA пошёл

Ключевое — маппинг полей: severity алерта → приоритет инцидента, имя хоста/сервиса → услуга и затронутый CI из CMDB. Тогда инцидент сразу маршрутизируется на нужную команду с правильным SLA. В TIQQET это делается через входящие webhooks/API — Alertmanager шлёт JSON, система создаёт заявку.

Авто-закрытие и обратная связь

Зрелый Event Management работает в обе стороны. Если мониторинг прислал «recovery» (сервис снова доступен) — инцидент, созданный автоматически и ещё никем не взятый, можно автоматически закрыть (флапнул на секунду — не дёргаем людей). Но осторожно:

Метрика здоровья процесса — доля авто-созданных инцидентов, подтверждённых как реальные (signal-to-noise). Если 90% авто-инцидентов закрываются как ложные — пороги и корреляция настроены плохо.

С чего начать

Внедрять Event Management имеет смысл поэтапно, не «подключить всё и сразу»:

  1. Только критичные сервисы. 5–10 ключевых услуг, по которым простой реально больно. Не весь парк серверов.
  2. Сначала уведомление, потом авто-создание. На первом этапе алерт → уведомление дежурному (он сам решает, заводить ли инцидент). Когда правила отлажены — включаем авто-создание.
  3. Маппинг host → услуга. Без связи алерта с услугой/CI авто-инцидент бесполезен (некуда маршрутизировать). Это требует актуальной карты услуг.
  4. Ревизия раз в месяц. Смотрите топ шумных правил и глушите/правьте их.

Event Management — это мост между «железной» observability и «процессным» ServiceDesk. Сделанный аккуратно, он сокращает время обнаружения сбоя с «когда позвонит пользователь» до «через минуту после события».

Попробуйте TIQQET в деле

On-premise ServiceDesk с полным циклом заявок, SLA-контролем и мобильными приложениями. Развёртывание за 1 день.

Посмотреть демо

Частые вопросы

Чем событие отличается от инцидента?

Событие — любое значимое изменение состояния (бэкап, деплой, рост метрики). Инцидент — только незапланированное нарушение работы услуги. Большинство событий информационные и инцидентом не становятся — их нужно классифицировать, а не заводить тикет на каждое.

Стоит ли создавать инцидент на каждый алерт?

Нет. Сначала фильтрация: дедупликация, подавление в окнах обслуживания, корреляция связанных алертов, пороги с гистерезисом. Цель — превратить сотни алертов в единицы реальных инцидентов, иначе дежурный перестанет реагировать на любой.

Как связать мониторинг с ServiceDesk?

Через webhook/API: система мониторинга (например, Prometheus Alertmanager) шлёт JSON при срабатывании правила, ServiceDesk создаёт инцидент, маппя severity→приоритет и host→услугу/CI для маршрутизации и SLA.

Можно ли автоматически закрывать инциденты?

Только авто-созданные и ещё не взятые в работу, по сигналу recovery от того же правила. Взятый оператором инцидент закрывает человек. Повторяющийся flapping не закрывайте молча — это сигнал завести проблему.

С чего начать внедрение Event Management?

С 5–10 критичных услуг, сначала в режиме уведомлений (без авто-создания), с обязательным маппингом host→услуга и ежемесячной ревизией шумных правил. Расширять по мере отладки.