← Управление инцидентами

Major Incident Management: процесс работы с критическими сбоями

Major Incident — это инцидент, который не помещается в обычный workflow поддержки: затрагивает критичный для бизнеса сервис, ложит производство, попадает в новости. Работа по такому инциденту — отдельный процесс с выделенными ролями и обязательными шагами. Если этого процесса нет, в момент крупного сбоя команда работает в режиме «все бегают, никто не понимает что происходит» — а пользователь видит молчание и не знает, починят ли вообще.

10 мин чтения Команда TIQQET
Major IncidentWar roomПостмортемITIL
Major Incident Management: процесс работы с критическими сбоями Major Incident Management: процесс работы с критическими…

Что считать Major Incident

Критерии должны быть формализованы и согласованы с бизнесом до того, как произойдёт первый инцидент. Типовые признаки (любой → Major):

Не критерии: «руководитель кричит», «сложная техническая задача», «не понятно, как чинить». Это всё может быть, но это не делает инцидент Major. Цель формализации — чтобы при объявлении Major все понимали, какой level эскалации включается, и не путали со сложным P2.

Роли в Major Incident

Три критичные роли, которые должны быть назначены сразу:

  1. Incident Manager (IM) — координатор. НЕ чинит. Его задача: знать что происходит, кто что делает, время следующего обновления. Дежурный IM назначается на смены 24/7.
  2. Technical Lead — главный технический специалист. Принимает решения по диагностике и фиксу. Может меняться по ходу инцидента (сначала сетевик, потом разработчик).
  3. Communication Lead — общение с пользователями, бизнесом, медиа. Готовит и публикует обновления каждые 15-30 минут на status page и в внутренние каналы.

В малых компаниях все три роли может совмещать один человек, но это плохо: коммуникация выпадает первой. На зрелых процессах роли разделены даже на командах из 5-7 человек.

War room и формат коммуникации

War room — это выделенный канал (физический или виртуальный), где работают все вовлечённые в инцидент. На современном стеке это:

Важное правило: «no chatter in war room». Только статусы и решения. Обсуждения деталей — в DM или отдельных нитях. War room — это место для координации, не для технической работы.

Формат сообщений каждые N минут:

[14:35] IM: Status update
Impact: Payment service полностью недоступен, ~5000 транзакций/мин затронуто
Action: команда DBA откатывает миграцию schema_migrations
ETA: следующее обновление через 15 минут

Типовой timeline Major Incident

МинутаЧто происходит
T+0Мониторинг или пользователь сообщил о проблеме. Создаётся заявка.
T+5L1 распознаёт критерии Major, эскалирует на дежурного IM. Объявляется Major.
T+10IM создаёт war room, назначает Tech Lead и Comm Lead. На status page появляется первое сообщение «расследуем».
T+15Tech Lead начинает диагностику. Comm Lead уведомляет ключевых stakeholders (CEO, ключевые клиенты).
T+30…T+NКаждые 15-30 минут обновление в war room и на status page. IM ведёт timeline.
T+NСервис восстановлен. IM объявляет «сервис восстановлен, наблюдаем». Не закрывает инцидент.
T+N+30Стабильность подтверждена. IM объявляет «инцидент закрыт». Запускается процесс постмортема.
T+24…72чПостмортем: timeline, root cause, action items.

Постмортем без поиска виноватых

Постмортем (post-incident review) — это разбор инцидента. Цель: понять, почему произошло, и предотвратить повторение. Не — найти виноватого.

Принцип blameless: писать в формате «процесс не справился», а не «Иван не справился». Если Иван нажал не ту кнопку — почему процесс позволил ему её нажать без подтверждения? Это вопрос к процессу, не к Ивану.

Структура постмортема:

  1. Резюме — что произошло, длительность, impact (1–2 абзаца).
  2. Timeline — хронология событий с временными метками. Берётся из live-документа war room.
  3. Root cause analysis — методом «5 почему» или Ishikawa. Корневая причина обычно не техническая («поломался диск»), а процессная («нет мониторинга предотказного состояния дисков»).
  4. Что сработало хорошо — обязательный раздел. Команды забывают фиксировать удачные решения.
  5. Что сработало плохо — без личных нападок.
  6. Action items — конкретные задачи с владельцами и сроками. Без action items постмортем — это литература.

Хороший постмортем — публичный. Его читают все инженеры компании, в том числе те, кто к инциденту отношения не имел — учатся на чужих ошибках.

Попробуйте TIQQET в деле

On-premise ServiceDesk с полным циклом заявок, SLA-контролем и мобильными приложениями. Развёртывание за 1 день.

Посмотреть демо

Частые вопросы

Чем Major Incident отличается от обычного P1?

P1 — это приоритет (срочно, критично). Major Incident — это процесс с выделенными ролями и обязательной коммуникацией. Не всякий P1 объявляется Major; критерий — бизнес-impact, а не приоритет.

Сколько длится Major Incident?

От 15 минут до нескольких часов. Дольше 4 часов — это уже не «инцидент», а кризис; включается отдельный план реагирования с участием руководства.

Что такое postmortem?

Разбор инцидента после восстановления. Включает timeline, root cause и action items. Главное правило — blameless: ищем процессные причины, не виноватых.

Кто такой Incident Manager?

Координатор инцидента. Не чинит, а управляет: знает кто что делает, ведёт timeline, обеспечивает коммуникацию. На больших командах эта роль 24/7 на дежурстве.

Нужен ли status page для внутренней поддержки?

Да, если есть пользователи > 200 человек. Можно простую страницу с тремя статусами «работает / медленно / не работает» по основным сервисам. Это снижает число одинаковых заявок в момент сбоя в 5-10 раз.