Что считать Major Incident
Критерии должны быть формализованы и согласованы с бизнесом до того, как произойдёт первый инцидент. Типовые признаки (любой → Major):
- Сервис недоступен для всех пользователей — продакшен лежит, нельзя работать.
- Финансовые потери начинают накапливаться (e-commerce не принимает заказы, банковские операции остановлены).
- Регуляторный риск — нарушение SLA по контракту с клиентом, под угрозой штраф.
- Утечка / нарушение безопасности — потенциально или фактически.
- Внимание медиа / соцсетей — про инцидент пишут в публичном поле.
Не критерии: «руководитель кричит», «сложная техническая задача», «не понятно, как чинить». Это всё может быть, но это не делает инцидент Major. Цель формализации — чтобы при объявлении Major все понимали, какой level эскалации включается, и не путали со сложным P2.
Роли в Major Incident
Три критичные роли, которые должны быть назначены сразу:
- Incident Manager (IM) — координатор. НЕ чинит. Его задача: знать что происходит, кто что делает, время следующего обновления. Дежурный IM назначается на смены 24/7.
- Technical Lead — главный технический специалист. Принимает решения по диагностике и фиксу. Может меняться по ходу инцидента (сначала сетевик, потом разработчик).
- Communication Lead — общение с пользователями, бизнесом, медиа. Готовит и публикует обновления каждые 15-30 минут на status page и в внутренние каналы.
В малых компаниях все три роли может совмещать один человек, но это плохо: коммуникация выпадает первой. На зрелых процессах роли разделены даже на командах из 5-7 человек.
War room и формат коммуникации
War room — это выделенный канал (физический или виртуальный), где работают все вовлечённые в инцидент. На современном стеке это:
- Отдельный Slack/Mattermost-канал, создаваемый автоматически:
#incident-2026-05-12-payments - Видеоконф с открытым микрофоном (Zoom/Telegram) — для синхронной координации
- Live-документ (Google Docs / Notion) с timeline: что произошло, когда, что предпринято
Важное правило: «no chatter in war room». Только статусы и решения. Обсуждения деталей — в DM или отдельных нитях. War room — это место для координации, не для технической работы.
Формат сообщений каждые N минут:
[14:35] IM: Status update
Impact: Payment service полностью недоступен, ~5000 транзакций/мин затронуто
Action: команда DBA откатывает миграцию schema_migrations
ETA: следующее обновление через 15 минут
Типовой timeline Major Incident
| Минута | Что происходит |
|---|---|
| T+0 | Мониторинг или пользователь сообщил о проблеме. Создаётся заявка. |
| T+5 | L1 распознаёт критерии Major, эскалирует на дежурного IM. Объявляется Major. |
| T+10 | IM создаёт war room, назначает Tech Lead и Comm Lead. На status page появляется первое сообщение «расследуем». |
| T+15 | Tech Lead начинает диагностику. Comm Lead уведомляет ключевых stakeholders (CEO, ключевые клиенты). |
| T+30…T+N | Каждые 15-30 минут обновление в war room и на status page. IM ведёт timeline. |
| T+N | Сервис восстановлен. IM объявляет «сервис восстановлен, наблюдаем». Не закрывает инцидент. |
| T+N+30 | Стабильность подтверждена. IM объявляет «инцидент закрыт». Запускается процесс постмортема. |
| T+24…72ч | Постмортем: timeline, root cause, action items. |
Постмортем без поиска виноватых
Постмортем (post-incident review) — это разбор инцидента. Цель: понять, почему произошло, и предотвратить повторение. Не — найти виноватого.
Принцип blameless: писать в формате «процесс не справился», а не «Иван не справился». Если Иван нажал не ту кнопку — почему процесс позволил ему её нажать без подтверждения? Это вопрос к процессу, не к Ивану.
Структура постмортема:
- Резюме — что произошло, длительность, impact (1–2 абзаца).
- Timeline — хронология событий с временными метками. Берётся из live-документа war room.
- Root cause analysis — методом «5 почему» или Ishikawa. Корневая причина обычно не техническая («поломался диск»), а процессная («нет мониторинга предотказного состояния дисков»).
- Что сработало хорошо — обязательный раздел. Команды забывают фиксировать удачные решения.
- Что сработало плохо — без личных нападок.
- Action items — конкретные задачи с владельцами и сроками. Без action items постмортем — это литература.
Хороший постмортем — публичный. Его читают все инженеры компании, в том числе те, кто к инциденту отношения не имел — учатся на чужих ошибках.
Попробуйте TIQQET в деле
On-premise ServiceDesk с полным циклом заявок, SLA-контролем и мобильными приложениями. Развёртывание за 1 день.
Частые вопросы
Чем Major Incident отличается от обычного P1?
P1 — это приоритет (срочно, критично). Major Incident — это процесс с выделенными ролями и обязательной коммуникацией. Не всякий P1 объявляется Major; критерий — бизнес-impact, а не приоритет.
Сколько длится Major Incident?
От 15 минут до нескольких часов. Дольше 4 часов — это уже не «инцидент», а кризис; включается отдельный план реагирования с участием руководства.
Что такое postmortem?
Разбор инцидента после восстановления. Включает timeline, root cause и action items. Главное правило — blameless: ищем процессные причины, не виноватых.
Кто такой Incident Manager?
Координатор инцидента. Не чинит, а управляет: знает кто что делает, ведёт timeline, обеспечивает коммуникацию. На больших командах эта роль 24/7 на дежурстве.
Нужен ли status page для внутренней поддержки?
Да, если есть пользователи > 200 человек. Можно простую страницу с тремя статусами «работает / медленно / не работает» по основным сервисам. Это снижает число одинаковых заявок в момент сбоя в 5-10 раз.