← Культура и процессы

Blameless postmortem: разбор инцидентов без поиска виноватых

После серьёзного сбоя есть два пути. Первый — найти виноватого, наказать, отчитаться «меры приняты» — и гарантированно получить тот же сбой через полгода, потому что реальная причина осталась в системе. Второй — blameless postmortem: разобрать, как система допустила ошибку, и починить систему, а не человека. Разбираем, почему «безвинный» разбор эффективнее, как устроен документ постмортема и как сделать так, чтобы за разбором следовали изменения, а не благие намерения.

9 мин чтения Команда TIQQET
ПостмортемIncident ManagementКультураContinual Improvement
Blameless postmortem: разбор инцидентов без поиска виноватых

Почему именно blameless

Идея blameless-постмортема не в том, что «никто не виноват из вежливости». Она в признании факта: почти любая крупная ошибка — это сбой системы, а не злой умысел человека. Инженер удалил прод-базу не потому что хотел, а потому что система позволила выполнить опасную команду без подтверждения, под уставшим взглядом в конце смены.

Что даёт отказ от поиска виноватых:

Blameless не означает «без ответственности». Ответственность есть — но коллективная и направленная на исправление системы, а не на наказание исполнителя.

Структура документа постмортема

Хороший постмортем — это документ с предсказуемой структурой, который можно прочитать через год и понять, что произошло:

  1. Краткое резюме. Что случилось, кого затронуло, сколько длилось — в 3–4 предложениях.
  2. Влияние (impact). Сколько пользователей, какие услуги, потери (время, деньги, репутация).
  3. Хронология (timeline). Минута за минутой: когда началось, когда заметили, когда взяли в работу, ключевые действия, когда восстановили. Это самая ценная часть — она вскрывает, где терялось время.
  4. Первопричина (root cause). Не «упал сервер», а почему упал и почему это вообще было возможно. Техника «5 почему» помогает дойти до системного уровня.
  5. Что сработало / что нет. Честно: где процесс помог, а где мешал.
  6. Action items. Конкретные задачи с владельцами и сроками.

Связка с управлением инцидентами прямая: постмортем делают для значимых инцидентов (P1, повторяющиеся), а найденная первопричина уходит в Problem Management.

Как вести разбор

Постмортем — это встреча, и от фасилитации зависит, будет он честным или превратится в трибунал:

Чтобы за разбором следовали изменения

Главная болезнь постмортемов — красивый документ, который никто не дочитал до внедрения. Признаки живого процесса:

Хороший постмортем стоит дорого (час времени нескольких инженеров), но один предотвращённый повторный P1 окупает десяток разборов.

Попробуйте TIQQET в деле

On-premise ServiceDesk с полным циклом заявок, SLA-контролем и мобильными приложениями. Развёртывание за 1 день.

Посмотреть демо

Частые вопросы

Что значит blameless postmortem?

Разбор инцидента без поиска и наказания виноватого. Фокус на вопросе «почему система допустила ошибку», а не «кто виноват». Это даёт честные данные и реальную защиту от повторения вместо смены стрелочника.

Blameless — это значит без ответственности?

Нет. Ответственность есть, но коллективная и направленная на исправление системы, а не на наказание исполнителя. Почти любая крупная ошибка — это сбой системы, который позволил человеку ошибиться.

Что обязательно должно быть в постмортеме?

Резюме, влияние, хронология (timeline) минута за минутой, первопричина (root cause), что сработало/что нет, и action items с владельцами и сроками. Timeline — самая ценная часть, она показывает, где терялось время.

Когда проводить разбор после инцидента?

Через 1–3 дня: детали ещё свежи, но эмоции улеглись. Вести должен фасилитатор, не участвовавший в инциденте, следящий за системным (не персональным) тоном обсуждения.

Как сделать, чтобы постмортем приводил к изменениям?

Action items должны иметь владельца и срок, уходить в реестр улучшений и отслеживаться как обычная работа. Полезна метрика доли выполненных action items — если она низкая, разборы стали ритуалом без последствий.