
Почему именно blameless
Идея blameless-постмортема не в том, что «никто не виноват из вежливости». Она в признании факта: почти любая крупная ошибка — это сбой системы, а не злой умысел человека. Инженер удалил прод-базу не потому что хотел, а потому что система позволила выполнить опасную команду без подтверждения, под уставшим взглядом в конце смены.
Что даёт отказ от поиска виноватых:
- Честные данные. Если за ошибку наказывают, люди скрывают детали и не сообщают о near-miss. Без честной картины невозможно найти настоящую причину.
- Фокус на системе. «Почему это было возможно?» вместо «кто это сделал?». Первый вопрос ведёт к защите от повторения, второй — к смене стрелочника.
- Доверие. Команда, которую не наказывают за честность, быстрее эскалирует и быстрее учится.
Blameless не означает «без ответственности». Ответственность есть — но коллективная и направленная на исправление системы, а не на наказание исполнителя.
Структура документа постмортема
Хороший постмортем — это документ с предсказуемой структурой, который можно прочитать через год и понять, что произошло:
- Краткое резюме. Что случилось, кого затронуло, сколько длилось — в 3–4 предложениях.
- Влияние (impact). Сколько пользователей, какие услуги, потери (время, деньги, репутация).
- Хронология (timeline). Минута за минутой: когда началось, когда заметили, когда взяли в работу, ключевые действия, когда восстановили. Это самая ценная часть — она вскрывает, где терялось время.
- Первопричина (root cause). Не «упал сервер», а почему упал и почему это вообще было возможно. Техника «5 почему» помогает дойти до системного уровня.
- Что сработало / что нет. Честно: где процесс помог, а где мешал.
- Action items. Конкретные задачи с владельцами и сроками.
Связка с управлением инцидентами прямая: постмортем делают для значимых инцидентов (P1, повторяющиеся), а найденная первопричина уходит в Problem Management.
Как вести разбор
Постмортем — это встреча, и от фасилитации зависит, будет он честным или превратится в трибунал:
- Сроки. Проводить через 1–3 дня после инцидента — пока детали свежи, но эмоции улеглись.
- Состав. Все причастные + фасилитатор, который не был участником инцидента и следит за тоном.
- Язык. «Команда задеплоила без проверки» вместо «Иван задеплоил без проверки». Системные формулировки, не персональные.
- Без «надо было». Задним числом всё очевидно. Разбираем, что человек знал в тот момент, а не что было бы правильно с высоты знания исхода (hindsight bias).
- Факты, потом выводы. Сначала восстанавливаем timeline по логам и фактам, и только потом обсуждаем причины.
Чтобы за разбором следовали изменения
Главная болезнь постмортемов — красивый документ, который никто не дочитал до внедрения. Признаки живого процесса:
- Action items с владельцем и сроком. «Улучшить мониторинг» — не задача. «Добавить алерт на заполнение диска >85%, владелец — Петров, до 15-го» — задача.
- Action items уходят в реестр улучшений. И отслеживаются как любая другая работа, а не теряются в документе.
- Публичность. Постмортемы доступны команде (и часто — пользователям в смягчённом виде). Это и обучение, и сигнал «мы серьёзно относимся к сбоям».
- Метрика follow-up. Доля выполненных action items по постмортемам. Если она низкая — разборы превратились в ритуал без последствий.
Хороший постмортем стоит дорого (час времени нескольких инженеров), но один предотвращённый повторный P1 окупает десяток разборов.
Попробуйте TIQQET в деле
On-premise ServiceDesk с полным циклом заявок, SLA-контролем и мобильными приложениями. Развёртывание за 1 день.
Частые вопросы
Что значит blameless postmortem?
Разбор инцидента без поиска и наказания виноватого. Фокус на вопросе «почему система допустила ошибку», а не «кто виноват». Это даёт честные данные и реальную защиту от повторения вместо смены стрелочника.
Blameless — это значит без ответственности?
Нет. Ответственность есть, но коллективная и направленная на исправление системы, а не на наказание исполнителя. Почти любая крупная ошибка — это сбой системы, который позволил человеку ошибиться.
Что обязательно должно быть в постмортеме?
Резюме, влияние, хронология (timeline) минута за минутой, первопричина (root cause), что сработало/что нет, и action items с владельцами и сроками. Timeline — самая ценная часть, она показывает, где терялось время.
Когда проводить разбор после инцидента?
Через 1–3 дня: детали ещё свежи, но эмоции улеглись. Вести должен фасилитатор, не участвовавший в инциденте, следящий за системным (не персональным) тоном обсуждения.
Как сделать, чтобы постмортем приводил к изменениям?
Action items должны иметь владельца и срок, уходить в реестр улучшений и отслеживаться как обычная работа. Полезна метрика доли выполненных action items — если она низкая, разборы стали ритуалом без последствий.