Problem Management: поиск и устранение корневых причин

Чем проблема отличается от инцидента

Эта путаница — самая распространённая в ITSM. Кратко:

Инцидент — неплановое нарушение работы услуги. Цель — восстановить работу как можно быстрее, даже через временное решение (workaround).
Проблема — корневая причина одного или нескольких инцидентов. Цель — устранить причину, чтобы инциденты больше не повторялись.

Пример: у пяти пользователей "зависает" Outlook (пять инцидентов). В каждом случае мы даём workaround — перезапустить клиент. Инциденты закрыты, пользователи работают. Но причина зависаний не устранена. Это проблема. Её создаёт Problem Manager, ведёт расследование, находит корневую причину (например, конфликт версии плагина), и устраняет её через изменение — обновление плагина. После этого инциденты прекращаются.

Важно понимать связь. Один инцидент → один workaround → быстрое закрытие. Много повторяющихся инцидентов → одна проблема → одно изменение → инциденты прекращаются. Подробнее — в статье о классификации обращений.

Реактивный и проактивный режим

Management проблем делится на два режима:

Реактивный Problem Management

Запускается по факту серии инцидентов. Аналитик видит, что один и тот же тип проблемы возникает 5–10 раз — заводит проблему и начинает расследование. Это 80–90% всей практической работы.

Триггеры для запуска реактивного расследования:

≥ 3 инцидента одного типа за неделю
Инцидент критичного уровня, даже если он единичный
Инцидент, длившийся больше 4 часов
Инцидент с массовым impact (> 20 пользователей)
Повторяющийся инцидент после "решения" прошлого раза

Проактивный Problem Management

Запускается до инцидентов, на основе анализа трендов и слабых мест инфраструктуры. Source:

Мониторинг: показатели близки к критическим порогам, но ещё не пересекли
Архитектурные reviews: инженер замечает, что система плохо масштабируется
Анализ данных: рост нагрузки на диск, близкая исчерпанность лицензий
Уроки из инцидентов в других компаниях / вендорские security bulletins

Проактивный режим требует зрелости и свободных ресурсов. В небольших командах почти не встречается. Норма — начинать реактивный, а проактивный добавлять, когда стабилизируется процесс.

Жизненный цикл проблемы

Регистрация — проблема создаётся с привязкой к инициирующему инциденту (или нескольким).
Классификация — тип, приоритет, владелец.
Расследование (root cause analysis) — методики см. ниже.
Временное решение (workaround) — документируется в базе знаний. Операторы L1 могут применять его к новым инцидентам.
Определение корневой причины — конкретная техническая или процессная первопричина.
Запрос на изменение (RFC) — для устранения корневой причины создаётся RFC, уходит в Change Management.
Внедрение изменения — по процессу из Change Management.
Валидация — через 2–4 недели после изменения проверяется, действительно ли инциденты перестали повторяться.
Закрытие проблемы — с отметкой о решении и ссылкой на внедрённое изменение.

Методики Root Cause Analysis

Метод «5 почему» (5 Whys)

Самый простой и самый эффективный метод для большинства задач. Задаём вопрос «почему?» пять раз подряд, углубляясь от симптома к причине.

Пример:

Симптом: Outlook зависает у 5 пользователей.
Почему? — Плагин архивации блокирует UI-поток при старте.
Почему? — Плагин синхронизируется с сервером в синхронном режиме.
Почему? — В версии 3.2 разработчики упустили async.
Почему? — Не было теста на пользователях с большим архивом.
Почему? — Чек-листа валидации на типовых окружениях.

Результат: корневая причина не «версия 3.2 сломана», а «нет процесса валидации плагинов на типовых окружениях». Решение — не откат версии, а внедрение процесса тестирования.

Диаграмма Исикавы (рыбья кость)

Визуальный метод, раскладывающий возможные причины по 6 категориям (на инженерном: «6M»):

Man — люди (квалификация, смены, человеческий фактор)
Method — процессы (регламенты, документация)
Machine — оборудование (серверы, сеть)
Material — данные (объём, целостность)
Measurement — мониторинг (есть ли метрики, алерты)
Environment — среда (нагрузка, расписание, внешние зависимости)

Подходит для сложных случаев с несколькими возможными причинами. Рисуется на доске в команде за 30 минут, помогает не пропустить ни одну гипотезу.

Временная шкала (Timeline Analysis)

Для сложных инцидентов выстраивается детальный timeline: что происходило в инфраструктуре за часы/дни до начала инцидента. Коррелирует с деплоями, изменениями конфигов, пиками нагрузки. Часто выявляет неочевидную связь типа «обновили библиотеку в 14:00 — проблема начала проявляться с 15:30».

Known Error Database (KEDB)

Known Error — это задокументированная проблема с известной корневой причиной и известным workaround'ом, которая пока не устранена полностью. Известные ошибки заносятся в специальную базу — KEDB.

Зачем это нужно:

Операторы L1 быстро узнают повторяющиеся инциденты и применяют готовое решение
Пользователи получают предсказуемый workaround, а не «расследуем, ждите»
Менеджмент видит список неустранённых проблем и принимает решения о приоритизации

В большинстве ITSM-систем KEDB — это часть базы знаний с отдельной категорией. Не требует отдельной системы.

Приоритизация проблем

В отличие от инцидентов, приоритет проблемы определяется не срочностью, а бизнес-impact. Типовая матрица:

Частота инцидентов	Impact каждого	Приоритет проблемы
Высокая (>10/мес)	Критичный	P1 — немедленно
Высокая	Средний	P2 — в течение 2 недель
Средняя (3–10/мес)	Критичный	P2
Средняя	Средний	P3 — в течение квартала
Низкая	Низкий	P4 — в бэклог

Метрики процесса

Доля закрытых проблем с устранённой корневой причиной (не через workaround)
Среднее время от создания проблемы до закрытия
Количество повторных инцидентов по "решённым" проблемам — должно стремиться к нулю
Проблемы в бэклоге по возрасту — сколько проблем старше 90 / 180 / 365 дней
Reopen rate проблем — сколько проблем возвращались в работу после закрытия

Типовые ошибки

Проблемы не заводятся вообще. Операторы закрывают инциденты, но никто не анализирует их повторяемость. Аварии возвращаются. Решение: еженедельный review инцидентов ответственным (Problem Manager или team lead).
Проблема закрыта через workaround. "Мы научились жить с этой ошибкой" — не решение. Корневая причина остаётся. Решение: явное разделение статусов «с workaround» и «полностью устранена».
Нет ответственного за проблему. Все "в курсе", но никто не двигает. Решение: обязательное поле Owner у каждой проблемы.
Проблемы без приоритизации. Вся работа уходит на последнюю громкую. Старые критичные проблемы годами висят без движения. Решение: P1/P2 проблемы разбираются на еженедельном review, P3/P4 — на квартальном.
Нет связи с RFC. Проблему «решают», не выполнив изменения. Через месяц возникает снова. Решение: проблема закрывается только после успешного внедрения связанного RFC.

Связь с Change Management

Большинство решений проблем реализуются через изменения. Типовая связка:

Инциденты → проблема (с привязкой инцидентов)
Расследование → workaround (в KEDB) → корневая причина
Создание RFC, связанного с проблемой
Одобрение CAB (см. Change Management)
Внедрение изменения
Валидация + закрытие проблемы

В ITSM-системе эта цепочка должна быть прослеживаема "одним кликом": от любого инцидента можно дойти до связанной проблемы и RFC. Это критично для аналитики "почему мы постоянно чиним одно и то же".

Когда начинать внедрять Problem Management

Problem Management — это не «первая» практика для внедрения. Логичный порядок:

Сначала: Service Desk + Incident Management + Service Request Management + SLA.
Когда процесс инцидентов стабилизирован (обычно через 3–6 месяцев) и накопилась история инцидентов — добавляйте Problem Management.
Одновременно или сразу после: Change Management (чтобы было куда заводить RFC для решения проблем).

Начинать с реактивного режима. Проактивный — через год, когда есть время и данные. Общая последовательность внедрения ITSM — в статье о дорожной карте внедрения.

Вывод

Problem Management — это инвестиция в будущее. Он не даёт быстрого ROI в метриках типа MTTR, но через 6–12 месяцев радикально снижает количество инцидентов в зрелых областях. Компании без Problem Management фиксят одни и те же проблемы годами, с ним — устраняют корни и переходят к новым вызовам.

Начните с простого: один Problem Manager (по совместительству — team lead L2), еженедельный review инцидентов, первые 5–10 проблем на 3 месяца. Остальное придёт с опытом.

Попробуйте TIQQET в деле

On-premise ServiceDesk с полным циклом заявок, SLA-контролем и мобильными приложениями. Развёртывание за 1 день.

Посмотреть демо

Частые вопросы

Проблема обязательно связана с несколькими инцидентами?

Нет. Проблема может быть заведена и по одному инциденту, если он критичный или длился дольше обычного — в таких случаях важно понять корневую причину, даже если повторения не было. Также проблемы создаются проактивно — на основе анализа рисков, без привязки к инцидентам.

Можно ли закрыть проблему с workaround'ом, не устраняя причину?

Формально — да, со статусом «Workaround, корневая причина не устранена». Такие проблемы остаются в KEDB и видны в отчётности. Полностью закрыть (статус «Resolved») проблему можно только после устранения корневой причины. Это важно для метрик — без разделения статусов вы не увидите, сколько реально нерешённых проблем висит.

Кто должен быть Problem Manager?

В небольшой компании — team lead L2 по совместительству (10–20% рабочего времени). В среднем размере — выделенная роль, часто совмещающая Problem + Change Management. В крупной — отдельные роли Problem Manager и Change Manager, каждая с командой аналитиков.

Как часто проводить review проблем?

Высокоприоритетные (P1, P2) — еженедельно. Средние (P3) — раз в 2 недели. Низкие (P4) — раз в месяц. Всё вместе — ежеквартальный review с CIO для приоритизации бэклога.

Сколько проблем нормально держать в активной работе?

Зависит от размера команды. Ориентир: 1 Problem Manager может эффективно вести 10–15 активных расследований одновременно. Больше — качество расследований падает. Бэклог (в статусе «ждёт очереди») может быть любым — там проблемы не требуют постоянного внимания.

Что делать, если корневую причину нельзя устранить?

Бывает — например, проблема в vendor-коде, вендор не выпускает патч. Варианты действий: (1) постоянный workaround в KEDB, (2) добавление мониторинга для раннего обнаружения, (3) переход на альтернативный продукт. Проблема остаётся открытой в статусе «Accepted Risk» с явным решением руководства о несопровождении.

Problem Management: поиск и устранение корневых причин

Чем проблема отличается от инцидента

Реактивный и проактивный режим

Реактивный Problem Management

Проактивный Problem Management

Жизненный цикл проблемы

Методики Root Cause Analysis

Метод «5 почему» (5 Whys)

Диаграмма Исикавы (рыбья кость)

Временная шкала (Timeline Analysis)

Known Error Database (KEDB)

Приоритизация проблем

Метрики процесса

Типовые ошибки

Связь с Change Management

Когда начинать внедрять Problem Management

Вывод

Читайте также

Попробуйте TIQQET в деле

Частые вопросы