← Процессы

Problem Management: поиск и устранение корневых причин

Problem Management — процесс поиска корневых причин инцидентов и их устранения на системном уровне. В отличие от Incident Management, который фокусируется на скорейшем восстановлении работы, Problem Management работает в долгосрочном горизонте: недели, месяцы. Его цель — не чтобы сервис снова заработал, а чтобы одна и та же проблема больше никогда не возникала.

12 мин чтения Команда TIQQET
ITILProblem ManagementПроцессыАналитика
Problem Management: поиск корневых причин Люди обучение, смены Процессы регламенты Технологии версии, баги Инфраструктура сеть, серверы Среда нагрузка, расписание Данные объём, целостность Корневая причина 5 повторяющихся инцидентов → 1 проблема

Чем проблема отличается от инцидента

Эта путаница — самая распространённая в ITSM. Кратко:

Пример: у пяти пользователей "зависает" Outlook (пять инцидентов). В каждом случае мы даём workaround — перезапустить клиент. Инциденты закрыты, пользователи работают. Но причина зависаний не устранена. Это проблема. Её создаёт Problem Manager, ведёт расследование, находит корневую причину (например, конфликт версии плагина), и устраняет её через изменение — обновление плагина. После этого инциденты прекращаются.

Важно понимать связь. Один инцидент → один workaround → быстрое закрытие. Много повторяющихся инцидентов → одна проблема → одно изменение → инциденты прекращаются. Подробнее — в статье о классификации обращений.

Реактивный и проактивный режим

Management проблем делится на два режима:

Реактивный Problem Management

Запускается по факту серии инцидентов. Аналитик видит, что один и тот же тип проблемы возникает 5–10 раз — заводит проблему и начинает расследование. Это 80–90% всей практической работы.

Триггеры для запуска реактивного расследования:

Проактивный Problem Management

Запускается до инцидентов, на основе анализа трендов и слабых мест инфраструктуры. Source:

Проактивный режим требует зрелости и свободных ресурсов. В небольших командах почти не встречается. Норма — начинать реактивный, а проактивный добавлять, когда стабилизируется процесс.

Жизненный цикл проблемы

  1. Регистрация — проблема создаётся с привязкой к инициирующему инциденту (или нескольким).
  2. Классификация — тип, приоритет, владелец.
  3. Расследование (root cause analysis) — методики см. ниже.
  4. Временное решение (workaround) — документируется в базе знаний. Операторы L1 могут применять его к новым инцидентам.
  5. Определение корневой причины — конкретная техническая или процессная первопричина.
  6. Запрос на изменение (RFC) — для устранения корневой причины создаётся RFC, уходит в Change Management.
  7. Внедрение изменения — по процессу из Change Management.
  8. Валидация — через 2–4 недели после изменения проверяется, действительно ли инциденты перестали повторяться.
  9. Закрытие проблемы — с отметкой о решении и ссылкой на внедрённое изменение.

Методики Root Cause Analysis

Метод «5 почему» (5 Whys)

Самый простой и самый эффективный метод для большинства задач. Задаём вопрос «почему?» пять раз подряд, углубляясь от симптома к причине.

Пример:

Результат: корневая причина не «версия 3.2 сломана», а «нет процесса валидации плагинов на типовых окружениях». Решение — не откат версии, а внедрение процесса тестирования.

Диаграмма Исикавы (рыбья кость)

Визуальный метод, раскладывающий возможные причины по 6 категориям (на инженерном: «6M»):

Подходит для сложных случаев с несколькими возможными причинами. Рисуется на доске в команде за 30 минут, помогает не пропустить ни одну гипотезу.

Временная шкала (Timeline Analysis)

Для сложных инцидентов выстраивается детальный timeline: что происходило в инфраструктуре за часы/дни до начала инцидента. Коррелирует с деплоями, изменениями конфигов, пиками нагрузки. Часто выявляет неочевидную связь типа «обновили библиотеку в 14:00 — проблема начала проявляться с 15:30».

Known Error Database (KEDB)

Known Error — это задокументированная проблема с известной корневой причиной и известным workaround'ом, которая пока не устранена полностью. Известные ошибки заносятся в специальную базу — KEDB.

Зачем это нужно:

В большинстве ITSM-систем KEDB — это часть базы знаний с отдельной категорией. Не требует отдельной системы.

Приоритизация проблем

В отличие от инцидентов, приоритет проблемы определяется не срочностью, а бизнес-impact. Типовая матрица:

Частота инцидентовImpact каждогоПриоритет проблемы
Высокая (>10/мес)КритичныйP1 — немедленно
ВысокаяСреднийP2 — в течение 2 недель
Средняя (3–10/мес)КритичныйP2
СредняяСреднийP3 — в течение квартала
НизкаяНизкийP4 — в бэклог

Метрики процесса

Типовые ошибки

Связь с Change Management

Большинство решений проблем реализуются через изменения. Типовая связка:

  1. Инциденты → проблема (с привязкой инцидентов)
  2. Расследование → workaround (в KEDB) → корневая причина
  3. Создание RFC, связанного с проблемой
  4. Одобрение CAB (см. Change Management)
  5. Внедрение изменения
  6. Валидация + закрытие проблемы

В ITSM-системе эта цепочка должна быть прослеживаема "одним кликом": от любого инцидента можно дойти до связанной проблемы и RFC. Это критично для аналитики "почему мы постоянно чиним одно и то же".

Когда начинать внедрять Problem Management

Problem Management — это не «первая» практика для внедрения. Логичный порядок:

  1. Сначала: Service Desk + Incident Management + Service Request Management + SLA.
  2. Когда процесс инцидентов стабилизирован (обычно через 3–6 месяцев) и накопилась история инцидентов — добавляйте Problem Management.
  3. Одновременно или сразу после: Change Management (чтобы было куда заводить RFC для решения проблем).

Начинать с реактивного режима. Проактивный — через год, когда есть время и данные. Общая последовательность внедрения ITSM — в статье о дорожной карте внедрения.

Вывод

Problem Management — это инвестиция в будущее. Он не даёт быстрого ROI в метриках типа MTTR, но через 6–12 месяцев радикально снижает количество инцидентов в зрелых областях. Компании без Problem Management фиксят одни и те же проблемы годами, с ним — устраняют корни и переходят к новым вызовам.

Начните с простого: один Problem Manager (по совместительству — team lead L2), еженедельный review инцидентов, первые 5–10 проблем на 3 месяца. Остальное придёт с опытом.

Попробуйте TIQQET в деле

On-premise ServiceDesk с полным циклом заявок, SLA-контролем и мобильными приложениями. Развёртывание за 1 день.

Посмотреть демо

Частые вопросы

Проблема обязательно связана с несколькими инцидентами?

Нет. Проблема может быть заведена и по одному инциденту, если он критичный или длился дольше обычного — в таких случаях важно понять корневую причину, даже если повторения не было. Также проблемы создаются проактивно — на основе анализа рисков, без привязки к инцидентам.

Можно ли закрыть проблему с workaround'ом, не устраняя причину?

Формально — да, со статусом «Workaround, корневая причина не устранена». Такие проблемы остаются в KEDB и видны в отчётности. Полностью закрыть (статус «Resolved») проблему можно только после устранения корневой причины. Это важно для метрик — без разделения статусов вы не увидите, сколько реально нерешённых проблем висит.

Кто должен быть Problem Manager?

В небольшой компании — team lead L2 по совместительству (10–20% рабочего времени). В среднем размере — выделенная роль, часто совмещающая Problem + Change Management. В крупной — отдельные роли Problem Manager и Change Manager, каждая с командой аналитиков.

Как часто проводить review проблем?

Высокоприоритетные (P1, P2) — еженедельно. Средние (P3) — раз в 2 недели. Низкие (P4) — раз в месяц. Всё вместе — ежеквартальный review с CIO для приоритизации бэклога.

Сколько проблем нормально держать в активной работе?

Зависит от размера команды. Ориентир: 1 Problem Manager может эффективно вести 10–15 активных расследований одновременно. Больше — качество расследований падает. Бэклог (в статусе «ждёт очереди») может быть любым — там проблемы не требуют постоянного внимания.

Что делать, если корневую причину нельзя устранить?

Бывает — например, проблема в vendor-коде, вендор не выпускает патч. Варианты действий: (1) постоянный workaround в KEDB, (2) добавление мониторинга для раннего обнаружения, (3) переход на альтернативный продукт. Проблема остаётся открытой в статусе «Accepted Risk» с явным решением руководства о несопровождении.