Incident Management по ITIL 4: жизненный цикл инцидента

Что такое инцидент и чем он не является

По ITIL 4 инцидент — это незапланированное прерывание услуги или снижение её качества. Ключевое слово — «незапланированное». Если почта работает медленно, не открывается портал, отвалился VPN — это инциденты. Цель процесса одна: как можно быстрее восстановить нормальную работу, даже временным обходным решением (workaround), не дожидаясь устранения первопричины.

Что инцидентом не является:

Сервисный запрос — «дайте доступ к папке», «установите 1С». Это штатная, заранее согласованная операция. Её обрабатывает Request Fulfillment, а не управление инцидентами.
Проблема — первопричина одного или нескольких инцидентов. Инцидент «почта упала» закрывают восстановлением; проблему «почему она падает раз в неделю» решают отдельно и не спеша.
Изменение — плановое обновление сервера. Если оно идёт по согласованному окну, это Change Management, а не инцидент.

Эта развилка — основа всей классификации обращений. Если её не провести на входе, в одну очередь сваливаются «срочно лежит прод» и «хочу второй монитор», и приоритеты перестают что-либо значить.

Жизненный цикл инцидента

Стандартный поток инцидента состоит из шести этапов. На каждом важно фиксировать в карточке тикета, что произошло — это и аудит, и материал для будущего Knowledge Management.

Регистрация (identification & logging). Инцидент попадает в систему — из портала, почты, чата или автоматически из мониторинга. Фиксируются время, заявитель, описание, затронутая услуга.
Категоризация. К какой услуге/CI относится, какой тип. От этого зависит маршрутизация и подбор шаблона решения.
Приоритизация. Назначается приоритет по матрице impact × urgency (см. ниже) — он определяет дедлайны SLA.
Диагностика и эскалация. L1 пытается решить по базе знаний; если не может — эскалация на L2/L3. Важно различать функциональную (по компетенции) и иерархическую (по полномочиям) эскалацию.
Решение и восстановление. Применяется workaround или полное решение. Услуга восстановлена — фиксируется время решения.
Закрытие. Подтверждение от пользователя, проставление кода решения, при необходимости — запуск опроса CSAT и создание проблемы для разбора первопричины.

Приоритизация: матрица impact × urgency

Приоритет инцидента — это не «как громко кричит заявитель», а функция двух осей: влияние (impact) — сколько пользователей/услуг затронуто, и срочность (urgency) — как быстро влияние нарастает. Их пересечение даёт приоритет:

             Срочность
            Высокая  Средняя  Низкая
Влияние ┌─────────────────────────────
Высокое │   P1       P2       P3
Среднее │   P2       P3       P4
Низкое  │   P3       P4       P4

P1 (critical) — «лежит сервис для всех», реакция в минутах, при необходимости поднимается Major Incident. P4 — мелочь, влияющая на одного человека и терпящая до завтра. Под каждый приоритет — свой SLA по времени реакции и решения.

Главное правило: приоритет инцидента и приоритет запроса считаются по разным шкалам. Запрос на новый ноутбук никогда не должен конкурировать за P1 с упавшим прод-сервисом.

Модели инцидентов и known errors

Модель инцидента (incident model) — это заранее описанный сценарий обработки для повторяющихся типовых ситуаций: шаги, ответственные, дедлайны, шаблон ответа. Когда «снова не печатает сетевой принтер на 3-м этаже» — оператор не импровизирует, а идёт по готовой модели. Это резко снижает время решения и разброс качества между операторами.

Known error (известная ошибка) — это задокументированная проблема с найденным workaround. Если первопричина известна, но ещё не устранена, статья known error в базе знаний позволяет L1 закрывать инцидент за минуты, не эскалируя. Связка «инцидент → проблема → known error → статья КБ» — это и есть переход от тушения пожаров к управляемому процессу.

В TIQQET модели реализуются через шаблоны заявок и канонические ответы, а known errors живут в базе знаний со ссылками прямо из карточки тикета.

Метрики и антипаттерны

Здоровье процесса управления инцидентами показывают:

FRT и время решения — см. разбор отличий. Отдельно по приоритетам, иначе средние врут.
FCR (First Contact Resolution) — доля инцидентов, решённых на L1 без эскалации. Цель — 60–75%.
% соблюдения SLA — по реакции и по решению.
Reopen rate — доля повторно открытых. Рост означает «закрываем не починив».

Частые антипаттерны: закрывать инцидент по тайм-ауту без подтверждения пользователя; искусственно занижать приоритет ради SLA; смешивать инциденты и запросы в одной очереди; не создавать проблему после серии однотипных инцидентов. Последнее особенно дорого — команда бесконечно тушит один и тот же пожар вместо того, чтобы один раз погасить источник.

Попробуйте TIQQET в деле

On-premise ServiceDesk с полным циклом заявок, SLA-контролем и мобильными приложениями. Развёртывание за 1 день.

Посмотреть демо

Частые вопросы

Чем инцидент отличается от сервисного запроса?

Инцидент — это незапланированное нарушение работы услуги (что-то сломалось). Запрос — штатная согласованная операция (дать доступ, установить ПО). У них разные процессы, разные SLA и разные шкалы приоритета.

Что важнее восстановить — услугу или найти причину?

Сначала восстановить услугу, даже временным обходным решением (workaround). Поиск и устранение первопричины — это уже задача Problem Management, она идёт параллельно и не блокирует восстановление.

Как определить приоритет инцидента?

По матрице impact × urgency: влияние (сколько пользователей/услуг затронуто) умножается на срочность (как быстро растёт ущерб). Крик заявителя приоритетом не является.

Что такое модель инцидента?

Заранее описанный сценарий обработки повторяющегося типового инцидента: шаги, ответственные, дедлайны, шаблон ответа. Снижает время решения и разброс качества между операторами.

Когда из инцидента создавать проблему?

Когда инцидент повторяется или его первопричина неизвестна и может вызвать новые сбои. Серия однотипных инцидентов — прямой сигнал завести проблему и разобрать корень.