← Процессы ITIL

Управление непрерывностью ИТ-услуг (ITSCM): DR, BCP и восстановление

Резервные копии есть у всех. А вот ответ на вопрос «через сколько часов мы поднимем сервис после пожара в ЦОД и сколько данных при этом потеряем» — есть у единиц. Управление непрерывностью ИТ-услуг (ITSCM) отвечает именно на него: не «делаем ли мы бэкапы», а «за какое время и с какими потерями восстановимся при катастрофе». Разбираем RTO/RPO, разницу BCP и DRP, стратегии резервирования и роль ServiceDesk в час Х.

11 мин чтения Команда TIQQET
ITILITSCMDRPНепрерывность
Управление непрерывностью ИТ-услуг (ITSCM): DR, BCP и восстановление

BCP, DRP, ITSCM — кто за что

Три уровня, которые часто путают:

Иерархия: BCP говорит «отдел продаж должен работать через 4 часа» → ITSCM переводит это в «CRM и телефония — приоритет 1, RTO 2 часа» → DRP описывает технически, как поднять CRM за 2 часа. Без верхнего уровня DRP превращается в «восстанавливаем всё подряд», что в катастрофу невозможно.

RTO и RPO — две ключевые метрики

Вся ITSCM крутится вокруг двух чисел для каждой услуги:

Катастрофа в момент T
   ◄── RPO ──►│         │◄────── RTO ──────►
последний     T          услуга снова
валидный                 работает
бэкап/реплика

RPO определяет частоту бэкапов/репликации (RPO 15 минут ≠ ежесуточный бэкап). RTO определяет стратегию резервирования. Эти числа задаёт бизнес, а не ИТ — и они стоят денег: RTO 5 минут и RPO 0 требуют горячего резерва, это дорого. Поэтому услуги ранжируют.

Стратегии резервирования по стоимости

Чем меньше RTO/RPO, тем дороже. Спектр вариантов:

Здравый подход: разнести услуги по уровням (tiering) и применить разные стратегии. Критичная CRM — warm/hot, вики и архивы — backup & restore. Платить за hot standby всему подряд — деньги на ветер.

Роль ServiceDesk при катастрофе

В час Х ServiceDesk — это командный центр коммуникации, даже если он сам пострадал (поэтому система должна быть либо в резерве, либо иметь offline-канал):

Важно: сам ServiceDesk — тоже критичная услуга со своим RTO. Если он лежит вместе с остальным, координировать восстановление нечем. On-premise-система с резервной копией БД и быстрым развёртыванием (docker compose) здесь выигрывает у облака, доступ к которому в катастрофу может пропасть.

План, который не тестируют, не работает

Главная правда об ITSCM: непротестированный план восстановления равен его отсутствию. На бумаге всё красиво, а в реальности бэкап оказывается битым, пароль от резерва знал уволившийся админ, а «2 часа RTO» превращаются в двое суток. Уровни тестирования:

  1. Walkthrough — командой проходим план на бумаге, ищем дыры. Раз в квартал.
  2. Частичное восстановление — реально поднимаем одну услугу из бэкапа на тестовом стенде, замеряем фактический RTO/RPO.
  3. Полные учения (DR drill) — имитация катастрофы, переключение на резерв. Раз в год, по согласованию с бизнесом.

Каждое тестирование вскрывает расхождение «план vs реальность» — и это нормально, для этого и тестируют. Найденные пробелы — вход в непрерывное улучшение. Реальный RTO, замеренный на учениях, честнее любого числа в документе.

Попробуйте TIQQET в деле

On-premise ServiceDesk с полным циклом заявок, SLA-контролем и мобильными приложениями. Развёртывание за 1 день.

Посмотреть демо

Частые вопросы

Чем BCP отличается от DRP?

BCP — план непрерывности всего бизнеса (люди, процессы, помещения). DRP — технический план восстановления ИТ-инфраструктуры. ITSCM — прослойка: переводит требования бизнеса (BCP) в приоритеты и метрики ИТ-услуг, которые реализует DRP.

Что такое RTO и RPO?

RTO (Recovery Time Objective) — за какое время услуга должна восстановиться. RPO (Recovery Point Objective) — какой объём данных (во времени) допустимо потерять. RPO задаёт частоту бэкапов/репликации, RTO — стратегию резервирования. Оба числа определяет бизнес.

Нужен ли всем услугам горячий резерв?

Нет — это дорого (удвоение инфраструктуры). Услуги ранжируют: критичным (CRM, телефония) — warm/hot standby с малым RTO/RPO, некритичным (архивы, вики) — backup & restore с RTO в сутки.

Какую роль играет ServiceDesk при катастрофе?

Командный центр: регистрация Major Incident, единая хронология восстановления, информирование пользователей через статус-страницу, координация команд по DRP-чек-листу. Сам ServiceDesk — критичная услуга со своим RTO и должен быть в резерве.

Как часто тестировать план восстановления?

Walkthrough (разбор на бумаге) — ежеквартально, частичное восстановление одной услуги — несколько раз в год, полные учения с переключением на резерв — раз в год. Непротестированный план фактически не существует.