
BCP, DRP, ITSCM — кто за что
Три уровня, которые часто путают:
- BCP (Business Continuity Plan) — план непрерывности бизнеса: как компания продолжит работать (включая людей, помещения, процессы), если что-то отказало. Самый широкий уровень.
- ITSCM — непрерывность ИТ-услуг как часть BCP: какие ИТ-сервисы и за какое время нужно восстановить, чтобы бизнес выжил.
- DRP (Disaster Recovery Plan) — технический план аварийного восстановления инфраструктуры: конкретные шаги по поднятию серверов, БД, сети.
Иерархия: BCP говорит «отдел продаж должен работать через 4 часа» → ITSCM переводит это в «CRM и телефония — приоритет 1, RTO 2 часа» → DRP описывает технически, как поднять CRM за 2 часа. Без верхнего уровня DRP превращается в «восстанавливаем всё подряд», что в катастрофу невозможно.
RTO и RPO — две ключевые метрики
Вся ITSCM крутится вокруг двух чисел для каждой услуги:
- RTO (Recovery Time Objective) — за какое время услуга должна быть восстановлена. «CRM — 2 часа, корпоративный портал — 24 часа».
- RPO (Recovery Point Objective) — какой объём данных допустимо потерять, измеряется во времени. «RPO 15 минут» = теряем максимум последние 15 минут данных.
Катастрофа в момент T
◄── RPO ──►│ │◄────── RTO ──────►
последний T услуга снова
валидный работает
бэкап/реплика
RPO определяет частоту бэкапов/репликации (RPO 15 минут ≠ ежесуточный бэкап). RTO определяет стратегию резервирования. Эти числа задаёт бизнес, а не ИТ — и они стоят денег: RTO 5 минут и RPO 0 требуют горячего резерва, это дорого. Поэтому услуги ранжируют.
Стратегии резервирования по стоимости
Чем меньше RTO/RPO, тем дороже. Спектр вариантов:
- Backup & restore — бэкап, восстановление вручную. RTO часы-сутки, дёшево. Для некритичных услуг.
- Cold standby — резервное оборудование есть, но выключено; восстановление = развернуть из бэкапа. RTO часы.
- Warm standby — резерв поднят, данные реплицируются периодически. RTO десятки минут, RPO минуты.
- Hot standby / active-active — полная реплика работает параллельно, переключение мгновенное. RTO минуты, RPO≈0. Дорого вдвое.
Здравый подход: разнести услуги по уровням (tiering) и применить разные стратегии. Критичная CRM — warm/hot, вики и архивы — backup & restore. Платить за hot standby всему подряд — деньги на ветер.
Роль ServiceDesk при катастрофе
В час Х ServiceDesk — это командный центр коммуникации, даже если он сам пострадал (поэтому система должна быть либо в резерве, либо иметь offline-канал):
- Единая точка регистрации масштабного сбоя — поднимается Major Incident, по нему идёт вся хронология восстановления.
- Информирование пользователей — статус-страница / рассылка «знаем, чиним, ожидаемое время — X». Это снижает шквал звонков «у вас лежит?».
- Координация команд по DRP-чек-листу: кто поднимает БД, кто сеть, кто проверяет.
- Аудит после — хронология из тикета → материал для постмортема и пересмотра RTO/RPO.
Важно: сам ServiceDesk — тоже критичная услуга со своим RTO. Если он лежит вместе с остальным, координировать восстановление нечем. On-premise-система с резервной копией БД и быстрым развёртыванием (docker compose) здесь выигрывает у облака, доступ к которому в катастрофу может пропасть.
План, который не тестируют, не работает
Главная правда об ITSCM: непротестированный план восстановления равен его отсутствию. На бумаге всё красиво, а в реальности бэкап оказывается битым, пароль от резерва знал уволившийся админ, а «2 часа RTO» превращаются в двое суток. Уровни тестирования:
- Walkthrough — командой проходим план на бумаге, ищем дыры. Раз в квартал.
- Частичное восстановление — реально поднимаем одну услугу из бэкапа на тестовом стенде, замеряем фактический RTO/RPO.
- Полные учения (DR drill) — имитация катастрофы, переключение на резерв. Раз в год, по согласованию с бизнесом.
Каждое тестирование вскрывает расхождение «план vs реальность» — и это нормально, для этого и тестируют. Найденные пробелы — вход в непрерывное улучшение. Реальный RTO, замеренный на учениях, честнее любого числа в документе.
Попробуйте TIQQET в деле
On-premise ServiceDesk с полным циклом заявок, SLA-контролем и мобильными приложениями. Развёртывание за 1 день.
Частые вопросы
Чем BCP отличается от DRP?
BCP — план непрерывности всего бизнеса (люди, процессы, помещения). DRP — технический план восстановления ИТ-инфраструктуры. ITSCM — прослойка: переводит требования бизнеса (BCP) в приоритеты и метрики ИТ-услуг, которые реализует DRP.
Что такое RTO и RPO?
RTO (Recovery Time Objective) — за какое время услуга должна восстановиться. RPO (Recovery Point Objective) — какой объём данных (во времени) допустимо потерять. RPO задаёт частоту бэкапов/репликации, RTO — стратегию резервирования. Оба числа определяет бизнес.
Нужен ли всем услугам горячий резерв?
Нет — это дорого (удвоение инфраструктуры). Услуги ранжируют: критичным (CRM, телефония) — warm/hot standby с малым RTO/RPO, некритичным (архивы, вики) — backup & restore с RTO в сутки.
Какую роль играет ServiceDesk при катастрофе?
Командный центр: регистрация Major Incident, единая хронология восстановления, информирование пользователей через статус-страницу, координация команд по DRP-чек-листу. Сам ServiceDesk — критичная услуга со своим RTO и должен быть в резерве.
Как часто тестировать план восстановления?
Walkthrough (разбор на бумаге) — ежеквартально, частичное восстановление одной услуги — несколько раз в год, полные учения с переключением на резерв — раз в год. Непротестированный план фактически не существует.