Capacity и Availability Management: управление мощностями и доступностью

Две практики: о чём каждая

Практики смежные, но отвечают на разные вопросы:

Availability Management (управление доступностью) — обеспечивает, чтобы услуга была доступна тогда и настолько, насколько обещано в SLA. Ключевой вопрос: «работает ли услуга, когда она нужна?».
Capacity Management (управление мощностями) — обеспечивает, чтобы ресурсов хватало под текущую и будущую нагрузку без избыточных трат. Ключевой вопрос: «выдержим ли мы нагрузку завтра и через год?».

Связь между ними прямая: нехватка мощности (capacity) почти всегда оборачивается падением доступности (availability) — перегруженный сервер начинает отказывать. Поэтому обе практики обычно ведут в связке.

Доступность и «девятки»

Доступность измеряют в процентах времени, когда услуга работала. На практике говорят о «девятках» — и разница между ними огромна по допустимому простою:

Доступность   Простой в год    Простой в месяц
99%   (две 9)     ~3.65 дня         ~7.2 часа
99.9% (три 9)     ~8.76 часа        ~43 минуты
99.95%            ~4.38 часа        ~22 минуты
99.99%(четыре 9)  ~52.6 минуты      ~4.3 минуты

Главный вывод: каждая дополнительная «девятка» дорожает кратно. Прыжок с 99.9% до 99.99% требует резервирования, автоматического failover, дежурств 24×7 — и осмыслен только там, где простой реально стоит этих денег. Обещать «четыре девятки» всему подряд — классическая ошибка Service Level Management: дорого и обычно не нужно.

Доступность напрямую считается из метрик надёжности: Availability = MTBF / (MTBF + MTTR) — см. разбор MTTR/MTBF.

Планирование мощностей на трендах

Capacity Management — это не «докупить серверов, когда затормозит», а проактивное планирование. Базовый подход:

Собрать историю. Как менялась нагрузка (запросы, объём данных, число пользователей) за последние периоды.
Найти тренд. Линейный рост, сезонность, скачки после релизов или маркетинговых акций.
Спрогнозировать. Когда при текущем тренде упрёмся в потолок ресурса.
Запланировать заранее. Нарастить мощность до того, как упрёмся, а не в режиме пожара.

Отдельно стоит учитывать сезонность: для многих сервисов нагрузка предсказуемо растёт в конце месяца/квартала (отчётность), в начале учебного года, в распродажи. Capacity-план должен закладывать пики, а не средние значения.

Capacity касается и операторов поддержки

Самая недооценённая часть: мощность — это не только серверы, но и люди. Служба поддержки имеет свою «пропускную способность» — сколько заявок команда способна качественно обработать. Когда поток превышает эту мощность, начинается то же, что с перегруженным сервером: растут очереди, нарушается SLA, падает CSAT, а операторы выгорают.

Capacity-планирование для helpdesk означает:

Следить за соотношением входящего потока и пропускной способности команды (по дашборду загрузки).
Прогнозировать пики (онбординг новых сотрудников, миграции, релизы) и усиливать смены заранее.
Снижать нагрузку через shift-left и self-service — это «масштабирование» без найма.
Не путать разовый всплеск с трендом: первый закрывают сверхурочными, второй требует найма или автоматизации.

Так две «инфраструктурные» практики смыкаются с повседневной работой поддержки: и сервер, и команда — это ресурсы, которые надо планировать под нагрузку, иначе доступность услуги падает с обеих сторон.

Попробуйте TIQQET в деле

On-premise ServiceDesk с полным циклом заявок, SLA-контролем и мобильными приложениями. Развёртывание за 1 день.

Посмотреть демо

Частые вопросы

В чём разница между Capacity и Availability Management?

Availability Management обеспечивает доступность услуги по SLA («работает ли, когда нужна»). Capacity Management обеспечивает достаточность ресурсов под нагрузку («выдержим ли»). Нехватка мощности обычно ведёт к падению доступности, поэтому их ведут в связке.

Что такое «девятки» доступности?

Процент времени работы услуги: 99% (две девятки) — это ~3.65 дня простоя в год, 99.9% — ~8.76 часа, 99.99% — ~52 минуты. Каждая дополнительная девятка дорожает кратно и осмыслена только там, где простой стоит этих денег.

Как планировать мощности?

Проактивно: собрать историю нагрузки, найти тренд и сезонность, спрогнозировать выход на потолок ресурса и нарастить мощность заранее — до того как упрётесь, а не в режиме пожара. Закладывать пики, а не средние значения.

Capacity Management — это только про серверы?

Нет. Мощность — это и люди. У службы поддержки есть пропускная способность: сколько заявок команда обрабатывает качественно. Превышение ведёт к очередям, нарушению SLA, падению CSAT и выгоранию — это тоже объект capacity-планирования.

Как снизить нагрузку на поддержку без найма?

Через shift-left и self-service: портал, база знаний, шаблоны заявок выносят часть потока на самообслуживание. Это «масштабирование» пропускной способности без увеличения штата. Разовый всплеск закрывают сверхурочными, устойчивый тренд — наймом или автоматизацией.