Кейс. Как мы организовали непрерывность работы интернет-магазина

Как мы организовали непрерывность работы интернет-магазина

Разработав план аварийного восстановления на случай сбоев.

Клиент

К нам обратился владелец крупного интернет-магазина, чтобы мы предложили варианты по аварийному восстановлению (DR) онлайн-торговой площадки в случае сбоя или аварийной ситуации. Такие сбои случались у нашего клиента по вине персонала или из-за сбоя оборудования.

Входные данные заказчика

Собственная On-Premise инфраструктура с резервными копиями на удаленной площадке. При аварии восстановление работоспособности систем осуществляется вручную за счет перехода на резервную копию, что занимает по времени около 3-х часов.

Проблема и задачи

Проблема

При сбое сайт становился недоступным, из-за чего клиенты интернет-магазина не могли оформить покупку. Компания несла финансовые и репутационные потери.

Задачи

  • Непрерывность работы сайта
  • Сокращение времени простоя сайта в случае сбоя
  • Исключение человеческого фактора при восстановлении

Выбор решения

Для критичного к простою бизнеса мы предложили два варианта решения задач:

  • Создать копии ВМ заказчика в нашем облаке и настроить асинхронную репликацию данных. В случае аварии сайт будет доступен на резервной площадке. RTO этого решения: 30 минут.
  • Использовать катастрофоустойчивое облако на базе двух площадок, между которыми организована синхронная репликация. Вся информация при этом одновременно записывается на локальную и удаленную СХД. В случае выхода из строя основной площадки, ВМ продолжают работать на второй площадке. RTO этого решения: 2-2,5 минуты.

В первом случае процесс восстановления должен запускаться вручную, поэтому был риск, что процесс может затянуться из-за человеческого фактора. Но этот вариант был дешевле второго. Заказчик просчитал возможные убытки бизнеса от более дешевого решения, сравнил решения по показателям RTO и остановил свой выбор на надежном катастрофоустойчивом облаке.

Как решали задачу

Для перехода на выбранное решение требовалась миграция с On-Premise площадки клиента в облако Нубес. Клиент отказывается от своей физической инфраструктуры, но оставляет у себя площадку для хранения бэкапов.

Разработка сценария

Переход в облако мы предложили осуществить с помощью vCloud Availability. Этот инструмент гарантирует миграцию в облако с минимальным простоем. Наши инженеры настроили сетевую связность между облаком и инфраструктурой клиента. Создали тестовое задание. Провели тестовую миграцию и убедились в корректной работе сценария.

Миграция за 15 минут

Выбрали время суток, когда нагрузка на сайт не большая и провели миграцию в облако с минимальным простоем.

DR-план

Наши архитекторы совместно с заказчиком разработали план для послеаварийного восстановления в случае сбоя работы сайта:

  • Описание инфраструктуры со ссылками на документацию.
  • Персонал, включая внешних подрядчиков, их роли с наглядной схемой взаимодействия.
  • Сценарий возможных аварий и последовательность действий при них. Отдельно описываются ситуации, не требующие активации DR-плана.
  • Процессы по внесению изменений в DR-план для поддержания актуальности. Вносить изменения в план нужно постоянно, потому что бизнес растет, меняется инфраструктура под нужды компании, могут меняться ответственные сотрудники и контакты.

Провели совместное тестирование плана и убедились в корректной работе всех служб.

Полученные результаты

Обеспечили гарантированную непрерывность работы сайта заказчика.
Сократили возможное время простоя больше, чем в 50 раз по сравнению с исходными данными.
Разработали надежный план действий всех необходимых служб для вероятных аварийных ситуаций.
Новая IT-инфраструктура

Клиент получил отказоустойчивую облачную инфраструктуру на самом современном физическом оборудовании в гео-распределенных дата-центрах Tier III с профессиональной техподдержкой 24/7.