Кейс. Аварийное восстановление критичных сервисов в облаке NGcloud

Аварийное восстановление критичных сервисов в облаке NGcloud

Кейс ГК «ЭРКАФАРМ».

О клиенте

ГК «ЭРКАФАРМ» — крупная федеральная торговая компания. Входит в тройку крупнейших аптечных сетей России и находится в перечне системообразующих организаций РФ.

К основным брендам компании относятся «Озерки», «Доктор Столетов» и «Самсон». Ежемесячно аптеки ГК «ЭРКАФАРМ» обслуживают более 6 млн покупателей. База лояльных клиентов составляет 20 млн человек.

Развитием ИТ-инфраструктуры в группе компаний занимается ООО «Эркафарм Диджитал». В ближайшее время дочерняя структура планирует поставлять сервисы и ПО всем участникам рынка.

Задачи

«На текущий момент есть минимум три тренда, с которыми сталкиваемся мы и другие представители фармрынка России. Первый — усиленная цифровизация привела к сокращению штата. В нашей компании многие процессы теперь проходят с минимальным участием либо совсем без участия человека. Если сервис выходит из строя, то заменить его ручными операциями становится почти невозможно.

Второй тренд — импортозамещение и уход иностранных вендоров из России. На фоне этих изменений стало больше проблем с ИТ-инфраструктурой и отказоустойчивостью ПО. И, наконец, третий тренд — поиск более выгодных решений, в том числе для восстановления систем после аварий и снижения связанных с этим финансовых потерь».

Илья Алимпиев, 
директор по ИТ ГК «ЭРКАФАРМ»

Наиболее опасная ситуация — если строя выходят ключевые сервисы компании. Длительное восстановление ИТ-инфраструктуры может обернуться ощутимым снижением доходов и количества лояльных покупателей, а также привести к проблемам с бизнес-партнерами и плохой репутации на рынке.

«Чтобы свести возможные риски к минимуму, мы разработали собственный Disaster Recovery plan (DRP, или План по восстановлению систем после аварийной ситуации). Цель — обеспечить наименьшее время восстановления критичных приложений для бизнеса. В их числе базовые сервисы для электронной коммерции, программ лояльности и кассовых операций».

Павел Лукин, 
начальник отдела инфраструктуры Департамента ИТ ГК «ЭРКАФАРМ»

Специалисты оценили и задокументировали максимальное количество рисков, которым подвержены сервисы и связанное с ними оборудование. По каждой аварийной ситуации заказчик проработал сценарии реагирования специалистов, а также определил необходимые значения RTO и RPO, при которых компания может минимизировать возможные потери из-за аварий.

Оба показателя являются важнейшими для планирования Disaster Recovery:

  • RTO (Recovery Time Objective, целевое время восстановления) отражает срок,  в течение которого ПО остается недоступным после аварии. В ГК «ЭРКАФАРМ» оценили, что время простоя ключевых сервисов, за которое организация должна вернуться к работе без материального ущерба, в большинстве случаев не должно превышать 15 минут. В это время уже входят локализация инцидента, информирование администратора и перезапуск сервиса.
  • RPO (Recovery Point Objective, целевая точка восстановления) указывает максимальный период, за который могут быть утеряны данные. По плану ГК «ЭРКАФАРМ», по большинству ситуаций допустимый показатель составляет не более 45 минут.

Выбор решения

В ходе проработки DRP возникла потребность в технологиях, которые позволяют минимизировать возможные потери бизнеса. В частности, команда проекта занялась поиском резервного ЦОД, наиболее подходящего под задачи компании.

При выборе дата-центра специалисты ориентировались на несколько параметров. Один из них — программное соответствие инфраструктуре компании. Для виртуализации настольных компьютеров и приложений в ГК «ЭРКАФАРМ» используются решения на базе VMware. Именно поэтому специалистам было важно, чтобы сервис-провайдер мог обеспечить резервную площадку с поддержкой данных продуктов. Такую возможность предоставил НУБЕС (Nubes).

Также в рамках DRP команда решила подключить возможность аварийного восстановления ПО и данных в облаке. Такой вариант позволяет компании быстро запустить критичные сервисы в случае аварии. Время простоя во многих случаях сокращается до нескольких минут, а финансовые потери при аварии минимальны. По всем техническим характеристикам для этой задачи подошла виртуальная площадка того же провайдера — защищенное облако NGcloud, аттестованное по 152-ФЗ, а также соответствующее требованиям PCI DSS 4.0 и ГОСТ 57580.1-2017.

Еще одна причина, по которой ГК «ЭРКАФАРМ» обратилась к НУБЕС (Nubes), — высокая экспертиза в теме резервного копирования данных. Специалисты облачного провайдера не раз сталкивались с проектами DR и могут представить лучшие практики, проконсультировать и помочь с техническими моментами на проекте.

Более того, инженеры этой компании знакомы со спецификой и задачами отрасли. В облаке NGcloud уже размещаются крупнейшие медицинские, фармацевтические и торговые компании страны.

Как решали

Реализацией DRP активно занимались специалисты обеих сторон. От сервис-провайдера к работам подключились DevOps-инженер, специалист по виртуализации и проектный менеджер.

Специалисты заказчика и провайдеры обсудили несколько технических сценариев интеграции двух площадок. В итоге было решено, что миграция данных между площадками ГК «ЭРКАФАРМ» и сервис-провайдера Nubes будет проходить по отдельным прямым темным волокнам. Первая причина — такие требования предъявила служба безопасности компании-заказчика. Подключение прямым стыком исключает передачу данных через публичный интернет и связанные с ней риски.

Вторая причина, по которой решили использовать прямое волокно, — желание добиться максимальной скорости передачи данных (от 10 Гбит/с). При этом из процесса исключаются интернет-провайдеры обеих сторон, а значит, нет ограничений в объемах отправляемой и получаемой информации. Передача данных не влияет на работоспособность остальной ИТ-инфраструктуры, а также нет необходимости в оптимизации и разграничении сетевых каналов.

Следующим этапом стала настройка репликации ВМ с необходимым ПО в облако NGcloud. Теперь при аварийной ситуации на площадке ГК «ЭРКАФАРМ» критичные сервисы автоматически смогут продолжить работу в виртуальной среде провайдера.

Затем компания провела испытания реализованного сценария DRP. В частности, специалисты имитировали отказ ИТ-инфраструктуры на стороне ГК «ЭРКАФАРМ», замерили период восстановления в облаке и время RPO, за которое удалось сохранить данные. В итоге получили показатели, которые соответствовали плановым значениям.

Проект продолжается. В ближайшее время компания планирует установить на площадке провайдера оборудование, которое используется для резервного копирования данных. Его также подключат к NGcloud. Таким образом  ГК «ЭРКАФАРМ» обеспечит возможность быстрого аварийного восстановления всей корпоративной ИТ-инфраструктуры в облаке, а также защиту на случай атаки шифровальщиками.

Что получили

Минимальные потери при отказе ПО

Если ИТ-инфраструктура на основной площадке компании выйдет из строя, то критичные сервисы сразу же перезапустятся в облаке NGcloud, причем с максимально актуальными данными. В большинстве случаев восстановление работы займет не более трех минут.

Выгодное решение по DR

Аварийное восстановление в облаке NGcloud позволило компании существенно сократить издержки, связанные с возможным простоем ключевых сервисов. Причем такой сценарий DRP оказался выгодным даже с учетом затрат на строительство оптоволоконных линий, которые связали площадки заказчика и провайдера.

При этом для критичных сервисов компания выбрала технологию репликации, а для остальных — резервное копирование, которое является менее затратным решением. Такой подход позволяет оптимизировать затраты.

Консультации и техническая помощь

Экспертиза Nubes для ГК «ЭРКАФАРМ» оказалась крайне важной, так как с задачами и реализацией DRP компания столкнулась впервые. Специалисты сервис-провайдера участвовали во всех этапах проекта: от разработки аварийных сценариев до их тестирования. Они отвечали на вопросы заказчика, делились опытом, помогали с настройкой оборудования и виртуальных ресурсов.