VMware и непрерывность — как обеспечить непрерывность функционирования самой платформы

Сегодня на российском блоге VMware проскочил вполне доходчивый пост о том, как обеспечить непрерывность работы VMware Virtual Center. Речь идет про продукт VMware vCenter Server Heartbeat, в девичестве — продукт компании NeverFail, о решениях которой я напишу существенно более подробно в течение ближайшей недели-двух. VMware Russia — прошу любить и жаловать 🙂

VMware — возможности vSphere по обеспечению непрерывности ИТ-сервисов

В начале октября  компания VMware выпустила новую версию своего продукта для обеспечения послеаварийного восстановления — Site Recovery Manager 4.0. 

В честь этого события я решил сделать небольшой обзор HA/DR решений от VMware с целью более корректного позиционирования решений и понимания существующих ограничений. Этот текст предназначен не для продвинутых инженеров VMware, которые вряд ли найдут здесь что-то новое для себя, но для специалистов, определяющих архитектуру HA/DR решений, и желающих понять возможности, предоставляемые продуктами VMware.

VMware High Availability (HA)

VMware High AvailabilityVMware HA позволяет в случае выхода из строя одного из серверов кластера ESX перезапустить все гостевые машины на оставшихся серверах. Решение является аналогом Active-Passive кластера из мира «железных» серверов, за исключением того, что не возникает проблем расхождения конфигураций, которая серьезно осложняет жизнь администраторов, обслуживающих большой парк серверов. Незначительным недостатком данного решения является определенное, хотя и небольшое, время восстановления (RTO), необходимое на перезапуск вирутальной машины.
VMware HA не требует дополнительного лицензирования, доступен для vSphere, начиная с версии Essential Plus.

 VMware Fault Tolerance (FT)

VMware Fault ToleranceVMware FT отчасти напоминает Active-Active кластер, но при ближайшем рассмотрении фунционирует принципиально по другому. Целью использования FT является обеспечение практически нулевого RTO в случае выхода из строя сервера ESX. Достигается это параллельным выполнением виртуальных машин на двух соседних серверах на уровне параллельного выполнения команд процессора. При этом весь вывод на дублирующей виртуальной машине подавляется на уровне гипервизора. Основным ограничением данной технологии на сегодняшний момент является невозможность использования FT для виртуальных машин с числом процессоров больше одного, а также невозможность создания FT кластера из машин, построенных на процессорах различной архитектуры. Кроме того, естественным ограничением является требование хранения виртуальных машин на разделяемой СХД.
VMware FT не требует дополнительного лицензирования, доступен для vSphere, начиная с версии Advanced.

VMware Site Recovery Manager (SRM)

В отличие от двух предыдущих решений, обеспечивающих локальные отказоустойчивые решения, SRM позволяет создавать распределенные решения для послеаварийного восстановления.
На DR-сайте разворачивается самостоятельная виртуальная инфраструктура, по мощности достаточная для выполнения виртуальных машин, которые планируется перенести в случае выхода из строя основного сайта. Из дополнительных элементов на обоих площадках разворачивается vCenter Site Recovery Manager.
В момент чрезвычайной ситуации отрабатывается план(ы) послеаварийного восстановления, которые определяют последовательность «выключения» виртуальных машин на основном сайте (если он доступен), и их запуска на DR сайте. Если в «мирное» время DR сайт используется для решения других задач, то SRM позволяет перед выполнением плана аварийного восстановления временно перевести в оффлайн функционирующие на сайте машины, и начать их восстановление  после того, как отработает DR план.
 Из основных отличий SRM версии 4 от предыдущей версии:
  • Поддержка vSphere;
  • Возможность работать с shared DR сайтами, что позволяет использовать один DR сайт для резервирования нескольких основных сайтов;
  • Поддержка переноса машин, работающих в режиме Fault Tolerance;
  • Расширенная поддержка СХД — NFS, iSCSI, Fiber Channel.
При использовании решения важно учитывать, что SRM никоим образом не обеспечивает репликацию данных — образы виртуальных машин реплицируются средствами СХД.
Site Recovery Manager лицензируется, как отдельный продукт.

Управление работоспособностью HA/DR решений

В Storage News №3 (40) за 2009 год вышла  моя статья про управление непрерывностью ИТ-сервисов. Точнее говоря, про проблемы, возникающие при эксплуатации HA/DR решений в изменяющейся среде, и про то, как с ними (проблемами) бороться.

Road Show Continuity Software

С 21 по 27 октября мы совместно с Continuity Software проводим Road Show, представляя потенциальным потребителям продукт RecoverGuard™, которому уже было посвящено несколько предыдущих постов.  Первые три дня (21-23 октября) мы с Гилом (Gil Hecht, CEO Continuity Software) проведем в Алматы, после чего вернемся в Москву, где и продолжим общение с российскими компаниями до 27 октября.

Если у вас есть желание встретиться с нами в эти дни — пишите, постараемся найти время в нашем графике.

Infosecurity Moscow 2009

Меньше месяца осталось до самого крупного мероприятия в области информационной безопасности — InfoSecurity. По складывающейся традиции, не осталась в стороне и тема непрерывности бизнеса.

В первый день (29 сентября), предваряя процедуру официального открытия выставки, с 12:15 до 13:45 пройдет секция «Построение и сохранение непрерывности бизнеса в существующих условиях. Информационная безопасность, как один из элементов непрерывности?» под чутким руководством Димы Кострова из МТС. Как водится, точный состав выступающих и темы выступлений будут еще утрясаться, за себя могу сказать, что говорить буду про тестирование — как лучше проводить тестирование/учения так, чтобы потом не было мучительно больно :).

Кроме того, в тот же день сразу после официального открытия, в 14:30 на презентационной площадке расскажем про решение RecoverGuard от Continuity Software, о котором я писал в предыдущем посте.

Будет еще выступление про безопасность в виртуальных средах (на Круглом столе у Емельянникова, в 15:30 30 сентября)  , и битва во имя решения Reflex VMC на Львах и Гладиаторах (1 октября в 12:15), но это уже отдельная тема, к данному блогу не относящаяся.

Так что всем добро пожаловать 🙂

Тестировать, или не тестировать — как найти разумный компромисс

Задача тестирования HA/DR решений всегда являлась для ИТ-персонала определенной головной болью.

Все сознают, что тестировать надо (не встречал еще ни одного человека, который сказал бы, что тестирование — это зло). Но, когда дело доходит до конкретных действий, креативу на тему «почему мы не можем делать это сейчас» зачастую можно только позавидовать. Среди аргументов присутствует как абсолютно разумное опасение «положить» рабочую систему, так и заявления в духе «все и так будет работать».

Как показывает опыт — само по себе с первого раза практически никогда не заработает, а вот рабочую систему положить можно запросто 🙂 Особенно если взять, и сразу попробовать протестировать комплексное восстановление.

К чему я все это рассказываю? Несколько месяцев назад нам на глаза попалась компания Continuity Software, и на днях мы подписали с ними партнерское соглашение. Продукт у них всего один — RecoverGuard, зато интересный. Задача, которую помогает решить RecoverGuard — убедиться в  том, что ваши HA/DR решения работают. Простая, но нужная. Безусловно, использование RecoverGuard — не замена «боевому» тестированию — но возможность существенно снизить риски сбоев в момент тестирования, а также поддерживать систему в работоспособном состоянии в промежутке между тестированиями.

Давайте посмотрим, что стоит за этими словами.

1. Некорректные конфигурации. RecoverGuard содержит постоянно обновляемую (как инженерами Continuity Software, так и пользователями системы) базу знаний о существующих уязвимостях в архитектуре HA/DR решений от различных производителей. Соответственно, наличие (а точнее, отсутствие) подобных уязвимостей RecoverGuard проверяет в первую очередь. Примерно аналогично проверяется соответствие лучшим практикам, рекомендованным производителями.

2. Расхождение конфигураций. Очень распространенная проблема, когда при внесении изменений (от применения обновлений до апгрейда железа) в продуктивную систему, в резервную систему изменения не вносятся, или вносятся, но не такие. Такого рода расхождения (т.н. configuration drift) RecoverGuard также достаточно легко обнаруживает.

Это две основные функции, которые позволяют предотвратить массу серьезных проблем.

Кроме того, в продукте реализована еще масса приятных возможностей:

  • Оценка выполнимости SLA на основе анализа конфигурации решений
  • Документирование инфраструктуры
  • Механизм alert’ов
  • И т.п.

Для того, чтобы убедиться в полезности продукта, Continuity Software (а в России и СНГ — вместе с Алмитек) предлагает сделать короткий пилот. Устанавливается система, выдаются права на доступ к элементам инфраструктуры (агентов ставить никуда не надо, достаточно только прав на чтение), в течение суток проводится анализ, на основании чего делается отчет. Пилот платный, но и результат полезный в любом случае — текущий срез уязвимостей заказчик получает вне зависимости от того, будет ли решение использоваться в дальнейшем. По утверждению производителя — проблемы обнаруживаются всегда.