Disaster Recovery в домашних условиях, или непрерывность бизнеса для домохозяек

floodСегодня ночью мы всей семьей проводили тестирование планов непрерывности бизнеса. Тестирование проходило по четвертой, самой жесткой схеме — в боевых условиях.

Первые признаки инцидента появились в 5 утра, когда меня разбудил странный звук. Продолжить чтение «Disaster Recovery в домашних условиях, или непрерывность бизнеса для домохозяек»

Забастовки в лондонском метро, или встречаем снежные заносы

Вчера вечером  четвертый раз с августа текущего года лондонское метро закрылось на сутки на забастовку. Закрылось, правда, не полностью (утверждается, что 80% станций открыто, и 45% поездов вышли на маршрут), но достаточно, чтобы создать в городе качественный транспортный коллапс (красные точки на картинке обозначают закрытые станции метро). Для понимания масштаба бедствия — в городах масштаба Москвы или Лондона метро в сутки перевозит порядка 4 миллионов человек (как правило, туда и обратно 🙂  ).

Посмотрим на происходящее с точки зрения управления непрерывностью бизнеса.  Сотрудники не могут добраться до работы. Ситуация в Лондоне еще относительно хороша тем, что о забастовке было известно заблаговременно. Гораздо чаще проблемы с транспортной доступностью возникают неожиданно, как результат серьезных аварий, терактов, или природных явлений (встречаем грядущий снегопад 🙂 ).  Итак, что делать организациям?

Во-первых, оценить масштаб бедствия. В этом заметно помогает  наличие актуальной структурированной информации о том, где проживают сотрудники и как добираются до офиса. В сочетание с прогнозами восстановления транспортного сообщения можно принять решение о необходимости активации тех или иных планов обеспечения непрерывности бизнеса.

Во-вторых, оповестить сотрудников о том, что им необходимо делать. Своевременное указание сотрудникам, без которых можно обойтись в офисе, остаться дома или вернуться с полпути домой поможет как избежать потерь человеческого времени, так и снизить нагрузку на транспортную систему города.

В третьих, проводить периодические учения. Не надо ждать полного коллапса — воспользуйтесь ближайшим серьезным снегопадом и отработайте возможность работы из дома.

Очевидно, все это должна сопровождать серьезная технологическая подготовка. Ключевым моментом является обеспечение  возможности удаленной работы. По мере расширения использования технологий виртуализации рабочих станций данная задача становится технологически все более простой, но важно не забывать обеспечить возможность одновременной удаленной работы значительного числа сотрудников. Не стоит забывать и про организацию самого процесса принятия решений и информирования персонала. В зависимости от масштаба организации, задачи сбора необходимой информации о сотрудниках и массового оповещения могут быть выполнена как с использованием специализированных решений, так и вручную, но главное — процесс должен быть спланирован и отработан.

Управление непрерывностью бизнеса — новинки рынка

Как водится, к концу года вендоры стараются отметиться чем-то интересным. Не остался в стороне и SunGard, выпустивший новую версию Continuity Management Solution 10.7, расширив ее возможностями, которых реально не хватало в проектах.

Во-первых, это Recovery Workflow.

Кстати, объявляется конкурс на лучший перевод термина workflow. Победителю — всеобщее признание и моя личная благодарность 🙂.

Если раньше план непрерывности или аварийного восстановления мог содержать в себе только «плоские» списки задач, то начиная с 10.7 в LDRPS появилась возможность определять деревья принятия решений, зависимости, и альтернативные сценарии.

Теперь для построения workflow, кроме традиционных задач (tasks), можно использовать такие элементы, как точки принятия решений с последующим ветвлением, семафоры ожидания (для синхронизации различных потоков и т.п.), триггеры для запуска внешних workflow, и т.п.

Выглядит это все примерно вот так.

Проектируя Workflow, для любой задачи можно оценить, сколько времени (минимум и максимум) пройдет с момента активации плана до начала ее выполнения, а также сколько времени остается до завершения данного фрагмента плана (на рисунке в правом нижем углу). Эта возможность может оказаться очень полезной при проверке достижимости  RTO для процессов или крупных систем.

Вторая полезная функция — это возможность использования внутри полей Rich Text Formatting.  Благодаря этому результирующий план может приобрести гораздо более аккуратный и современный вид.

Остальные нововведения относятся к интеграции между собой компонентов CMS. Добавился интегрированный вход в систему оповещения NotiFind, раcширились возможности по обмену данными между LDRPS и Incident Manager.

Продукт доступен для заказа — можно успеть до конца года 🙂

Webinar по автоматизации процессов управления непрерывностью бизнеса

29 апреля в 15:00 я постараюсь в течение одного часа дать обзор текущей продуктовой линейки SunGard Continuity Management Solution, и как с помощью этих продуктов автоматизировать жизненный цикл управления непрерывностью бизнеса.

С декабря прошлого года линейка SunGard CMS заметно расширилась, и про все решения  в комплексе мы  еще ни разу не рассказывали.

Из новых решений речь пройдет про три  продукта, дополнивших BIA Professional:

Кроме того, будет рассказано и про функциональность, появившуюся в новых версиях продуктов LDRPS и BIA Professional.

Как всегда, Вебинар проходит на русском языке и абсолютно бесплатен 🙂

Update 1: Запись Вебинара доступна здесь.

Восстановление рабочих мест, или как не ходить на работу

На этой неделе посетил конференцию Citrix. Встретил массу добрых знакомых, послушал про последние достижения науки и техники, и даже (хотя и после некоторых шаманских ритуалов) смог убедиться в том, что мой телефон на Андроиде вполне способен выступать в качестве клиентского устройства для Citrix XenApp.  Но кроме всего этого основной лейтмотив конференции побудил меня написать про тему, которую давно уже собирался осветить — восстановление рабочих мест.

Не претендуя на то, чтобы в одном посте дать комплексный набор рекомендаций, постараюсь обозначить основные области, заслуживающие внимание. Продолжить чтение «Восстановление рабочих мест, или как не ходить на работу»

А если завтра снег?

Сегодня попалась на глаза статья уважаемого человека, Charlie Maclean-Bristol, написанная им по следам сурового похолодания и снежных заносов, выпавших на долю Великобритании в этом году. Не буду пересказывать статью целиком, но остановлюсь на нескольких моментах, показавшихся мне наиболее интересными, дополнив своими мыслями и рассуждениями.

Случится то происшествие, которого вы не ждете.

Казалось бы, ничего нового, про это говорится от раза к разу, но, несмотря ни на что, зачастую готовимся мы именно к тому, с чем уже сталкивались в обозримом прошлом. Типичный пример тому — меры, принимаемые TSA по обеспечению безопасности полетов после очередных [попыток] терактов, когда защитные меры почему то выстраиваются исходя из предположения, что следующая попытка теракта произойдет в точности по сценарию предыдущей. Мораль — планы обеспечения непрерывности деятельности должны быть:
а) достаточно гибкими
б) рассчитывать на самые худшие сценарии развития ситуации

Не рассчитывайте на работоспособность коммунальных служб

Продолжить чтение «А если завтра снег?»

Типовой план ОНиВД для банков

Анализируя запросы, по которым читатели попадают на этот блог, я обратил внимание, что достаточно большой процент запросов посвящен поиску типовых планов ОНиВД для банков. Потребность вполне обоснованная — банковская сфера на сегодняшний день единственная в России, где присутствует четкое регулирование в области непрерывности деятельности (Положение Банка России №242-П). При этом, если крупные банки могут себе позволить выделенный персонал и привлечение внешних консультантов для выполнения этой работы, то в средних и малых банках функция ОНиВД как правило дается «в нагрузку» кому-то из уже существующих сотрудников.

Внутри своей компании мы уже обсуждали возможность сделать типовое решение для банков, которое позволит провести анализ воздействия на бизнес, оценку рисков и на основе собранной информации сформировать типовой план ОНиВД. В США такое решение достаточно успешно функционирует — система PlaNET, разработанная SunGard Availability Solutions на основе продуктов LDRPS и BIA Professional с ограниченной функциональностью. Основные ограничения, внесенные в продукт  —  это невозможность изменения шаблонов планов, опросных листов и т.п. Взамен этого заказчик получает встроенную в продукт методологию проведения анализа  воздействия на бизнес, оценки рисков и типовые планы, учитывающие специфику банковской деятельности.

Со своей стороны, мы (Алмитек) готовы сделать типовое решение по созданию планов ОНиВД на движке Continuity Management Solution, включающем в себя BIA Professional, Risk Assessment и LDRPS. Но для того, чтобы этот проект был успешен, нам необходимо две вещи:

  • Реальный интерес к продукту со стороны рынка, подтвержденный готовностью платить за такой сервис сумму порядка 30 тыс. рублей в месяц;
  • Несколько банков, которые согласятся выступить первыми пользователями решения, и примут участие в опытной эксплуатации продукта. Взамен эти банки получат более выгодные условия предоставления данного сервиса.

Если вы представляете банк, которому может быть интересно либо использовать готовый сервис, либо принять участие в его создании, я буду признателен за короткое письмо на адрес bcp@almitech.ru, в котором вы обозначите ваш интерес к решению.

Business Impact Analysis — обзор нового продукта

С начала октября мы принимаем участие в бета-тестировании новой версии продукта для проведения анализа воздействия на бизнес — Business Impact Analysis Professional компании SunGard Availability Services. По нашей оценке, продукт уже достиг достаточного уровня стабильности работы, чтобы о нем было не стыдно рассказывать, и, предваряя примерно на месяц выход коммерческой версии, сегодня я расскажу об основных возможностях продукта.

Для тех читателей, которые не знакомы с функциональностью предыдущих версий, несколько слов о том, для чего предназначен BIA Professional. Продукт позволяет автоматизировать рутинную часть работы по проведению анализа воздействия на бизнес, а именно — подготовку анкет/опросных листов, рассылку их анкетируемым сотрудникам, сбор, консолидацию и последующий анализ информации. Что немаловажно, продукт позволяет обеспечить повторное использование информации — при регулярном обновлении результатов BIA, пользователям не надо заново отвечать на те же самые вопросы,  а достаточно только проглядеть сохраненные старые ответы, и, при необходимости, внести корректировки.

Перед тем, как начать описывать возможности продукта, я бы хотел сделать акцент на том, в каких случаях организации действительно нужен BIA Professional, чтобы получить адекватную отдачу от сделанных инвестиций. Давайте рассмотрим три критерия, каждый из которых может послужить достаточным аргументом для приобретения продукта.

  1. Масштаб организации. Если в процессе проведения анализа воздействия на бизнес вам приходится проводить анкетирование значительного числа сотрудников, то BIA Professional может оказаться существенным подспорьем. По моему опыту, собрать и консолидировать информацию даже из 50 анкет — это уже серьезный труд.
  2. Динамика организации. Если бизнес-процессы, внутренняя или внешняя среда организации подвержены частым изменениям, то скорее всего вам приходится обновлять результаты BIA 1-2 раза в год. Как следствие, этот процесс будет регулярно требовать отвлечения от основной деятельности большого числа руководителей среднего и высшего звена, и крайне важно минимизировать затраты их времени.
  3. Методология. Если вы хотите быть уверенным, что весь процесс BIA, начиная со сбора информации, и заканчивая подготовкой финальных отчетов, происходит в строгом соответстии с разработанной вами формальной методикой, средства автоматизации позволят вам добиться этого результата. Более того, вы можете предъявить этот факт при аудите вашей системы обеспечения непрерывности деятельности (будь то аудит Банка России по 242-П, или аудит на соответствие BS 25999).
Теперь давайте посмотрим, какие возможности предоставляет BIA Professional версии 10. Что появилось нового по сравнению с предыдущей версией? Во-первых,  продукт полностью интегрирован с LDRPS 10, а если быть точнее, то все продукты SunGard теперь становятся частью единой системы — Continuity Management Solution (CMS). Это больше, чем маркетинговый шаг — все компоненты CMS используют одну и ту же платформу, хранят свои данные в единой СУБД и используют общий механизм управления пользователями.

Основной экран системы теперь выглядит таким образом:

На сегодняшний день в CMS интегрировано 3 продукта — BIA, Risk Assessment и LDRPS. Оставшиеся Incident Manager и Notifind обладают механизмами интеграции, но пока функционируют на другой платформе.

Выбрав BIA Professional, мы «проваливаемся» в основное меню системы. То, что мы видим на экране системы, предназначено для администратора, интерфейс для конечного пользователя, анкетируемого сотрудника, значительно проще, до него мы дойдем чуть позже. Продолжить чтение «Business Impact Analysis — обзор нового продукта»

VMware — возможности vSphere по обеспечению непрерывности ИТ-сервисов

В начале октября  компания VMware выпустила новую версию своего продукта для обеспечения послеаварийного восстановления — Site Recovery Manager 4.0. 

В честь этого события я решил сделать небольшой обзор HA/DR решений от VMware с целью более корректного позиционирования решений и понимания существующих ограничений. Этот текст предназначен не для продвинутых инженеров VMware, которые вряд ли найдут здесь что-то новое для себя, но для специалистов, определяющих архитектуру HA/DR решений, и желающих понять возможности, предоставляемые продуктами VMware.

VMware High Availability (HA)

VMware High AvailabilityVMware HA позволяет в случае выхода из строя одного из серверов кластера ESX перезапустить все гостевые машины на оставшихся серверах. Решение является аналогом Active-Passive кластера из мира «железных» серверов, за исключением того, что не возникает проблем расхождения конфигураций, которая серьезно осложняет жизнь администраторов, обслуживающих большой парк серверов. Незначительным недостатком данного решения является определенное, хотя и небольшое, время восстановления (RTO), необходимое на перезапуск вирутальной машины.
VMware HA не требует дополнительного лицензирования, доступен для vSphere, начиная с версии Essential Plus.

 VMware Fault Tolerance (FT)

VMware Fault ToleranceVMware FT отчасти напоминает Active-Active кластер, но при ближайшем рассмотрении фунционирует принципиально по другому. Целью использования FT является обеспечение практически нулевого RTO в случае выхода из строя сервера ESX. Достигается это параллельным выполнением виртуальных машин на двух соседних серверах на уровне параллельного выполнения команд процессора. При этом весь вывод на дублирующей виртуальной машине подавляется на уровне гипервизора. Основным ограничением данной технологии на сегодняшний момент является невозможность использования FT для виртуальных машин с числом процессоров больше одного, а также невозможность создания FT кластера из машин, построенных на процессорах различной архитектуры. Кроме того, естественным ограничением является требование хранения виртуальных машин на разделяемой СХД.
VMware FT не требует дополнительного лицензирования, доступен для vSphere, начиная с версии Advanced.

VMware Site Recovery Manager (SRM)

В отличие от двух предыдущих решений, обеспечивающих локальные отказоустойчивые решения, SRM позволяет создавать распределенные решения для послеаварийного восстановления.
На DR-сайте разворачивается самостоятельная виртуальная инфраструктура, по мощности достаточная для выполнения виртуальных машин, которые планируется перенести в случае выхода из строя основного сайта. Из дополнительных элементов на обоих площадках разворачивается vCenter Site Recovery Manager.
В момент чрезвычайной ситуации отрабатывается план(ы) послеаварийного восстановления, которые определяют последовательность «выключения» виртуальных машин на основном сайте (если он доступен), и их запуска на DR сайте. Если в «мирное» время DR сайт используется для решения других задач, то SRM позволяет перед выполнением плана аварийного восстановления временно перевести в оффлайн функционирующие на сайте машины, и начать их восстановление  после того, как отработает DR план.
 Из основных отличий SRM версии 4 от предыдущей версии:
  • Поддержка vSphere;
  • Возможность работать с shared DR сайтами, что позволяет использовать один DR сайт для резервирования нескольких основных сайтов;
  • Поддержка переноса машин, работающих в режиме Fault Tolerance;
  • Расширенная поддержка СХД — NFS, iSCSI, Fiber Channel.
При использовании решения важно учитывать, что SRM никоим образом не обеспечивает репликацию данных — образы виртуальных машин реплицируются средствами СХД.
Site Recovery Manager лицензируется, как отдельный продукт.

ЦБ по прежнему лидирует

Банк России, который в этом году заметно вырвался вперед по отношению к остальным регуляторам, продолжает поддерживать статус лидера. На этот раз — в части информационной поддержки сообщества.

В 15 выпуске издания «Платежные и расчетные системы» ЦБ опубликовал переводы сразу двух документов в области непрерывности бизнеса в финансовой сфере: «Руководящие принципы обеспечения непрерывности бизнеса» Базельского банковского комитета (Банк по международным расчетам), и «Рекомендации по наблюдению за непрерывностью деятельности для системно значимых платежных систем» Европейского Центробанка.

Первый документ, как известно, послужил основой при выпуске изменений к Инструкции 242-П, поэтому на нем я остановлюсь поподробнее. Второй тоже достаточно любопытно прочитать, среди прочих моментов он дает чуть более широкий взгляд на целевые показатели обеспечения непрерывности деятельности, ставя для ряда участников рынка по главу угла влияние от прерывания деятельности не на их собственный бизнес, а на платежную систему на уровне страны (точнее говоря, Еврозоны). Несмотря на то, что документ ориентирован на финансовые организации стран Еврозоны, прочитать стоит, тем более, что документ небольшой. Единственное, рекомендую читать в оригинале, т.к. перевод этого документа, в отличие от «Руководящих принципов…», сильно оставляет желать лучшего.

Теперь вернемся к «Руководящим принципам…»

Поскольку этот документ во многом лег в основу измений к 242-П, достаточно интересно посмотреть, что из семи принципов вошло в 242-П, и в каком виде. Итак, по порядку.

Принцип 1. Ответственность совета директоров и высшего руководства.
«Советы директоров и высшее руководство организаций несут коллективную ответственность за непрерывность бизнеса организации.»

Принцип безусловно разумный, и, среди прочего, пересекается с рекомендациями BS 25999. Однако, в 242-П по каким-то причинам эти рекомендации не вошли. Тем не менее, основываясь на своем опыте, я бы рекомендовал максимально стараться воплотить его в жизнь — система будет работать горадо эффективнее.

Принцип 2. Крупные операционные нарушения.
«Участники финансового сектора и финансовые органы при формировании подхода к управлению непрерывностью бизнеса должны учитывать риск крупного операционного нарушения. Финансовым органам также следует оценить их собственную реакцию на потенциальные крупные операционные нарушения, которые могут затруднить проведение операций участниками финансового сектора или финансовой системой, за работу которой они несут ответственность.»

Тезис о том, что планы ОНиВД должны предусматривать возможность масштабных ЧС в 242-П вошел, и даже был дополнен ссылками на Российские нормативные документы. А вот рекомендации по поводу альтернативных площадок остались за кадром.

Принцип 3. Цели восстановления
«Участники финансового сектора должны сформулировать для себя цели восстановления, учитывающие потенциальный риск, который они представляют для операций финансовой сферы. Предпочтительно, чтобы формулировки таких целей восстановления были согласованы с соответствующими финансовыми органами или разрабатывались ими.»

Если в «Принципах…» делается упор на возможной влияние на финансовую систему в целом, то 242-П больше сфокусировано на стандартных для анализа воздействия на бизнес аспектах, т.е. влияние на бизнес кредитной органиации, как таковой.

Принцип 4. Обмен информацией.
«Участники финансового сектора и финансовые органы должны включать в свои планы обеспечения непрерывности бизнеса процедуры для обмена информацией во время крупного операционного нарушения внутри организации и с соответствующими внешними сторонами.»

Принцип нашел свое отражение в 242-П (Пункт 7 Приложения 5), хотя и в более общей форме.

Принцип 5. Трансграничный обмен информацией.
«Процедуры обмена информацией для участников финансового сектора и финансовых органов на случай крупных операционных нарушений, затрагивающих несколько стран, должны предусматривать обмен информацией с финансовыми органами, действующими в пределах других юрисдикций.»

Пункт разумный, но учитывая не очень высокий уровень зрелости нашей банковской системы в области непрерывности бизнеса, а также не такой высокий уровень интеграции в мировую банковскую систему — пока не нашел своего отражения в 242-П.

Принцип 6. Проверки (тестирование).
«Участники финансового сектора и финансовые органы должны производить проверку своих планов
обеспечения непрерывности бизнеса, оценивать их эффективность и соответствующим образом совершенствовать управление непрерывностью бизнеса.»

 Здесь 242-П раскрывает вопрос даже более подробно. Единственное, пожалуй, что было исключено — это крупномасштабное тестирование с вовлечением множества кредитных организаций. Наверное, не самое сейчас подходящее время — не все могут выдержать…

Принцип 7. Контроль за управлением непрерывностью бизнеса со стороны финансовых органов
«Финансовые органы должны включать в практику своей работы осуществление контроля за управлением непрерывностью бизнеса для проведения оценки участников финансового сектора, находящихся в сфере их ответственности.»

Этот пункт относится скорее к деятельности самого ЦБ, и появление изменений к 242-П можно считать первым шагом на пути выполнения этого принципа.

Обобщая все вышесказанное, можно рискнуть сделать следующие выводы:

  1. В некоторых аспектах «Руководящие принципы…» оказываются более подробными, чем 242-П, соответственно, и в этих вопросах ими можно и нужно пользоваться. Равно как и другими стандартами, такими как BS 25999, BS 25777.
  2.  «Руководящие принципы…» дают некоторое представление, в какую сторону, скорее всего, будет развиваться регулирование со стороны ЦБ.