Этот пост — не про пожар датацентра OVH в Страсбурге. Хотя сам по себе случай довольно выдающийся — выгорело полтора здания, потихоньку начали восстанавливать, но через неделю пошел дым из кладовки с батареями, которые, видимо, тлели всю эту неделю, все опять обесточили и т.п. Что послужило причиной пожара — покажет время (на дату написания этого текста рабочая версия — загоревшийся ИБП).
А пока немного мыслей о… В математике мы назвали бы это леммами.
- ЦОДы могут оказаться недоступны для вас. Из-за пожара (внутри, на крыше, в соседних зданиях), из-за проблем с электропитанием (вспоминаем тот же OVH в 2017), из-за конфликта акционеров (Мастерхост 2020), и т.п.. Наличие сертификации TIER-3, TIER-4 снижает часть этих рисков, но только снижает, и только часть.
- Бекапы, которые делал для вас провайдер, могут точно так же оказаться недоступны. Даже если они не пострадают, на их получение может выстроиться такая очередь, что к моменту их получения они могут оказаться бесполезными.
- Облачный провайдер, который представлялся вам решением всех проблем, может оказаться причиной краха вашей организации. Потому что строя свою инфраструктуру, он не подумал про предыдущие два пункта
Что из этого следует?
«Верить в наше время нельзя никому» (с). Для любого критичного для вашей организации сервиса у вас должен быть ответ как минимум на два вопроса.
- Где мой бекап? Этот вопрос влечет за собой еще десяток сопутствующих (как часто, как защищаем, как проверяем и т.п.), но важно, что у вас должна быть резервная копия данных, находящаяся под вашим контролем за пределами инфраструктуры основного поставщика. Даже если этот поставщик «too big to fail». Устойчивость и доступность поставщика не всегда распространяется на ваши данные.
- Имея данные, смогу ли я получить аналогичную услугу у альтернативного провайдера? Сколько времени и денег займет переключение? Нужен ли заранее подготовленный ЦОД или у меня будет время на заключение договора?
Ответ на первый вопрос превращается в политику и регламенты резервного копирования.
Ответ на второй — в стратегию и план аварийного восстановления.
Наверное, этот пост мог бы показаться слишком очевидным, если бы не подкрепляемая сотнями примеров неиссякаемая вера человечества в то, что другие люди о нас позаботятся, и предоставят 100% надежный сервис, с которым ничего не может случиться. Увы, случается, и будет случаться. И чаще, чем хотелось бы.