На этой неделе Uptime Institute презентовал свой ежегодный отчет «Annual outage analysis» — что и у кого ломалось за прошлый год.
Полный отчет можно купить у Uptime Institute, а про некоторые моменты, освещенные в публичном вебинаре расскажу здесь.
Начну с хороших новостей. Серьезных сбоев становится меньше. Причиной этому может служить как улучшение технологий и процессов центров обработки данных, так и увеличение распределенности, вследствие которой проблема в одном датацентре не приводит к серьезным последствиям для организации.
Цена инцидента в среднем довольно высока: более половины инцидентов переваливают за планку $100 000, а 16% — за $1 000 000.
Интересно посмотреть на наиболее яркие инциденты, случившиеся в 2023 г. Тут комментировать — только портить.
Если посмотреть на причины, приведшие к существенным инцидентам, то с существенным отрывом лидирует электроснабжение (52%), за ним идет охлаждение (19%), все остальные набирают менее 10%.
Интересно посмотреть поподробнее, что стоит за 52% сбоев электроснабжения. И здесь уже кроется пространство для размышления и принятия решений. При кажущейся защищенности, не срабатывают ИБП, АВРы, генераторы — практически все, что угодно.
Люди ожидаемо ведут себя не идеально. То ли они не следуют инструкциям, то ли инструкции для них написаны неправильно.
Сетевые проблемы чаще всего связаны с ошибочными конфигурациями и только потом идут сбои на стороне провайдеров.
Аналогично выглядит ситуация с инцидентами ИТ, только отрыв первого места гораздо существеннее.
И напоследок интересное наблюдение, связанное со стратегией повышения отказоустойчивости. Несмотря на то, что организации продолжают вкладываться в повышение геораспределенного резервирования своей инфраструктуры, не меньше трети компаний занимается также повышением отказоустойчивости в рамках отдельной площадки.