Annual outage analysis 2024 от Uptime Institute

На этой неделе Uptime Institute презентовал свой ежегодный отчет «Annual outage analysis» — что и у кого ломалось за прошлый год.

Полный отчет можно купить у Uptime Institute, а про некоторые моменты, освещенные в публичном вебинаре расскажу здесь.

Начну с хороших новостей. Серьезных сбоев становится меньше. Причиной этому может служить как улучшение технологий и процессов центров обработки данных, так и увеличение распределенности, вследствие которой проблема в одном датацентре не приводит к серьезным последствиям для организации.

Цена инцидента в среднем довольно высока: более половины инцидентов переваливают за планку $100 000, а 16% — за $1 000 000.

Интересно посмотреть на наиболее яркие инциденты, случившиеся в 2023 г. Тут комментировать — только портить.

Если посмотреть на причины, приведшие к существенным инцидентам, то с существенным отрывом лидирует электроснабжение (52%), за ним идет охлаждение (19%), все остальные набирают менее 10%.

Интересно посмотреть поподробнее, что стоит за 52% сбоев электроснабжения. И здесь уже кроется пространство для размышления и принятия решений. При кажущейся защищенности, не срабатывают ИБП, АВРы, генераторы — практически все, что угодно.

Люди ожидаемо ведут себя не идеально. То ли они не следуют инструкциям, то ли инструкции для них написаны неправильно.

Сетевые проблемы чаще всего связаны с ошибочными конфигурациями и только потом идут сбои на стороне провайдеров.

Аналогично выглядит ситуация с инцидентами ИТ, только отрыв первого места гораздо существеннее.

И напоследок интересное наблюдение, связанное со стратегией повышения отказоустойчивости. Несмотря на то, что организации продолжают вкладываться в повышение геораспределенного резервирования своей инфраструктуры, не меньше трети компаний занимается также повышением отказоустойчивости в рамках отдельной площадки.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *