Как создать проблему на пустом месте, или «кабель к МКС»

Вчерашний вечер в Москве выдался неспокойным — сначала объявили технический перерыв на бирже, потом над городом зачем-то летали вертолеты, и, наконец, повредили кабель, соединяющий подмосковный Центр Управления Полетами, гражданскую спутниковую группировку и МКС. Нет, не напрямую соединяющий, конечно :). Но, судя по всему, являвшийся важным элементом системы, если не единой точкой отказа. Продолжить чтение «Как создать проблему на пустом месте, или «кабель к МКС»»

Предотвращать или бороться с последствиями?

По следам урагана Сэнди, который обойдется США минимум в 30 миллиардов долларов (а по некоторым оценкам, если посмотреть внимательно, сумма ущерба может вырасти и до 45 миллиардов), в сети промелькнула ссылка на интересную статистику. Причем, справедливости ради отмечу — не нашу, американскую. Про нашу даже думать страшно.

Внимание: С 1998 по 2009 бюджет, выделяемый в США на преодоление последствий ЧС, вырос в 13 раз. При этом затраты на предотвращение возникновения подобного рода последствий остались на том же уровне. Продолжить чтение «Предотвращать или бороться с последствиями?»

Кризисная коммуникация — разбор полетов

Вчера (19.01.2012) в Москве случился пожар в коллекторе в районе Бутырского вала, в результате которого выгорело, по неподтвержденным данным, метров 60 кабелей. Сколько именно —  для нас сейчас неважно, для нас интереснее проанализировать развитие ситуации во времени. Сообщение о возгорании поступило на дежурный пульт МЧС в 9 часов 36 минут, а ликвидирован пожар был в 13 часов 41 минуты. Такое продолжительное время тушения пожара имеет под собой понятную основу — сначала энергетики должны снять напряжение с силовых кабелей, потом их можно начинать тушить.

В принципе, почти рядовое событие, если бы в результате него офисный центр, в котором расположена наша компания, с самого утра не остался без телефонной связи. Естественно, я не смог удержаться от того, чтобы провести собственное расследование того, как Билайн взаимодействует с внешним миром во время существенного инцидента. Продолжить чтение «Кризисная коммуникация — разбор полетов»

Облака и молнии

Вчера утром метким ударом молнии был полностью выведен из строя датацентр в Дублине,  в котором размещаются все мощности Amazon AWS, обеспечивающие европейскую зону, а также Microsoft’s Business Productivity Online Standard Suite.

Несмотря на наличие резервирования по питанию, удар молнии и последовавший за ним взрыв на трансформаторной подстанции вывел из строя не только основную систему электроснабжения, но и резервные генераторы. В результате,электроснабжение удалось восстановить через 3 часа, но такое жесткое выключение ЦОДа привело к необходимости серьезного ручного вмешательства при восстановлении серверов. На момент написания этого текста процесс восстановления продолжался, и, по оценке Amazon, может занять 24-48 часов.

Неприятной особенностью данного сбоя AWS оказалось то, что те европейские пользователи AWS, которые по требованиям законодательства не могут хранить свои данные за пределами EU, оказались лишены возможности перенести свои приложения в другие ЦОДы Amazon — это был единственный ЦОД европейской зоны.

Возможно, это событие заставит многих пересмотреть оценку надежности облачных провайдеров и задуматься о необходимости резервирования наиболее критичных приложений в облаках альтернативных провайдеров. Учитывая модель ценообразования для облаков, эта задача может оказаться менее затратной, чем в «дооблачном мире», т.к. резервная инфраструктура, хотя и требует существенных объемов для хранения данных, но может оказаться существенно дешевле в части аренды вычислительных мощностей в «мирное время».

Update 1. По уточненной информации, недоступна была только часть европейской availability zone. См. также историю о том, как поднимались коллеги из Битрикса, расположенные на этой площадке.

Лето. Латвия. Отдыхаем от мобильной связи.

Сегодняшний день ознаменовался серьезным ЧП для Tele2-Латвия, крупнейшего в Латвии оператора, обслуживающего в этой стране  более 1.1 млн. абонентов. По поступающим новостям Латвийских информационных агентств, начиная с 14:30 (15:30 МСК) не работает полностью вся сеть оператора.

По обрывочным сведениям, причина где-то в электроснабжении, что в наши дни звучит по-меньшей мере странно, уж операторы всегда делают достаточное резервирование.

Так что ждем новостей, следим за апдейтами…

Update 1. (18:30 МСК). Судя по всему, prepaid-платформа в Риге обслуживала также абонентов Эстонии и Литвы. Эстония поднялась в течение 20 минут, про Литву информации нет. Общее число затронутых аварией абонентов — превысило 2 миллиона.

Update 2. (18:40 МСК). Начали приходить сообщения о восстановлении работы сети.

Где моя свинья девятого уровня??

Серьезное несчастье постигло пользователей Sony PlayStation. В результате атаки неустановленных злоумышленников, которая, по заявлению Sony, происходила 17-19 апреля (3 дня, и никто не заметил? или так и не поняли, когда было?),  PlayStation Network перестала работать.  26 апреля Sony порадовала своих пользователей, что, оказывается, в результате атаки были похищены их персональные данные, включая, возможно, номера кредитных карт, и призвала активно мониторить транзакции по счетам.

При этом PlayStation Network по-прежнему не работает, и остается только предполагать, что тому виной — либо в процессе атаки вся инфраструктура была сознательно сильно порушена (но где же тогда оффлайн бекапы?), либо дыра в безопасности оказалась столь серьезной, что Sony предпочла прекратить предоставление сервиса до устранения этой проблемы.

Тем временем, судя по реакции в блогосфере, пользователи (а их число превосходит 75 млн) разделились на три группы — наиболее взрослые пошли блокировать карты и менять пароли на других сервисах, другие, не выдержав столь долгого «одиночества» пошли покупать XBox’ы и т.п., а третьи ждут восстановления сервиса и сильно волнуются за сохранность своих виртуальных активов- примерно вот так.

Не владея информацией о том, как была построена инфраструктура PSN, довольно тяжело комментировать столь затянувшееся восстановление, но, на мой взгляд, неделя (плюс еще неизвестно сколько) — это в любом случае неприлично много для онлайн-сервиса с таким количеством пользователей. Коммуникация с пользователями также была крайне неспешной и малоинформативной.

Впрочем, это первая оценка происшедшего, посмотрим, чем закончится эта история…

Update 1: 27 апреля Sony разместила в своем блоге относительно подробные Q&A по ситуации. Согласно официальной позиции, сервисы были сознательно отключены из соображений безопасности (читай, обнаружена такая дыра, закрыть которую оперативно не получается), и появились первые прогнозы по срокам восстановления — одна неделя, отсчитывая с 26 апреля (не гарантированные, но «we expect to have some services up and running «). Тем временем за два торговых дня 26 и 27 апреля котировки Sony на NYSE упали на 3.3%.

Update 2: За 28 апреля никаких видимых существенных изменений не произошло. Еще 2.2% вниз.

Проблемы с доступностью Amazon Web Services

Три дня заняло у Amazon разрешение проблем с доступностью сервисов EC2 и RDS в одной из зон, North Carolyna.

Amazon Web Services StatusК размышлению о том, как резервировать облачные сервисы — в разных зонах, у разных провайдеров, в частных облаках….

Internet «Kill Switch» — новый тренд в телекоме?

Похоже, отключение страны от Интернета целиком становится хорошим тоном в момент общественных волнений. В пятницу от Интернета отключили Ливию, причем, в отличие от Египта, обрубив трафик сразу до нуля.

Америка тем временем потихоньку обсуждает право президента иметь Internet «Kill Switch»

(к сожалению, ролик не доступен для встраивания, но его можно посмотреть на Youtube)

Похоже, наряду с резервированием каналов в Интернет пора на полном серьезе рассматривать альтернативные способы коммуникации с внешним миром и своими контрагентами.

Подготовка к чрезвычайным ситуациям — учимся у Австралии

Уже второй раз за год на долю Австралийского континента выпало более чем серьезное испытание. В эти часы северо-восточное побережье накрывает циклон Яси (Yasi) 5-й (самой высокой категории), со скоростью ветра, достигающей в эпицентре 300 км/ч. Это много. Это реально очень много. Это сносит дома с легкостью. Про воду льющуюся снизу и сверху я молчу — ее тоже будет много. В общем, не дай бог никому. Но речь, собственно не про то.
Австралийцы очень грамотно подходят к подготовке к такого рода событиям. Такие циклоны не случаются внезапно — это только у нас снег по зиме выпадает неожиданно. У них было несколько дней на подготовку к данному конкретному испытанию, и несколько лет, если не десятилетий, на выстраивание эффективной системы противодействия. В результате:

  1. Кого можно было эвакуировать из предполагаемой зоны разрушений — эвакуировали. Не забыли про пациентов местных госпиталей, пожилых людей и т.п. — для них все организовали. И дороги перекрывали для того, чтобы беспрепятственно могли проехать автобусы с людьми, а не для того, к чему мы привыкли.
  2. Когда наступил час Х, после которого эвакуироваться уже поздно — эвакуация была четко остановлена, и людям было настоятельно рекомендовано воспользоваться убежищами или максимально защищенными помещениями в собственных домах.
  3. Циклон еще не подошел, но власти уже понимали, что в результате будут нарушены электроснабжение и связь.  Логично же? Стихию не остановишь. Что было сделано? Две простых, но чертовски разумных вещи. Во-первых, людей об этом предупредили. Во-вторых, в Квинсленд из других штатов направили дополнительные восстановительные бригады, которые ждут, когда пройдет циклон, чтобы сразу заняться восстановительными работами.
  4. Информирование людей осуществляется просто идеально. Начиная с того, что каждый час премьер выступает по ТВ с абсолютно конкретными, содержательными обращениями к народу, и заканчивая информированием через Интернет (про это я уже писал, и по прежнему страничка полиции Квинсленда на Facebook служит для меня отличным источником информации о происходящем), и по радио (которое с большей вероятностью будет продолжать работать и после удара стихии). Людям не только рассказывают что происходят, им дают четкие инструкции, что делать.

Обратите внимание на предыдущее наводнение. Разрушения были очень серьезными. Человеческих жертв — менее 50. Для такого масштаба бедствия — очень хороший показатель.

Так что есть чему поучиться. А жителям Австралии — удачи, сейчас им это не помешает.

Есть ли жизнь без Интернета и SMS? Египет, январь 2011.

Египетские власти выбрали необычный, ранее не встречавшийся (по крайней мере, в таком масштабе), способ ограничения для граждан доступа к информации. Страну отключили от Интернета (судя по имеющейся информации, обязали провайдеров погасить все DNS -сервера) и заблокировали сервис SMS-сообщений в сетях мобильной связи. Не суть важно, как это было реализовано технически, важно другое — это было сделано, и, судя по опубликованному сотрудником Arbor Networks анализу трафика, было сделано довольно эффективно, хотя и не на 100%.
А теперь задумайтесь о том, какие критичные для вас задачи вы не сможете выполнять в подобной ситуации. Есть ли у вас  альтернативные средства коммуникации, менее подверженные риску централизованного отключения — спутниковые телефоны, КВ-радиостанции, walkie-talkie, почтовые голуби? Знаете ли вы адрес вашего коллеги, если единственный способ вызвать его в офис  — приехать за ним на машине? Попробуйте всего лишь перенестись на 20 лет назад…

Update (02.02.2011) : Интернет сегодня включили. 6 дней страна прожила почти без Интернета.