status.mcs.mail.ru Open in urlscan Pro
95.163.254.193  Public Scan

URL: https://status.mcs.mail.ru/incident/7394c957-8ccd-4adf-b018-b3d56d0b839c
Submission: On December 02 via manual from RU — Scanned from DE

Form analysis 0 forms found in the DOM

Text Content

Подписаться на обновления
 1. Инциденты
 2. Авария в одной из зон доступности ЦОД Гознак GZ1


АВАРИЯ В ОДНОЙ ИЗ ЗОН ДОСТУПНОСТИ ЦОД ГОЗНАК GZ1

30 нояб. 2023, 8:27 (UTC+03:00)
Как развивались события
Resolved
вчера в 23:45 (UTC+03:00)

Уважаемые клиенты, уведомляем вас о том, что аварийно-восстановительные работы
были завершены 01.12.2023 в 12:26.

Далее проводились работы по устранению последствий с каждым клиентом. На текущий
момент инфраструктура полностью восстановлена. Точечно решаем оставшиеся
проблемы.

Дальнейшие действия: Приступим к внутреннему анализу и полной оценке причин
аварии, её хода и разработаем план действий для предотвращения подобных ситуаций
в будущем.

Investigating
вчера в 12:26 (UTC+03:00)

Коллеги, сообщаем статус аварийно-восстановительных работ.

Корневые причины устранены в 12:26. Ваши ресурсы должны быть доступны.
Планируемое устранение последствий аварии: 17:00

Если Вы наблюдаете остаточный эффект, просим Вас сообщать о недоступностях,
замедлениях или деградации в работе вашей инфраструктуры и сервисов.

Для ускорения работ по устранению артефактов просим предоставлять данную
информацию в формате: Вид проблемы/недоступности || Как проявляется || ID
затронутых сущностей

О полном устранении последствий аварии сообщим дополнительно.

Investigating
вчера в 11:37 (UTC+03:00)

Столкнулись с рядом проблем на финальной стадии аварийно-восстановительных
работ.

Для части клиентов могут быть частично недоступны или наблюдаться временные
проблемы: С сетевой связностью ВМ внутри сети; На стороне балансировщиков
нагрузки; С доступностью части физических носителей информации (CEPH-диски из
одного реплицируемого кластера). Данные не пострадали;

Плановое время окончания финального этапа аварийно-восстановительных работ:
13:00

Дальнейшие действия: Если процесс восстановления данных из РК занимает менее
двух часов и доступ к информации критически важен - предлагаем провести
восстановление из РК Просим сообщать нам о любых недоступных сущностях на данный
момент.

Investigating
вчера в 0:30 (UTC+03:00)

Уважаемые клиенты, мы продолжаем аварийно-восстановительные работы, бОльшая
часть ВМ доступна, в некоторых случаях могут не отрабатываться DNS запросы и
DHCP запросы, так же может наблюдаться временная недоступность балансировщиков
нагрузки и файловых хранилищ. Предполагаемое время обновления статуса по аварии
11:00. Мы делаем все возможное для устранения аварии.

Investigating
вчера в 0:30 (UTC+03:00)

Изначально предполагалось, что для купирования основной части аварии нам будет
достаточно произвести перестроение портов в зоне доступности gz1. Для клиентов,
изолированных в одной зоне доступности, это действительно так. Однако многие
клиенты используют связанные ресурсы в нескольких зонах доступности, и в этом
случае сетевая связность между зонами могла быть нарушена для ряда сущностей. На
данный момент мы не можем гарантировать полную работоспособность сети без
полного перестроения потоков данных для всех сущностей в обеих зонах доступности
Предполагаемое время окончания работ: 09:00 по Москве 01.12.2023. Приносим свои
извинения за сложившуюся ситуацию.

Investigating
30 нояб. в 23:55 (UTC+03:00)

Мы продолжаем аварийно-восстановительные работы. Поступила новая информация от
инженеров:

 1. Изначально были предпосылки и уверенность, что нам достаточно отребилдить
    только порты в gz1 + network nodes + dhcp (~ 60к портов)
 2. В процессе работ мы стали получать обращения и с проблемами в MS1
 3. Поддержка в рамках ребилда была вынуждена отправлять в ребилд и гипервизоры
    из зоны ms1
 4. Поддержка не может гарантировать работоспособность сети без полного фул
    синка всех сущностей в обеих зонах доступности в связи с этим для
    гарантированной стабильной работы необходимо отребилдить все 97 тысяч портов
 5. На данный момент мы отребилдили 54 тысячи портов, осталось отребилдить еще
    43 тысяч, средняя скорость ребилд 6500/час, то есть ребилд займет еще
    минимум 7 часов

Таким образом ожидаемое время окончания работ: 09:00 по Москве 01.12.2023.
Приносим свои извинения за сложившуюся ситуацию.

Investigating
30 нояб. в 21:51 (UTC+03:00)

Восстановительные работы еще продолжаются, инженеры ориентируют нас на срок до
04:00 по Москве.

Investigating
30 нояб. в 17:06 (UTC+03:00)

Продолжаются аварийно-восстановительные работы, после отключения питания в
Гознак. В связи с большой нагрузкой необходима перезагрузка сервиса очередей,
для повышения пропускной способности, что влечет за собой полное пересоздание
сетевой топологии в зоне доступности GZ1. Ориентировочное время восстановления:
00:00 01.12.2023

Investigating
30 нояб. в 13:30 (UTC+03:00)

Все еще ведутся аварийно-восстановительные работы. Часть сервисов может быть
доступна.

Investigating
30 нояб. в 10:04 (UTC+03:00)

В данный момент частично восстановлена работоспособность виртуальных машин
(некоторая часть дисков стала доступна). Однако допускаются проблемы с сетью.
Рекомендуем дождаться окончания аварийно-восстановительных работ.

Investigating
30 нояб. в 9:51 (UTC+03:00)

Электропитание полностью восстановлено. Проводятся аварийно-восстановительные
работы.

Investigating
30 нояб. в 8:45 (UTC+03:00)

Отключилась основная линия питания, осуществлен переход на резервные линии.

Identified
30 нояб. в 8:27 (UTC+03:00)

Обнаружена проблема с электропитанием в зоне доступности GZ1

Затронутые объекты

Partial outage
Хранилище High-IOPS
DNS
Аналитические БД
Базы данных
Баланс
Большие данные
Виртуальные сети
Доступ во внешнюю сеть (External Network)
Кластер HDD
Кластер SSD
Контейнеры
Облачные вычисления
Портал MCS UI (mcs.mail.ru)
© 2023 VK Cloud
Поддержка в Telegram