status.mcs.mail.ru
Open in
urlscan Pro
95.163.254.193
Public Scan
URL:
https://status.mcs.mail.ru/incident/7394c957-8ccd-4adf-b018-b3d56d0b839c
Submission: On December 02 via manual from RU — Scanned from DE
Submission: On December 02 via manual from RU — Scanned from DE
Form analysis
0 forms found in the DOMText Content
Подписаться на обновления 1. Инциденты 2. Авария в одной из зон доступности ЦОД Гознак GZ1 АВАРИЯ В ОДНОЙ ИЗ ЗОН ДОСТУПНОСТИ ЦОД ГОЗНАК GZ1 30 нояб. 2023, 8:27 (UTC+03:00) Как развивались события Resolved вчера в 23:45 (UTC+03:00) Уважаемые клиенты, уведомляем вас о том, что аварийно-восстановительные работы были завершены 01.12.2023 в 12:26. Далее проводились работы по устранению последствий с каждым клиентом. На текущий момент инфраструктура полностью восстановлена. Точечно решаем оставшиеся проблемы. Дальнейшие действия: Приступим к внутреннему анализу и полной оценке причин аварии, её хода и разработаем план действий для предотвращения подобных ситуаций в будущем. Investigating вчера в 12:26 (UTC+03:00) Коллеги, сообщаем статус аварийно-восстановительных работ. Корневые причины устранены в 12:26. Ваши ресурсы должны быть доступны. Планируемое устранение последствий аварии: 17:00 Если Вы наблюдаете остаточный эффект, просим Вас сообщать о недоступностях, замедлениях или деградации в работе вашей инфраструктуры и сервисов. Для ускорения работ по устранению артефактов просим предоставлять данную информацию в формате: Вид проблемы/недоступности || Как проявляется || ID затронутых сущностей О полном устранении последствий аварии сообщим дополнительно. Investigating вчера в 11:37 (UTC+03:00) Столкнулись с рядом проблем на финальной стадии аварийно-восстановительных работ. Для части клиентов могут быть частично недоступны или наблюдаться временные проблемы: С сетевой связностью ВМ внутри сети; На стороне балансировщиков нагрузки; С доступностью части физических носителей информации (CEPH-диски из одного реплицируемого кластера). Данные не пострадали; Плановое время окончания финального этапа аварийно-восстановительных работ: 13:00 Дальнейшие действия: Если процесс восстановления данных из РК занимает менее двух часов и доступ к информации критически важен - предлагаем провести восстановление из РК Просим сообщать нам о любых недоступных сущностях на данный момент. Investigating вчера в 0:30 (UTC+03:00) Уважаемые клиенты, мы продолжаем аварийно-восстановительные работы, бОльшая часть ВМ доступна, в некоторых случаях могут не отрабатываться DNS запросы и DHCP запросы, так же может наблюдаться временная недоступность балансировщиков нагрузки и файловых хранилищ. Предполагаемое время обновления статуса по аварии 11:00. Мы делаем все возможное для устранения аварии. Investigating вчера в 0:30 (UTC+03:00) Изначально предполагалось, что для купирования основной части аварии нам будет достаточно произвести перестроение портов в зоне доступности gz1. Для клиентов, изолированных в одной зоне доступности, это действительно так. Однако многие клиенты используют связанные ресурсы в нескольких зонах доступности, и в этом случае сетевая связность между зонами могла быть нарушена для ряда сущностей. На данный момент мы не можем гарантировать полную работоспособность сети без полного перестроения потоков данных для всех сущностей в обеих зонах доступности Предполагаемое время окончания работ: 09:00 по Москве 01.12.2023. Приносим свои извинения за сложившуюся ситуацию. Investigating 30 нояб. в 23:55 (UTC+03:00) Мы продолжаем аварийно-восстановительные работы. Поступила новая информация от инженеров: 1. Изначально были предпосылки и уверенность, что нам достаточно отребилдить только порты в gz1 + network nodes + dhcp (~ 60к портов) 2. В процессе работ мы стали получать обращения и с проблемами в MS1 3. Поддержка в рамках ребилда была вынуждена отправлять в ребилд и гипервизоры из зоны ms1 4. Поддержка не может гарантировать работоспособность сети без полного фул синка всех сущностей в обеих зонах доступности в связи с этим для гарантированной стабильной работы необходимо отребилдить все 97 тысяч портов 5. На данный момент мы отребилдили 54 тысячи портов, осталось отребилдить еще 43 тысяч, средняя скорость ребилд 6500/час, то есть ребилд займет еще минимум 7 часов Таким образом ожидаемое время окончания работ: 09:00 по Москве 01.12.2023. Приносим свои извинения за сложившуюся ситуацию. Investigating 30 нояб. в 21:51 (UTC+03:00) Восстановительные работы еще продолжаются, инженеры ориентируют нас на срок до 04:00 по Москве. Investigating 30 нояб. в 17:06 (UTC+03:00) Продолжаются аварийно-восстановительные работы, после отключения питания в Гознак. В связи с большой нагрузкой необходима перезагрузка сервиса очередей, для повышения пропускной способности, что влечет за собой полное пересоздание сетевой топологии в зоне доступности GZ1. Ориентировочное время восстановления: 00:00 01.12.2023 Investigating 30 нояб. в 13:30 (UTC+03:00) Все еще ведутся аварийно-восстановительные работы. Часть сервисов может быть доступна. Investigating 30 нояб. в 10:04 (UTC+03:00) В данный момент частично восстановлена работоспособность виртуальных машин (некоторая часть дисков стала доступна). Однако допускаются проблемы с сетью. Рекомендуем дождаться окончания аварийно-восстановительных работ. Investigating 30 нояб. в 9:51 (UTC+03:00) Электропитание полностью восстановлено. Проводятся аварийно-восстановительные работы. Investigating 30 нояб. в 8:45 (UTC+03:00) Отключилась основная линия питания, осуществлен переход на резервные линии. Identified 30 нояб. в 8:27 (UTC+03:00) Обнаружена проблема с электропитанием в зоне доступности GZ1 Затронутые объекты Partial outage Хранилище High-IOPS DNS Аналитические БД Базы данных Баланс Большие данные Виртуальные сети Доступ во внешнюю сеть (External Network) Кластер HDD Кластер SSD Контейнеры Облачные вычисления Портал MCS UI (mcs.mail.ru) © 2023 VK Cloud Поддержка в Telegram