Произошёл глобальный сбой в работе сервисов Proton

05:40
10 Января 2025
denis-19
139

9 января 2025 года произошёл глобальный сбой в работе сервисов Proton. Сетевая инфраструктура платформы была недоступна в течение почти шести часов. В результате инцидента большинство клиентских сервисов были отключены, включая ProtonVPN, Proton Mail, Proton Calendar, Proton Drive, Proton Pass и Proton Wallet. Дольше всего сбой затронут пользователей Proton Mail и Calendar, которые долгое время не могли подключиться к своим аккаунтам.

При попытке подключения к Proton Mail пользователи получали сообщения об ошибках, гласящие: «Что-то пошло не так. Не удалось загрузить эту страницу. Пожалуйста, обновите страницу или проверьте подключение к Интернету».

«В настоящее время мы испытываем периодические сбои в работе сети, затрагивающие некоторых наших пользователей. Мы работаем над тем, чтобы полностью восстановить работу сервисов как можно скорее. Приносим извинения за причиненные неудобства», — говорилось на странице статусов Proton.

Через несколько часов администрация платформы сообщила, что инженеры устранили все сбои в работе служб и стабилизировали ситуацию. Они смогли оперативно определить основную причину проблемы, внедрить исправление и теперь занимаются отслеживаем обновления сервисов.

Ранее сегодня около 16:00 в Цюрихе количество новых подключений к серверам баз данных Proton резко возросло по всей инфраструктуре Proton.
Это перегрузило инфраструктуру Proton и сделало невозможным обслуживание всех клиентских подключений. Хотя Proton VPN, Proton Pass, Proton Drive/Docs и Proton Wallet были быстро восстановлены, проблемы с Proton Mail и Proton Calendar сохранялись дольше. Для этих служб во время инцидента примерно 50% запросов не удалось выполнить, что привело к периодической недоступности службы для некоторых пользователей (служба выглядела попеременно то работающей, то неработающей каждую минуту).
Обычно у Proton было бы достаточно дополнительных мощностей, чтобы справиться с этой нагрузкой, пока мы отлаживаем проблему, но в последние месяцы мы переносим всю нашу инфраструктуру на новую, основанную на Kubernetes. Это требует от нас одновременного запуска двух параллельных инфраструктур, без возможности легкого перемещения нагрузки между двумя совершенно разными инфраструктурами. В то время как все остальные сервисы были перенесены на новую инфраструктуру, Proton Mail все еще находится в середине процесса миграции.
Из-за этого мы не смогли автоматически масштабировать емкость для обработки огромного увеличения нагрузки. В общей сложности нам потребовалось около 2 часов, чтобы вернуться в состояние, в котором мы могли обслуживать 100% запросов, при этом пользователи до этого момента испытывали снижение производительности. Сервис был доступен, но только с перерывами, при этом производительность существенно улучшилась в течение второго часа инцидента, но потребовался дополнительный час для полного устранения.
Параллельное расследование нашей инженерной группы по надежности сайта выявило изменение программного обеспечения, которое, как мы подозревали, было ответственно за первоначальный скачок нагрузки. После того, как это изменение было отозвано (был выполнен его откат), нагрузка на базу данных вернулась к норме. Это изменение изначально не подозревалось, поскольку между моментом внесения этого изменения и проявлением проблемы прошло много времени, и первоначальный анализ кода показал, что оно не должно влиять на количество подключений к базе данных. Более глубокий анализ будет проведен в рамках нашего дополнительного расследования, чтобы лучше понять этот сбой.
Завершение текущих миграций инфраструктуры сделает инфраструктуру Proton более устойчивой к неожиданным инцидентам, подобным этому, за счет восстановления более высокого уровня избыточности, который мы обычно используем, и мы работаем над тем, чтобы завершить эту работу как можно быстрее.

Материал опубликован при поддержке сайта habr.com

Читайте так же: