Falla masiva en la nube de AWS
Falla masiva en la nube de AWS

El servicio en la nube de Amazon, AWS (Amazon Web Services), volvió a funcionar con normalidad luego de un apagón digital global que afectó a miles de empresas, aplicaciones y servicios en todo el mundo, incluidos algunos de los productos más populares de la compañía, como Snapchat, Reddit, Prime Video y Alexa.

Según informó Amazon, aunque el sistema ya opera con normalidad, algunos servicios como AWS Config, Redshift y Connect presentan acumulación de mensajes cuyo procesamiento podría extenderse durante varias horas.

Un fallo que impactó a nivel mundial

El apagón afectó a empresas y usuarios desde Londres hasta Tokio, impidiendo realizar tareas cotidianas como pagos en línea, reservas de vuelos y acceso a aplicaciones esenciales. Entre los servicios impactados se encuentran Reddit, Roblox, Duolingo, Coinbase, Robinhood, Uber, Lyft y Signal. Incluso bancos del Reino Unido, como Lloyds y Banco de Escocia, así como compañías de telecomunicaciones como Vodafone y BT, reportaron fallas en sus plataformas digitales.

El incidente es considerado la mayor interrupción de Internet desde el fallo de CrowdStrike del año pasado, que paralizó sistemas en hospitales, bancos y aeropuertos, evidenciando la vulnerabilidad de las redes interconectadas a nivel mundial.

Causa del fallo

Amazon explicó que la interrupción se originó por problemas en el Sistema de Nombres de Dominio (DNS), lo que impidió que algunas aplicaciones encontraran las direcciones correctas para la API DynamoDB de AWS, una base de datos en la nube crítica para almacenar información de usuarios y otros datos esenciales.

El fallo se produjo dentro de la red interna EC2 (Elastic Compute Cloud) de Amazon, utilizada para proveer capacidad de nube a demanda. El subsistema que monitorea la salud de los balanceadores de carga de red falló, provocando la interrupción masiva.

Expertos recomiendan mejorar la tolerancia a fallos

Ken Birman, profesor de informática en la Universidad de Cornell, señaló que los desarrolladores deben mejorar la tolerancia a fallos y aprovechar las herramientas que AWS ofrece para proteger sus aplicaciones ante problemas de red, incluyendo la creación de copias de seguridad con otros proveedores de la nube.

Este incidente marca al menos la tercera vez en cinco años que el clúster de AWS en Virginia (US-EAST-1) genera un colapso importante, lo que genera preocupación sobre la resiliencia de la infraestructura en la nube más utilizada a nivel global.

🙌 Sumate a Elochodigital

Este contenido es posible gracias al apoyo de nuestros lectores. Con tu aporte ayudás a que sigamos informando lo que pasa en nuestra ciudad.

💚 Apoyar el medio
- Advertisement -

Deja un comentario