Amazon detalla la causa de la interrupción de AWS que obstaculizó miles de sitios y servicios en línea

Una conferencia anterior de AWS re: Invent. (Foto de GeekWire)

Una «adición relativamente pequeña de capacidad» al servicio de procesamiento de datos en tiempo real de Amazon Kinesis provocó una interrupción generalizada de Amazon Web Services la semana pasada, dijo la compañía en un análisis técnico detallado durante el fin de semana.

La adición «hizo que todos los servidores de la flota superaran el número máximo de subprocesos permitidos por la configuración de un sistema operativo», dijo la publicación, que describe una cascada de problemas resultantes que destruyeron miles de sitios y servicios.

La interrupción afectó a los servicios en línea de las grandes empresas de tecnología como Adobe Roku Twilio Flickr Autodesk y otros, incluida la Autoridad de Tránsito Metropolitano de la ciudad de Nueva York . El Washington Post, propiedad del director ejecutivo de Amazon, Jeff Bezos, también se vio afectado por la interrupción.

Fue un incidente especialmente inoportuno para Amazon, que se produjo pocos días antes de su conferencia anual sobre la nube AWS re: Invent. que comienza el martes por la mañana como un evento virtual. La confiabilidad ha sido un tema muy debatido entre Amazon, Google, Microsoft y otros actores importantes en la nube, cada uno de los cuales experimenta interrupciones periódicas.

La explicación subraya la naturaleza interdependiente de los servicios en la nube, ya que los problemas con Kenesis afectaron a Amazon Cognito. servicio de autenticación, tecnología de monitoreo CloudWatch, infraestructura informática sin servidor Lambda y otros servicios de Amazon.

“En el muy corto plazo, nos trasladaremos a servidores de memoria y CPU más grandes, reduciendo la cantidad total de servidores y, por lo tanto, los subprocesos requeridos por cada servidor para comunicarse a través de la flota ”, dijo la compañía, describiendo una de las lecciones aprendidas del incidente. «Esto proporcionará un margen significativo en el recuento de subprocesos utilizados, ya que el total de subprocesos que cada servidor debe mantener es directamente proporcional al número de servidores de la flota».

Amazon se disculpó y dijo que aplicaría las lecciones aprendidas para mejorar aún más su confiabilidad: » Si bien estamos orgullosos de nuestro largo historial de disponibilidad con Amazon Kinesis, sabemos lo importante que son este servicio y los demás servicios de AWS que se vieron afectados para nuestros clientes, sus aplicaciones, usuarios finales y sus negocios. Haremos todo lo posible para aprender de este evento y utilizarlo para mejorar aún más nuestra disponibilidad ”.

Comentarios

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *