Como seguro se habrán enterado, el pasado martes 28 de febrero internet registró uno de esos grandes fallos que terminó afectando gran parte de las webs, servicios y aplicaciones que usamos diariamente. Esto se debió a una caída del servicio S3 (Simple Storage Service) de Amazon Web Services (AWS), uno de los más grandes de internet y donde compañías como Hootsuite, Twitch, Airbnb, Giphy, Trello, IFTTT, y otras más están alojadas.
Después de la afectación que duró casi cinco horas, hoy 48 horas después Amazon nos informa qué fue lo que pasó. La compañía está publicando un informe donde explica el origen del fallo, donde se confirma que no fue un ataque como muchos pensaban, sino un "simple" error humano.
Errores humanos y la fragilidad de la red
Todo comenzó cuando la mañana del martes algunos miembros del equipo de Amazon S3 estaban depurando el sistema de facturación, lo que consistía en apagar algunos servidores. Un miembro autorizado del equipo ejecutó un comando de acuerdo a lo establecido en el manual, desafortunadamente, una de las entradas del comando se ingresó de forma errónea y terminó deshabilitando un conjunto de servidores más grande de lo previsto.
De entre los servidores que se dejaron offline se encontraban dos importantes subsistemas que dan soporte a S3, uno de ellos es responsable de gestionar los metadatos y la información de localización de todos los objetos S3 de la región. Subsistema que al no estar operativo no se podían realizar tareas básicas de recuperación y almacenamiento de datos.
Al descubrirse el error, el siguiente paso era reiniciar todo el sistema, algo que tomó más tiempo del esperado. Mientras ocurría todo esto, otros sistemas web de AWS dejaron de funcionar, como Elastic Compute Cloud (EC2) que es usado para que las compañías amplíen su almacenamiento en la nube. Y es que la mala noticia es que muchos de los propios servicios de AWS están enlazados a los servicios S3, como el dashboard, que durante el fallo mostraba que todos los servicios estaban funcionando bien, cuando era claro que no era así.
Según Amazon, el reinicio tardó mucho más de lo que se esperaba debido a que muchos de los servidores nunca habían sido reiniciados, y a pesar de que S3 está diseñado para trabajar con la pérdida de algunos servidores, la caída de los subsistemas afectó el desempeño de forma importante. La compañía asegura que este error ha servido para ajustar los protocolos y hacer cambios, como una depuración periódica de forma programada; ahora los ingenieros no podrán no tendrán la capacidad de desactivar servidores; y el dashboard será un sistema independiente al S3.
Ante todo esto, sería interesante saber cuál ha sido el destino del ingeniero, ya que un fallo de este calibre es grave, pero al final hizo todo lo que estaba en el manual. Lo que es importante destacar, es que en plena época de inteligencia artificial, robots y tecnología, la red sigue siendo frágil y más cuando existen fallos humanos.
Más información | Amazon Web Services En Xataka | No, no es que tu conexión vaya mal, es que medio Internet está fallando tras una caída en Amazon S3
Ver todos los comentarios en https://www.xataka.com
VER 40 Comentarios