El error tipográfico que provocó la caída de Internet

El error tipográfico que provocó la caída de Internet
3 marzo, 2017 LPSIngenieria
caída de Internet

Internet ha sufrido esta semana uno de esos fallos que afecta a numerosas webs, servicios y aplicaciones que usamos diariamente. El problema lo provocó la caída del servicio S3 (Simple Storage Service) de Amazon Web Services (AWS), uno de los más poderosos de Internet y donde numerosas compañías tienen alojadas sus webs.

Después de casi cinco horas de caída, Amazon ha dado explicaciones sobre lo sucedido. Según el informe publicado por la compañía, no se trató de un ataque, sino simplemente de un error humano.

Caída de Internet

Según parece, un miembro autorizado del equipo ejecutó un comando de acuerdo a lo establecido en el manual, pero una de las entradas del comando ingresó un error tipográfico que provocó que se deshabilitaran un conjunto de servidores más grande de lo previsto.

De entre los servidores que quedaron offline se encontraban dos importantes subsistemas que dan soporte a S3, uno de ellos responsable de gestionar los metadatos y la información de localización de todos los objetos S3 de la región. Al no estar operativo este subsistema, no se podían realizar tareas básicas de recuperación y almacenamiento de datos.

Al descubrirse el error, decidieron reiniciar todo el sistema, algo que llevó más tiempo del previsto. Mientras tanto, otros sistemas web de AWS dejaron de funcionar, como Elastic Compute Cloud (EC2), que ofrece a las compañías que amplíen su almacenamiento en la nube. El problema fue que muchos de los propios servicios de AWS están enlazados a los servicios S3, como el dashboard, que durante el fallo mostraba que todos los servicios estaban funcionando bien.

Según Amazon, el reinicio tardó mucho más de lo que se esperaba debido a que había servidores que nunca habían sido reiniciados, y a pesar de que S3 está diseñado para trabajar con la pérdida de algunos servidores, la caída de los subsistemas afectó de manera imprevista. La compañía asegura que este error ha servido para ajustar los protocolos y hacer cambios, como una depuración periódica de forma programada. Entre otras cosas, los ingenieros no podrán desactivar servidores y el dashboard será un sistema independiente al S3.

0 Comentarios

Dejar una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

*

Este sitio usa Akismet para reducir el spam. Conoce cómo se procesan los datos de tus comentarios.