Dicen que la solución más sencilla es aquella que no se te ocurre en el instante, y todos hemos pasado por ello cuando se trata de fallos en ordenadores, móviles o dispositivos electrónicos, donde después de tratar de investigar qué es lo que está sucediendo siempre acabamos en el clásico reinicio, una solución que funciona en el 95% de los casos.
Pero cuando eres la entidad gubernamental responsable de hacer la encuesta demográfica más importante de tu país y ésta presenta un fallo que representa millones de dólares, entonces la solución del reinicio puede que no surja como primera opción, esto debido a un posible bloqueo derivado del estrés al que se está expuesto. Y aunque suene increíble, esto es exactamente lo que le ocurrió a Australia en uno de sus censos.
El reinicio de los 30 millones de dólares
En agosto de 2016 Australia llevó a cabo su censo nacional, el cual se realiza cada cinco años con la finalidad de obtener diversos datos demográficos del país. En este censo se habilitó por primera vez una página web para que los ciudadanos australianos presentaran los diversos formularios, un trabajo que estuvo a cargo de IBM y del Buró Australiano de Estadísticas (ABS).
Durante un año se hicieron pruebas y simulaciones para que el día del censo se pudiera soportar el tráfico, así como para estar prevenidos en caso de algún ataque cibernético. Lamentablemente las cosas no salieron muy bien, ya que el sistema estuvo caído durante 40 horas. Esto hizo que millones de ciudadanos no pudieran acceder a los formularios en línea, ocasionando que se tuviera que extendender el plazo para completarlo, con todo lo que conlleva, como trabajo extra en servidores, personal trabajando las 24 horas, monitorización en tiempo real y otras tareas derivadas de esta labor.
Después de este fallo, que ocasionó un retraso de casi tres días en la captura de datos, una comisión del Senado abrió una investigación para determinar responsabilidades en la caída de la web del censo, así como para saber qué es lo que había ocurrido. Los resultados son más que sorpresivos, ya que la misma IBM está admitiendo que el falló pudo haberse resuelto al reiniciar uno de los dos routers que controlaban el tráfico.

Michael Shallcross, ingeniero responsable de IBM, explicó a los senadores que durante la madrugada de aquel 9 de agosto de 2016 experimentaron un ataque DDoS proveniente de Singapur, por lo que tuvieron que apagar uno de los routers para mitigar dicho ataque. Con esto tuvieron que simular el impacto de trabajar con sólo un router durante al arranque del censo y en estas pruebas todo salió bien, lo que les daría tiempo para resolver el fallo del otro router.
Pero esto no fue así, el router no soportó el tráfico y alrededor de las 7 de la noche terminó tirando la web y todo el sistema del censo, lo que hizo que el problema se hiciera más grande cuando ya era demasiado tarde. Shallcross añadió que si pudiera regresar en el tiempo hubiera probado el apagar y encender nuevamente el router, ya que esto hubiera reiniciado el sistema y cargado la configuración nuevamente de forma automática.
IBM asegura que ninguno de los datos de los ciudadanos estuvo comprometido y David Kalisch, jefe de estadística en ABS, dijo que el sistema desarrollado por IBM era "robusto y estaba listo", sin embargo durante todo ese día no recibieron una explicación o información acerca de lo que estaba ocurriendo.

Después del caos, Kerry Purcell, director general de IBM en Australia, tuvo que emitir una disculpa pública por el manejo fallido de la web del censo, donde admitía que nadie había sido despedido o sancionado, y negociarían con John Fraser, jefe de Departamento del Tesoro Australiano, sobre los costes de compensación. Pero a día de hoy aún se desconocen la cifra de esta supuesta compensación.
En aquel entonces, ABS estimó que los costes por el fallo en el censo ascendían a más de 30 millones de dólares. Por otro lado, expertos en seguridad aseguran que las medidas tomadas por IBM para contener posibles ataques no fueron las adecuadas, más sabiendo que era la primera vez que ponían a prueba un sistema de este tipo y estaban propensos a ataques.
David Kalisch de ABS también emitió una disculpa pública y se comprometió a que el censo de 2021 tendría un enfoque más riguroso a raíz de lo aprendido en 2016.
Vía | ABC Australia
Ver 33 comentarios
33 comentarios
Land-of-Mordor
"...Por alrededor de un año se hicieron pruebas..."
No, traducción directa no. "Durante un año se hicieron pruebas". Haced el favor de escribir en español y si no os sale, directamente en inglés.
piratastur
Mi novia tiene la costumbre de soplar los conectores y acto seguido apretar todos los botones de cualquier cacharro que deja de funcionar, y mi padre es de la escuela de los la palmadita contundente en el lateral de cualquier electrodoméstico que haga algún ruido raro.
Les voy a poner un uniforme y un chaleco fosforito que diga "Equipo de emergencias digitales" y se los voy a ofrecer a Australia para el censo de 2021 por un par de millones de dolares.
lamarse35
yo llevo 25 años trabajando de todo esto y, por lo que he leido en este artículo, no me queda nada claro que un reinicio del router hubiera sido la solución real. Tal vez sí, pero tal vez no.
Estas cosas se mas que prueban cuando estas bajo el stress del trabajo, dado que reiniciar son meros 3 minutos, y 40h es mucho tiempo para que no se hubiera reiniciado un router 10 veces bajo la desesperación de no encontrar la causa.
dramirezs
jajajajajaja, pero si ya se sabia como solucionarlo, South Park ya habia dado la solucion, reiniciar el router.............
Gerardo Garcia Tapia
La máxima de la computación siempre es y sera "Ya probaron a reiniciarlo", parece que nunca han visto "Los Informáticos"
hast
Estaban probando lo de un router para controlarlos a todos, pero no contaron con el malvado vecino de Singapur xD
julian100
https://www.youtube.com/watch?v=nn2FB1P_Mn8
labandadelbate
Cualquier informático de "pro", ante cualquier problema, siempre te va a decir, "a probado usted a apagar y volver a encender".
No me creo que en 40 horas ninguno lo hiciera.
trikar
Con que funcione Internet en Australia ya nos damos con un canto en los dientes...
chucho21
Soy consultor de redes, trabajo para la empresa líder en equipos de redes a nivel global, y veo específicamente proveedores de servicio con sus respectivas plataformas. Me es muy difícil digerir que con un reinicio podría haberse solucionado. Normalmente un reinicio solamente solucionaría un crash del equipo, lo cual es muy complicado, casi siempre suele ser un proceso, pero de todas formas en arquitecturas modernas eso solo afecta al plano de control y no de datos, por lo que el forwarding debería seguir funcionando. Claro si sus plataformas son robustas. Normalmente el FW o un módulo de FW se ocuparía del DDoS y no debería repercutir más. Solo conozco técnicas para mitigar DDoS desde el punto de vista de enrutamiento, pero estoy casi seguro que podrían haberlo trabajado con su proveedor para solucionarlo.
Ahora apagar un router? seriously?
roller.lolo.3
Hello IT... Have you tried turning It off and on again?
:)
dynaroc
Con un "clear ip bgp *" solucionado